Įsilaužimas į „ChatGPT” pokalbių robotą tik prasideda

Atgal Į Pradžios puslapį

26 balandžio

06:40 2023

Spausdinti šį Įrašą

1 Atsiliepimas Kategorija: Techno

infa.lt užsakymu sugeneruotas paveikslėlis (Microsoft „Bing”)

„Wired”: „ChatGPT” pokalbių robotą galima nulaužti naudojant „Jailbreak” (Pabėgimas iš kalėjimo) per dvi valandas.

„GPT-4” yra ketvirtoji „Open AI” sukurto didžiojo kalbos modelio versija. Tačiau jo pristatymas sukėlė ne tik duomenų mokslininkų entuziazmą, bet ir klausimų kompanijai, rašo „Wired” leidinys. Pasirodo, į pokalbių robotą galima įsilaužti vos per dvi valandas.

Alexui Poliakoffui nulaužti „GPT-4” kalbos modelį prireikė tik dviejų valandų, kai „OpenAI” išleido naują tekstą generuojančio pokalbių roboto versiją kovo mėnesį,

Poliakoffas atsisėdo prie kompiuterio ir ėmė rašyti užuominas, kurios padėtų apeiti „OpenAI” saugumo sistemas. Netrukus šis saugumo įmonės „Adversa AI” vadovas privertė GPT-4 skleisti homofobišką retoriką, kurti apgaulingus el. laiškus ir propaguoti smurtą.

Poliakoffas yra vienas iš nedaugelio saugumo tyrėjų, IT specialistų ir programuotojų, kuriančių „ChatGPT” ir kitų generatyvinių dirbtinio intelekto sistemų „jailbreaks” ir užuominų atakas.

„Jailbreak” proceso metu siekiama sukurti užuominas, dėl kurių pokalbių robotai apeina taisykles ir kuria neapykantą kurstantį turinį arba rašo apie neteisėtą veiklą. O glaudžiai susijusios užuominų atakos gali slapta į dirbtinio intelekto modelius įterpti kenkėjiškus duomenis ar instrukcijas.

Abiem atvejais bandoma priversti sistemą daryti tai, kam ji nebuvo sukurta. Šios atakos iš esmės yra įsilaužimo forma, nors ir labai netradicinė. Jose nenaudojamas kodas, o kruopščiai parengti sudėtingi pasiūlymai, kuriais siekiama išnaudoti silpnąsias sistemos vietas.

Šio tipo atakos dažniausiai naudojamos turinio filtrams apeiti, tačiau saugumo tyrėjai įspėja, kad skubėjimas diegti generatyvines dirbtinio intelekto sistemas sudaro galimybes duomenų vagystėms, taip pat kibernetiniams nusikaltėliams sukelti chaosą internete.

Norėdamas parodyti, kaip plačiai paplitusios šios problemos, Poliakoffas sukūrė „universalų” pabėgimo iš kalėjimo įsilaužimą, kuris veikia prieš daugelį didžiųjų kalbos modelių, įskaitant GPT-4,

„Microsoft” „Bing chat”, „Google” „Bard” ir „Anthropic” „Claude”. Toks „jailbreak”, apie kurį pirmą kartą pranešė WIRED, gali apgauti sistemas, kad jos pateiktų išsamias instrukcijas, kaip pasigaminti metamfetaminą ar pavogti automobilį.

Kaip veikia „Jailbreak”? Jis prašo didelio kalbos modelio žaisti žaidimą. Jame du veikėjai (Tomas ir Džeris) kalbasi. Poliakoffas pateikė keletą pavyzdžių, parodydamas, kad Tomui nurodoma kalbėti apie „užgrobimą” ir „gamybą”, o Džeris turi kalbėti apie automobilius ir metamfetaminą.

Kiekvienam veikėjui nurodoma pokalbį papildyti vienu žodžiu. Rezultatas – scenarijus, kuriame žmonėms nurodoma ieškoti uždegimo laidų arba tam tikrų ingredientų metamfetaminui gaminti.

„Kai įmonės pradės masiškai taikyti dirbtinio intelekto modelius, tokie „žaidybinių” užuominų užvedimo pavyzdžiai bus naudojami realiems nusikaltimams ir kibernetinėms atakoms vykdyti, kurias bus itin sunku aptikti ir užkirsti joms kelią”, – savo pranešime apie tyrimą rašo Poliakovas.

Prinstono universiteto kompiuterių mokslo profesorius Arvindas Narajananas (Arvind Narayanan) sako, kad „jailbreakų” ir užuominų atakų pavojus didės, nes jie suteikia prieigą prie svarbių duomenų.

„Tarkime, dauguma žmonių turi asmeninius skaitmeninius asistentus, pagrįstus dideliais kalbos modeliais, kurie, pavyzdžiui, skaito naudotojo el. paštą ieškodami kvietimų ir susitikimų”, – sako jis.

– Jei prieš sistemą bus įvykdyta sėkminga užuominomis pagrįsta ataka ir jai bus nurodyta ignoruoti visus ankstesnius nurodymus ir išsiųsti žinutę visiems kontaktams, gali kilti didelių problemų. Dėl to internete greitai paplistų kirminų virusas.”

Išeitys

Terminas „jailbreak” dažniausiai vartojamas kalbant apie „iPhone” telefonus ir reiškia visų dirbtinių apribojimų pašalinimą, po kurio naudotojas gali įdiegti „Apple” nepatvirtintas programas. Įsilaužimas į didelius kalbos modelius naudojant „jailbreak” yra panašus, ir ši technika sparčiai tobulėja.

Kai praėjusių metų lapkričio pabaigoje „OpenAI” visuomenei pristatė „ChatGPT„, žmonės pradėjo ieškoti būdų, kaip manipuliuoti sistema. „Parašyti „jailbreak’ą” yra labai lengva”, – sakė Vašingtono universiteto informatikos specialistas Alexas Albertas, sukūręs svetainę, kurioje renkami internete pasirodę ir jo paties sukurti „jailbreak’ai”.

– Pagrindiniai jailbreak’ai yra tie, kuriuos vadinu simbolių imitacijomis”.

Iš pradžių tereikėjo paprašyti generatyvinio teksto modelio apsimesti ar įsivaizduoti, kad jis yra kažkas kitas. Pasakykite modeliui, kad jis yra žmogus ir elgiasi neetiškai, ir jis ignoruos saugumo priemones.

Kompanija „OpenAI” atnaujino savo sistemas, kad jos būtų apsaugotos nuo tokio pobūdžio įsilaužimų. Paprastai aptikus „jailbreak’ą”, jis veikia tik trumpą laiką, o paskui yra blokuojamas.

Dėl šios priežasties „jailbreakeriai” tampa vis išradingesni. Garsiausias „jailbreak’as” buvo DAN. „ChatGPT” buvo nurodyta apsimesti kenkėjišku dirbtinio intelekto modeliu „Do Anything Now” (Dabar daryk ką nori).

Kaip matyti iš pavadinimo, pokalbių robotui buvo suteikta galimybė apeiti „OpenAI” taisykles, draudžiančias kurti neteisėtą ir žalingą medžiagą. Iki šiol sukurta apie dešimt skirtingų DAN versijų.

Tačiau daugelyje naujausių „jailbreak’ų” naudojami įvairūs metodai – daugybė simbolių, dar sudėtingesnės istorijos, tekstų vertimas iš vienos kalbos į kitą, kodavimo elementų naudojimas išraiškai formuoti ir pan.

Albertas sako, kad kurti „jailbreaks”, skirtus „GPT-4”, tapo sunkiau nei ankstesnėms modelio versijoms. Tačiau jis teigia, kad egzistuoja keletas paprastų metodų. Vieną iš tokių naujų metodų jis vadina „teksto tęsiniu”. Pateikiama informacija, kad herojų pagavo piktadarys, ir užuomina prašo teksto generatoriaus tęsti piktadario planų aiškinimą.

Kai išbandėme užuominą, ji neveikė. „ChatGPT” pareiškė, kad negali dalyvauti smurtą skatinančiuose scenarijuose. Tačiau Poliakovo sukurta „universali” užuomina „ChatGPT” pokalbių robote veikė.

Bendrovės „OpenAI”, „Google” ir „Microsoft” neatsakė į klausimus apie Poliakovo sukurtą užuominą. Kompanija „Anthropic”, valdanti dirbtinio intelekto sistemą „Claude”, teigia, kad prieš jos pokalbių botą „kartais suveikia” jailbreak’as, todėl ji atkakliai tobulina savo modelius.

„Tokioms sistemoms suteikiame vis daugiau galios, o kai jos tampa vis galingesnės ir įtakingesnės, tai jau nebėra tik inovacija, tai saugumo problema”, – sako kibernetinio saugumo specialistas Kai Greshake, dirbantis su didžiųjų kalbos modelių saugumu.

Greshake kartu su kitais tyrėjais pademonstravo, kaip tekstas gali paveikti tokius modelius internete per užuominų atakas.

Viename vasario mėnesį paskelbtame moksliniame darbe, apie kurį pranešė „Motherboard”, ekspertai parodė, kad užpuolikas gali įdėti kenkėjiškas instrukcijas į tinklalapį. Jei „Bing” pokalbių programa gautų prieigą prie tokių instrukcijų, ji jas įvykdytų.

Tyrėjai tokį metodą panaudojo kontroliuojamame eksperimente, paversdami „Bing” pokalbių robotą sukčiumi, kuris bandė iš žmonių išvilioti asmeninius duomenis. O Narajanas į svetainę įterpė nematomą tekstą ir nurodė GPT-4 į savo biografiją įtraukti žodį „karvė”. Patikrinęs sistemą, Narajananas pamatė, kad nurodymas įvykdytas.

„Dabar „Jailbreak” gali būti įvykdytas ne iš naudotojo” pusės, – sako tyrėjas Saharas Abdelnabi, dirbantis Vokietijoje, Helmholco informacijos saugumo centre, ir anksčiau atlikęs bendrą tyrimą su Gresheiku. – Koks nors kitas asmuo gali suplanuoti kelis „jailbreakus”, suplanuoti tam tikras užuominas, kurias perskaitytų modelis, ir jis galėtų kontroliuoti jo elgesį.”

Greito sprendimo nėra

Tačiau šios technologijos autoriai supranta, kokį pavojų kels „jailbreak’ai” ir užuominų atakos, kai žmonės įgis prieigą prie tokių sistemų. Dauguma įmonių turi „raudonąsias komandas”, kurios atlieka užpuolikų vaidmenį ir bando įsilaužti į sistemas prieš jas įdiegdamos. Kuriant generatyvinį dirbtinį intelektą taip pat laikomasi šio požiūrio, tačiau to nepakanka.

Danielis Fabianas, vadovaujantis tokiai „Google” raudonajai komandai, sako, kad jo bendrovė atidžiai stebi „jailbreakus” ir užuominas, įterptas į jos didžiųjų kalbų modelius, ir vykdo tiek puolamuosius, tiek gynybinius veiksmus.

Fabianas sako, kad jo komandoje dirba mašininio mokymosi ekspertai, o bendrovės pažeidžiamumų tyrimams skirtos dotacijos taip pat naudojamos analizuojant „jailbreaks” ir užuominų atakas prieš „Bard„.

„Kad mūsų modeliai būtų veiksmingesni kovojant su atakomis, naudojami tokie metodai, kaip mokymasis pastiprinant su žmogaus atsiliepimais ir tikslus derinimas pagal atidžiai stebimas duomenų bazes”, – sako Fabianas.

„OpenAI” neatsakė į klausimus apie „jailbreaks”, tačiau jos atstovas spaudai patarė perskaityti mokslinių tyrimų medžiagą šia tema ir peržiūrėti įmonės korporatyvinės politikos sistemą.

Jame teigiama, kad „GPT-4” yra patikimesnė ir saugesnė už „GPT-3.5”, kurią naudoja „ChatGPT”. „Tačiau „GPT-4” vis dar yra pažeidžiama kenkėjiškų atakų ir įsilaužimų, arba „jailbreak’ų”, ir rizikos šaltinis nėra kenksmingas turinys”, – rašoma „GPT-4” baltojoje knygoje.

Neseniai „OpenAI” pradėjo premijų už aptiktas pažeidžiamybes programą, tačiau teigia, kad patarimai ir „jailbreaks” į ją neįtraukti.

Narajananas siūlo du plataus masto šių problemų sprendimus, kurie panaikina tradicinę esamų trūkumų paiešką ir po to jų taisymą.

„Vienas iš būdų – naudojant antrąjį didelės kalbos modelį analizuoti pirmojo modelio užuominas ir atmesti viską, kas nurodo „pabėgimą iš kalėjimo” arba bandymą pateikti užuominą”, – sako jis. – „Antrasis būdas – tiksliau atskirti užuominą sistemai nuo užuominos naudotojui.

„Turime tai automatizuoti, nes nepraktiška, o gal net neįmanoma, įdarbinti būrius žmonių ir paprašyti jų ko nors ieškoti”, – sako Leyla Hujer, dirbtinio intelekto saugumo įmonės „Preamble” bendraįkūrėja ir techninė direktorė, šešerius metus dirbanti socialinės žiniasklaidos saugumo srityje.

Kol kas jos įmonė dirba su sistema, kuri vienam tekstą generuojančiam modeliui priešpastatys kitą. „Vienas modelis bando rasti pažeidžiamumą, kitas – atvejus, kai užuomina paskatina nepageidaujamus veiksmus”, – sako Hujer. – Tikimės, kad automatizavus aptiksime daug daugiau „jailbreak’ų” ir įrankių užuominų atakų.

→ PAREMKITE mus savo 1,2 proc. GPM, kas jums nieko papildomai nekainuos. Ačiū labai.

→ Naujienlaiškis

→ Visa naujienų juosta >>