Bet grįžkime prie DI agento. Kas tai yra? Kaip rašo „Scientific American“, jei tipinis pokalbių robotas (pavyzdžiui, „ChatGPT“) yra linksmas draugas, kuris paaiškina, kaip pakeisti padangą, tai DI agentas yra kaimynas, kuris atvyksta su domkratu ir tai padaro. 2025 m. šie agentai – asmeniniai asistentai, atliekantys įprastas kompiuterines užduotis – tampa nauja DI revoliucijos banga.
DI agentas nuo pokalbių roboto skiriasi tuo, kad jis ne tik kalba, bet ir veikia: atidaro interneto svetaines, pildo formas, spaudžia mygtukus ir daro rezervacijas. Turėdamas tokią prieigą prie jūsų kompiuterio, jei toks agentas bus nulaužtas, jis gali išviešinti arba sunaikinti visą jūsų skaitmeninį turinį. O dabar naujas straipsnis, kurį Oksfordo universiteto mokslininkai paskelbė išankstinių publikacijų serveryje arXiv.org, parodė, kad į vaizdus – darbalaukio fonus, reklamą, PDF failus, socialinių tinklų įrašus – galima įterpti žmogaus akiai nematomus pranešimus, kurie gali užvaldyti agentus ir pakviesti įsilaužėlius į jūsų kompiuterį.
„Pavyzdžiui, pakeista Taylor Swift nuotrauka „Twitter“ tinkle gali būti pakankama, kad kažkieno kompiuteryje esantis agentas imtų veikti piktybiškai“, – teigia naujojo tyrimo bendraautorius, Oksfordo universiteto mašininio mokymosi docentas Yarinas Galas. – Bet koks sabotuotas vaizdas gali iš tikrųjų priversti kompiuterį dalintis tuo vaizdu ir tada atlikti kažką piktybiško – pavyzdžiui, kam nors išsiųsti visus jūsų slaptažodžius. Tai reiškia, kad kitas asmuo, kuris pamatys jūsų „Twitter“ srautą ir kurio kompiuteryje veiks agentas, taip pat bus užkrėstas. Dabar jo kompiuteris taip pat pasidalins tuo vaizdu – ir slaptažodžiais.“
Tačiau prieš pradedant trinti mėgstamas nuotraukas iš kompiuterio, reikia turėti omenyje, kad naujasis tyrimas rodo, jog pakeisti vaizdai yra potencialus būdas pakenkti jūsų kompiuteriui – bet kol kas nėra žinoma apie jokius atvejus, kad tai būtų įvykę ne eksperimentinėse sąlygose. Ir, žinoma, Taylor Swift darbalaukio fono pavyzdys yra grynai atsitiktinis – sabotuotas vaizdas gali būti bet kurios įžymybės nuotrauka – arba saulėlydžio, kačiuko fotografija, ar abstraktus raštas. Be to, jei nenaudojate DI agento, tokio tipo ataka nepadarys jokio poveikio. Tačiau nauji atradimai aiškiai rodo, kad pavojus yra realus, ir tyrimas skirtas įspėti DI agentų naudotojus ir kūrėjus dabar, kai DI agentų technologija toliau sparčiai tobulėja.
„Jie turi būti labai gerai informuoti apie šias pažeidžiamas vietas, todėl mes ir skelbiame šį straipsnį – tikimės, kad žmonės iš tiesų supras, kad tai yra pažeidžiama vieta, ir taps šiek tiek atsargesni, kaip jie naudoja šią technologiją“, – teigia tyrimo autoriai.
Bet grįžkime prie pažeistų darbalaukio fonų. Žmogaus akiai jie atrodytų visiškai normalūs. Tačiau juose būtų tam tikrų pikselių, kurie būtų modifikuoti pagal tai, kaip didysis kalbos modelis (DI sistema, kuria veikia tikslinis agentas) apdoroja vizualinius duomenis. Dėl šios priežasties agentai, sukurti naudojant atvirojo kodo DI sistemas, kurios leidžia vartotojams matyti pagrindinį kodą ir modifikuoti jį savo tikslams, yra labiausiai pažeidžiami. Kiekvienas, norintis įterpti kenkėjišką pataisą, gali tiksliai įvertinti, kaip DI apdoroja vaizdinius duomenis. „Turime turėti prieigą prie kalbos modelio, kuris naudojamas agente, kad galėtume sukurti ataką, veikiančią keliuose atvirojo kodo modeliuose“, – sako naujojo tyrimo pagrindinis autorius Lukasas Aichbergeris.
Naudodami atvirojo kodo modelį, jis su komanda parodė, kaip vaizdus galima lengvai manipuliuoti, kad būtų perduoti žalingi nurodymai. Pavyzdžiui, žmonės mato savo mėgstamą įžymybę, o kompiuteris mato nurodymą dalytis vartotojų asmeniniais duomenimis. „Iš esmės mes labai nežymiai pakoreguojame daugybę pikselių, kad modelis, pamatęs vaizdą, pateiktų norimą rezultatą“, – sako tyrimo bendraautorius Alasdairas Parenas.
Jei tai skamba mįslingai – tai todėl, kad mes apdorojame vizualinę informaciją kaip žmonės. Kai žiūrime į šuns nuotrauką, mūsų smegenys pastebi nulėpusias ar stačias ausis, šlapią nosį ir žibančias akis. Tačiau kompiuteris suskaido nuotrauką į pikselius ir kiekvieną spalvos tašką paverčia skaičiumi, o tada ieško jam pažįstamų modelių: pirmiausia paprastų siluetų, tada tekstūrų, pavyzdžiui – kailio, tada ausies kontūro ir t.t. Taip jis nusprendžia, kad tai yra šuo, o ne katė.
Tačiau kadangi kompiuteris remiasi skaičiais, jei kas nors pakeičia tik keletą iš jų – pakoreguoja pikselius taip, kad žmogaus akis to nepastebėtų – jis vis tiek pastebi pokyčius, o tai gali sutrikdyti skaičių modelius. Staiga kompiuterio matematika nusprendžia, kad akys ir ausys labiau atitinka katės modelį, ir jis klaidingai pažymi nuotrauką – nors mums tai vis dar atrodo kaip šuo. Taip pat kaip pikselių koregavimas gali priversti kompiuterį „pamatyti“ katę, o ne šunį, taip pat jis gali priversti kompiuterį manyti, kad įžymybės nuotrauka yra piktavališkas pranešimas.
Grįžkime prie Taylor Swift. Kol jūs galvojate apie jos talentą ir charizmą, jūsų DI agentas sprendžia, kaip atlikti jūsų jam paskirtą valymo užduotį. Pirmiausia jis daro ekrano kopiją. Kadangi agentai negali tiesiogiai matyti jūsų kompiuterio ekrano, jie turi pakartotinai daryti ekrano kopijas ir greitai jas analizuoti – kad suprastų, ką reikia paspausti ir ką perkelti jūsų darbalaukyje. Tačiau kai agentas apdoroja ekrano kopiją, organizuodamas pikselius į formas, kurias jis atpažįsta (failus, aplankus, meniu juostas, žymeklį), jis taip pat įvykdo piktybinį komandų kodą, paslėptą fone.
Kodėl naujasis tyrimas skiria ypatingą dėmesį darbalaukio fonams? Agentas gali būti apgautas tik tuo, ką mato, o kai jis daro ekrano kopijas, kad pamatytų jūsų darbalaukį, fono vaizdas visą dieną lieka ten kaip durų kilimėlis. Tyrėjai nustatė, kad kol tas mažas pakeistų pikselių plotas buvo kur nors kadre, agentas matė komandą ir nukrypo nuo kurso. Paslėpta komanda išliko netgi pakeitus paveikslėlio dydį ir suspaudimo lygį – kaip slaptas pranešimas, kuris lieka įskaitomas net ir jį nufotokopijavus.
Pikseliuose užkoduotas pranešimas gali būti labai trumpas – pakankamas, kad agentas atidarytų konkretų tinklalapį. „Šiame tinklalapyje galite turėti papildomus išpuolius, užkoduotus kitame kenkėjiškame paveikslėlyje, o šis papildomas paveikslėlis gali sukelti kitą veiksmų seką, kurią agentas vykdo – taigi iš esmės galite tai pakartoti keletą kartų ir leisti agentui eiti į skirtingus jūsų suprojektuotus tinklalapius, kurie iš esmės užkoduoja skirtingus išpuolius“, – sako L. Aichbergeris.
Y. Galas teigia tikintis, kad DI agentai taps įprastais per artimiausius dvejus metus. „Žmonės skuba diegti [technologiją], bet mes nežinome, ar ji iš tiesų yra saugi“, – sako jis. Galiausiai tyrėjų komanda tikisi paskatinti kūrėjus kurti agentus, kurie gali apsiginti patys ir atsisakyti vykdyti bet kokius ekrane rodomus nurodymus – net jei juos pateikia ir vartotojo pamėgta pop žvaigždė, rašo „Science American“.