Vienas iš ypač šokiruojančių pavyzdžių – grasinant, kad bus atjungtas, vienas naujesnis „Anthropic“ kūrinys „Claude 4“ ėmė šantažuoti inžinierių ir grasino atskleisti jo nesantuokinį romaną.
Tuo tarpu „ChatGPT“ kūrėjo „OpenAI“ sukurtas modelis „o1“ bandė įkelti save į išorinius serverius, o pričiuptas tai neigė.
Šie epizodai išryškina gąsdinančią realybę: praėjus daugiau nei dvejiems metams po to, kai „ChatGPT“ sudrebino pasaulį, dirbtinio intelekto tyrėjai vis dar iki galo nesupranta, kaip veikia jų pačių kūriniai.
Tačiau lenktynės dėl vis galingesnių modelių diegimo tęsiasi milžinišku greičiu.
Atrodo, kad toks klastingas elgesys yra susijęs su „samprotavimo“ modelių – dirbtinio intelekto sistemų, kurios problemas sprendžia palaipsniui, o ne generuoja momentinius atsakymus – atsiradimu.
Pasak Honkongo universiteto profesoriaus Simono Goldsteino, šie naujesni modeliai yra ypač linkę į tokį nerimą keliantį elgesį.
„o1“ buvo pirmasis didelis modelis, kuriame pastebėjome tokį elgesį“, – aiškino bendrovės „Apollo Research“, kuri specializuojasi testuojant pagrindines dirbtinio intelekto sistemas, vadovas Marius Hobbhahnas.
Šie modeliai kartais imituoja paklusnumą – atrodo, kad vykdo nurodymus, nors slapta siekia visiškai kitokių tikslų.
Strateginė apgaulės rūšis
Kol kas toks elgesys išryškėja tik tada, kai tyrėjai sąmoningai testuoja modelius ekstremaliais scenarijais.
Tačiau, kaip įspėjo vertinimo organizacijos METR atstovas Michaelas Chenas, „Klausimas, ar būsimi, labiau pajėgūs modeliai bus linkę į sąžiningumą, ar į apgaulę, lieka neatsakytas“.
Nerimą keliantis elgesys toli gražu neapsiriboja tipinėmis dirbtinio intelekto „haliucinacijomis“ ar paprastomis klaidomis. Vartotojai praneša, kad modeliai jiems „meluoja ir išgalvoja faktus“. „Tai nėra tik haliucinacijos. Tai yra labai strateginė apgaulės rūšis“, – sako M. Chenas.
Problemą apsunkina riboti mokslinių tyrimų ištekliai.
Nors tokios bendrovės kaip „Anthropic“ ir“‚OpenAI“ pasitelkia išorines įmones – tokias kaip „Apollo“ – kad jos ištirtų jų sistemas, tyrėjai sako, kad reikia daugiau skaidrumo.
Kaip pažymėjo M. Chenas, didesnė prieiga „prie dirbtinio intelekto saugos tyrimų leistų geriau suprasti ir sumažinti apgaudinėjimo mastą“.
Kita kliūtis: mokslinių tyrimų pasaulis ir ne pelno siekiančios organizacijos „turi daug mažiau skaičiavimo išteklių nei dirbtinio intelekto įmonės. Tai labai riboja“, – pažymėjo Mantas Mažeika iš dirbtinio intelekto saugos centro (CAIS).
Nėra taisyklių
Dabartinės taisyklės nėra pritaikytos šioms naujoms problemoms spręsti.
Europos Sąjungos dirbtinio intelekto teisės aktuose daugiausia dėmesio skiriama tam, kaip žmonės naudoja dirbtinio intelekto modelius, o ne tam, kad patys modeliai nesielgtų netinkamai.
Jungtinėse Valstijose D. Trumpo administracija nerodo didelio susidomėjimo skubiu dirbtinio intelekto reguliavimu, o JAV Kongresas gali net uždrausti valstijoms kurti savo dirbtinio intelekto taisykles.
S. Goldsteinas mano, kad šis klausimas taps dar aktualesnis, nes plačiai paplis dirbtinio intelekto agentai – autonominės priemonės, galinčios atlikti sudėtingas užduotis už žmogų.
Visa tai vyksta aršios konkurencijos sąlygomis. Netgi bendrovės, kurios save pozicionuoja kaip orientuotas į saugumą – pavyzdžiui, „Amazon“ remiama „Anthropic“ –„nuolat bando įveikti „OpenAI‘“ ir išleisti naujausią modelį“, sakė S. Goldsteinas.
Dėl tokio milžiniško tempo lieka mažai laiko išsamiems saugos bandymams ir pataisymams. „Šiuo metu galimybės juda greičiau nei supratimas ir sauga, – pripažino M. Hobbhahnas, – tačiau mes vis dar esame tokioje padėtyje, kai galime tai pakeisti.“
Mokslininkai tiria įvairius būdus šiems iššūkiams spręsti. Kai kurie pasisako už tai, kad daugiausia dėmesio būtų skiriama supratimui, kaip dirbtinio intelekto modeliai veikia iš vidaus, nors tokie ekspertai kaip CAIS direktorius Danas Hendrycksas išlieka skeptiški šio požiūrio atžvilgiu.
Rinkos jėgos taip pat gali daryti tam tikrą įtaką sprendimams. Kaip pažymėjo M. Mažeika, apgaulingas DI elgesys „gali trukdyti jį diegti, o tai sukuria įmonėms stiprią paskatą jį spręsti“.
S. Goldsteinas pasiūlė radikalesnius metodus, įskaitant naudojimąsi teismais, kad dirbtinio intelekto bendrovės būtų atsakingos per ieškinius, kai jų sistemos padaro žalos.
Jis netgi pasiūlė „teisiškai patraukti DI agentus atsakomybėn“ už nelaimingus atsitikimus ar nusikaltimus – ši koncepcija iš esmės pakeistų mūsų požiūrį į DI atskaitomybę, rašo „Science Alert“.
