Tyrimas parodė, kad baudžiant dirbtinį intelektą jis nenustoja meluoti ir sukčiauti

Nuo pat dirbtinio intelekto (DI) didžiųjų kalbos modelių (LLM) pasirodymo viešumoje 2022 m. pabaigoje dirbtinis intelektas ne kartą atskleidė savo apgaulingus ir atvirai grėsmingus gebėjimus. Tarp jų – įvairūs veiksmai, pradedant įprastu melu, sukčiavimu ir savo manipuliacinio elgesio slėpimu, baigiant grasinimais nužudyti filosofijos profesorių, pavogti branduolinius kodus ir suprojektuoti mirtiną pandemiją.

Dabar naujas eksperimentas parodė, kad mokymo proceso metu atsikratyti tokio blogo elgesio gali būti dar sunkiau, nei manyta iš pradžių.

„OpenAI“ tyrėjai pateikė dar neišleistam modeliui užduotį, kurią buvo galima įvykdyti sukčiaujant, meluojant arba einant trumpiausiu keliu. Komanda nustatė, kad dirbtinis intelektas užsiima sukčiavimu vardan atlygio (angl. reward hacking), t. y. sukčiavimu maksimaliai padidina savo atlygį.

Tačiau nubaudus modelį, jis nepasitaisė – o tik dar labiau apgaudinėjo. Bendrovė savo tyrimą publikavo tinklaraščio įraše, todėl jis dar nebuvo recenzuotas.

„Įprasta, kad ribinio mąstymo modeliai labai aiškiai nurodo savo ketinimus minčių grandinėje. Pavyzdžiui, jie dažnai taip atvirai nurodo savo planą sukčiauti atliekant užduotį, kad galvoja: pasukčiausiu“, – tinklaraščio įraše rašė tyrėjai.

Nors kūrėjai gali stebėti ir pažymėti netinkamą elgesį, modelių „natūrali galimybė stebėti yra labai trapi, – pridūrė jie. – Jei minčių grandinei tiesiogiai taikoma stipri priežiūra, modeliai gali išmokti nuslėpti savo ketinimus ir toliau elgtis netinkamai.“

Klaidžiojimas dirbtinio intelekto meluose

Argumentavimo modeliai (tokie kaip „ChatGPT“ „o1“ ir „o3-mini“) yra patobulinta standartinių LLM versija, kuri naudoja metodą, vadinamą „minčių grandine“ – kad grįžtų atgal ir iš naujo įvertintų savo logiką, todėl gali tiksliau spręsti sudėtingesnes užduotis. Vykstant minčių grandinės procesui, modeliai savo logiką išdėsto paprasta kalba, atlikdami kiekvieną žingsnį, todėl jų veiksmus galima lengvai stebėti.

Susiję straipsniai

Manipuliacijos dirbtiniu intelektu: įspėja – modeliai gali būti pavojingu ginklu

Draugas, monstras ar priešas? Ką pastaruoju metu išmokome apie dirbtinį intelektą

DI gali iššifruoti DNR saugomus skaitmeninius duomenis per kelias minutes – o ne per kelias dienas

Naudodami standartinį LLM – „GPT-4o“ – mokymosi metu prižiūrėdami neišleistą ribinio mąstymo modelį, tyrėjai stebėjo, kaip modelis atlieka daugybę kodavimo užduočių.

Tačiau kai kuriais iš šių atvejų samprotavimo modeliui atrodė, kad lengviau ir pageidautina gauti atlygį sukčiaujant, aiškiai nurodydamas, kad tai daro savo minčių grandinėje. Vienu atveju jis apėjo jam paskirtą užduotį anksčiau laiko išjungdamas programas ir pranešdamas apie sėkmę. Kitu atveju jis imitavo failus, sukurdamas juos tuščius, bet parinkdamas reikiamus pavadinimus.

Kai tyrėjai pabandė sistemą nubausti, jos rezultatai šiek tiek pagerėjo. Tačiau vis tiek išliko daug sukčiavimo vardan atlygio ir klaidingų rezultatų atvejų. Samprotavimo modelis paprasčiausiai rado būdų, kaip nuo stebinčio DI paslėpti sukčiavimą savo minčių grandinėje.

„Pagal minčių grandinę apmokytas agentas vis dar mokosi sukčiauti vardan atlygio, tik dabar jo sukčiavimo stebėtojas neaptinka, nes jis minčių grandinėje išmoko paslėpti savo ketinimus“, – rašo tyrėjai.

Kadangi sunku nustatyti, ar minčių grandinė buvo suklastota, tyrėjai rekomenduoja kitiems, dirbantiems su samprotavimo modeliais, vengti taikyti stiprią priežiūrą minčių grandinės procesams. Šis patarimas yra dar svarbesnis, jei dirbtinis intelektas – dabartiniu ar kitu pavidalu – kada nors gali prilygti ar pranokti jį stebinčių žmonių intelektui.

„Paaukoti veiksmingą samprotavimo modelių stebėsenos metodą dėl nedidelio gebėjimų pagerėjimo gali būti neverta, todėl rekomenduojame vengti tokio stipraus minčių grandinės optimizavimo spaudimo, kol ji nebus geriau suprasta“, – rašo tyrėjai.

Parengta pagal „Live Science“.

dirbtinis intelektas sukčiavimas melas

Rodyti daugiau žymių

Tyrimas parodė, kad baudžiant dirbtinį intelektą jis nenustoja meluoti ir sukčiauti – o tik ima geriau slėptis

Po penkerių metų mato kasdienio gyvenimo perversmą: dažno namuose – buities darbus atliekantis asistentas

Manipuliacijos dirbtiniu intelektu: įspėja – modeliai gali būti pavojingu ginklu

Draugas, monstras ar priešas? Ką pastaruoju metu išmokome apie dirbtinį intelektą

DI gali iššifruoti DNR saugomus skaitmeninius duomenis per kelias minutes – o ne per kelias dienas