Nors dirbtinio intelektui robotai paprastai gali pranokti žmones, atlikdami teksto prognozavimo ir žinių užduotis, kai jiems pavedama atlikti svarbesnius projektus – pavyzdžiui, nuotolinę pagalbą vadovams – jie nėra tokie veiksmingi.
Norint kiekybiškai įvertinti šiuos dirbtinio intelekto modelių našumo pasiekimus, naujame tyrime pasiūlyta vertinti dirbtinio intelekto modelius pagal užduočių, kurias jie gali atlikti, atlikimo trukmę – palyginti su tuo, kiek laiko tai užtrunka žmonėms. Tyrėjai savo išvadas kovo 30 d. paskelbė išankstinių publikacijų serveryje „arXiv“.
„Manome, kad užduočių, kurias modeliai gali atlikti, trukmės matavimas yra naudinga priemonė, padedanti suprasti dabartines dirbtinio intelekto galimybes. Tai prasminga: Atrodo, kad dirbtinio intelekto agentams dažnai sunkiau sekasi sujungti ilgesnes veiksmų sekas, nei jiems trūksta įgūdžių ar žinių, reikalingų pavieniams veiksmams atlikti“, – aiškina dirbtinio intelekto organizacijos „Model Evaluation & Threat Research“ (METR).
Dirbtinio intelekto sukurti vaistai ir patikimumas moksle: ar tai nėra pavojinga?
Tyrėjai nustatė, kad dirbtinio intelekto modeliai beveik 100 proc. sėkmingai atliko užduotis, kurioms atlikti žmonėms prireiktų mažiau nei keturių minučių. Tačiau šis rodiklis sumažėjo iki 10 proc., kai užduočių atlikimas užtrunka ilgiau nei keturias valandas. Senesni dirbtinio intelekto modeliai ilgesnes užduotis atliko prasčiau nei naujausios sistemos.
To buvo galima tikėtis – nes tyrime pabrėžta, kad per pastaruosius šešerius metus maždaug kas septynis mėnesius padvigubėjo užduočių, kurias universalūs dirbtinio intelekto modeliai gali atlikti su 50 proc. patikimumu, trukmė.
Atlikdami tyrimą tyrėjai naudojo įvairius dirbtinio intelekto modelius – nuo „Sonnet 3.7“ ir „GPT-4“ iki „Claude 3 Opus“ ir senesnių GPT modelių – ir išbandė juos atlikdami įvairias užduotis. Tai buvo įvairios užduotys – nuo lengvų, kurios paprastai žmonėms užtrunka porą minučių (pvz., pagrindinių faktų paieška „Vikipedijoje“), iki tokių, kurioms atlikti ekspertams prireikia kelių valandų – pavyzdžiui, sudėtingos programavimo užduotys, tokios kaip CUDA branduolių (angl. kernel) rašymas arba subtilios klaidos taisymas „PyTorch“ bibliotekoje.
Buvo naudojamos tokios testavimo priemonės kaip HCAST ir „RE-Bench“. Pirmojoje yra 189 autonominės programinės įrangos užduotys, skirtos įvertinti dirbtinio intelekto agento gebėjimus atlikti užduotis, susijusias su mašininiu mokymusi, kibernetiniu saugumu ir programinės įrangos inžinerija, o antrojoje naudojamos septynios sudėtingos atviros mašininio mokymosi mokslinių tyrimų inžinerijos užduotys – pavyzdžiui, GPU branduolio (angl. GPU core) optimizavimas, kurios lyginamos su žmogiškaisiais ekspertais.
Tada tyrėjai įvertino šių užduočių „netvarkingumą“ – kad pamatytų ir įvertintų, kaip kai kuriose užduotyse yra tokių dalykų, kaip poreikis koordinuoti kelis darbo srautus realiuoju laiku, dėl ko užduotį faktiškai reikia atlikti netvarkingiau – ir todėl jos labiau atspindi realaus pasaulio užduotis.
Tyrėjai taip pat sukūrė programinės įrangos atominius veiksmus (angl. software atomic actions, SWAA) – kad nustatytų, kaip greitai tikri žmonės gali atlikti užduotis. Tai yra vieno veiksmo užduotys, trunkančios nuo 1 iki 30 sekundžių, kurias atliko METR darbuotojai.
Susiję straipsniai
Tyrimo metu nustatyta, kad dirbtinio intelekto „dėmesio trukmė“ sparčiai auga. Ekstrapoliavę šią tendenciją, tyrėjai prognozuoja (jei jų rezultatai iš tiesų gali būti bendrai taikomi realioms užduotims), kad iki 2032 m. dirbtinis intelektas gali automatizuoti mėnesio trukmės žmogaus atliekamą programinės įrangos kūrimą.
Siekiant geriau suprasti vis didėjančias dirbtinio intelekto galimybes ir jo galimą poveikį bei riziką visuomenei, šis tyrimas galėtų suformuoti naują etaloną, susijusį su realaus pasaulio rezultatais, kad būtų galima „prasmingai interpretuoti ne tik santykinį, bet ir absoliutų našumą“, teigia mokslininkai.
Nauja dirbtinio intelekto vertinimo riba?
Galimas naujas etalonas leistų geriau suprasti tikrąjį dirbtinio intelekto sistemų intelektą ir gebėjimus.
„Pats matavimas greičiausiai nepakeis dirbtinio intelekto kūrimo eigos, tačiau jis leis stebėti, kaip sparčiai daroma pažanga atliekant tam tikro tipo užduotis, kuriose idealiu atveju bus naudojamos dirbtinio intelekto sistemos“, – sako žymus dirbtinio intelekto tyrėjas iš „Vectra AI“ Sohrobas Kazerounianas.
„Matuoti dirbtinį intelektą pagal laiką, per kurį žmogus gali atlikti tam tikrą užduotį, yra įdomus intelekto ir bendrųjų gebėjimų rodiklis, – teigia jis. – Pirma, todėl, kad nėra vienintelio rodiklio, kuris atspindėtų tai, ką turime omenyje sakydami „intelektas“. Antra, todėl, kad tikimybė atlikti ilgai trunkančią užduotį be nukrypimų ar klaidų tampa nykstamai maža. Trečia, todėl, kad tai yra tiesioginis matas, palyginti su užduotimis, kurioms mes tikimės panaudoti dirbtinį intelektą, t. y. spręsti sudėtingas žmogaus problemas. Nors jis gali neatspindėti visų svarbių veiksnių ar niuansų, susijusių su dirbtinio intelekto gebėjimais, jis tikrai yra naudingas duomenų taškas“.
IEEE narė ir AI etikos inžinierė Singuliarumo universitete Eleanor Watson sutinka, kad šis tyrimas yra naudingas.
Ji sako, kad palyginti su tradiciniais testais, kuriais vertinamas DI veikimas sprendžiant trumpas, pavienes problemas, tai „vertinga ir intuityvu“ ir „tiesiogiai atspindi realaus pasaulio sudėtingumą, atspindintį DI gebėjimą išlaikyti nuoseklų, į tikslą nukreiptą elgesį per tam tikrą laiką“.
Artėjantis bendrasis dirbtinis intelektas
Be naujos lyginamosios metrikos, didžiausias dokumento poveikis greičiausiai pasireiškia tuo, kad jame pabrėžiama, kaip sparčiai tobulėja dirbtinio intelekto sistemos ir didėja jų gebėjimas atlikti ilgas užduotis. Atsižvelgdama į tai, E. Watson prognozuoja, kad universalūs dirbtinio intelekto agentai, galintys atlikti įvairias užduotis, neišvengiamai atsiras.
„Iki 2026 m. matysime, kad dirbtinis intelektas taps vis universalesnis, atliekantis įvairias užduotis per visą dieną ar savaitę – o ne trumpas, siaurai apibrėžtas užduotis“, – teigia specialistė.
E. Watson pažymi, kad įmonėms tai gali padėti sukurti dirbtinį intelektą, kuris galėtų perimti didelę dalį profesinio darbo krūvio – o tai ne tik sumažintų išlaidas ir padidintų efektyvumą, bet ir leistų žmonėms susitelkti į kūrybiškesnes, strategines ir tarpasmenines užduotis.
„Vartotojams dirbtinis intelektas iš paprasto asistento taps patikimu asmeniniu vadybininku, galinčiu per kelias dienas ar savaites atlikti sudėtingas gyvenimo užduotis – pavyzdžiui, planuoti keliones, stebėti sveikatą ar valdyti finansinius portfelius, su minimalia priežiūra“, – aiškina E. Watson.
Iš tikrųjų dirbtinio intelekto gebėjimas atlikti įvairias ilgas užduotis gali turėti didelę įtaką tam, kaip visuomenė bendraus ir naudos DI per ateinančius kelerius metus.
„Nors specializuotos dirbtinio intelekto priemonės išliks nišiniuose taikymuose dėl efektyvumo priežasčių, išryškės galingi universalūs dirbtinio intelekto agentai, gebantys lanksčiai perjungti įvairias užduotis, – apibendrina E. Watson. – Šios sistemos integruos specializuotus įgūdžius į platesnes, į tikslą nukreiptas darbo eigas, iš esmės pakeisdamos kasdienį gyvenimą ir profesinę praktiką.“
Parengta pagal „Live Science“.



