Mokslininkai teigia, kad šis įrankis gali suteikti naujų įžvalgų apie kalbos neurobiologiją, o kada nors jis padės patobulinti technologijas, skirtas kalbai atpažinti – arba padėti žmonėms bendrauti.
Remdamiesi tuo, kaip dirbtinio intelekto modelis transkribuoja garso įrašą į tekstą, tyrimą atlikę mokslininkai galėtų tiksliau atvaizduoti pokalbio metu vykstantį smegenų aktyvumą nei tradiciniai modeliai, koduojantys konkrečias kalbos struktūros ypatybes, pavyzdžiui, fonemas (paprastus garsus, iš kurių sudaryti žodžiai) ir kalbos dalis (daiktavardžius, veiksmažodžius ir būdvardžius).
Tyrime naudotas modelis, pavadintas „Whisper“, naudoja garso failus ir jų tekstines transkripcijas, kurios naudojamos kaip mokomieji duomenys garso įrašams ir tekstui atvaizduoti. Tada jis naudoja šio atvaizdavimo statistiką, kad „išmoktų“ nuspėti tekstą iš naujų garso failų, kurių anksčiau negirdėjo.
Atsakė, ar dirbtinis intelektas gali jausti emocijas: pokyčių galime sulaukti jau po dešimtmečio
Todėl „Whisper“ veikia tik pagal šiuos statistinius duomenis be jokių kalbos struktūros ypatybių, užkoduotų pradiniuose nustatymuose. Tačiau tyrime mokslininkai parodė, kad tos struktūros vis dėlto modelyje atsirado, kai jis buvo apmokytas.
Tyrimas atskleidžia, kaip veikia tokio tipo dirbtinio intelekto modeliai, vadinami didžiaisiais kalbos modeliais (angl. large language models, LLM). Tačiau tyrėjų komandą labiau domina tai, kad jis padeda suprasti žmogaus kalbą ir kognityvinius gebėjimus. Nustatyti panašumai tarp to, kaip modelis ugdo kalbos apdorojimo gebėjimus, ir to, kaip šiuos gebėjimus ugdo žmonės, gali būti naudingi kuriant prietaisus, padedančius žmonėms bendrauti.
„Tai iš tikrųjų susiję su tuo, kaip mes mąstome apie aplinkos pažinimą“, – sakė pagrindinis tyrimo autorius, Jeruzalės hebrajų universiteto docentas Arielis Goldsteinas. Tyrimo rezultatai rodo, kad „turėtume galvoti apie aplinkos pažinimą per šio [statistinio] tipo modelio prizmę“, teigia mokslininkas.
Tyrime, kovo 7 d. paskelbtame žurnale „Nature Human Behaviour“, dalyvavo keturi epilepsija sergantys dalyviai, kuriems dėl klinikinių priežasčių jau buvo atlikta smegenų stebėjimo elektrodų implantavimo operacija.
Susiję straipsniai
Tyrėjai, gavę sutikimą, įrašinėjo visus pacientų pokalbius per visą jų buvimo ligoninėje laikotarpį, kuris truko nuo kelių dienų iki savaitės. Iš viso jie užfiksavo daugiau kaip 100 valandų garso įrašų.
Kiekvienam dalyviui buvo įdiegti nuo 104 iki 255 elektrodų, kuriais buvo stebima jo smegenų veikla.
Dauguma tyrimų, kuriuose naudojami pokalbių įrašai, atliekami laboratorijoje labai kontroliuojamomis sąlygomis maždaug valandą, pasakojo A. Goldsteinas. Nors tokia kontroliuojama aplinka gali būti naudinga siekiant išsiaiškinti įvairių kintamųjų vaidmenį, tyrėjas ir jo bendradarbiai norėjo „ištirti smegenų veiklą ir žmogaus elgesį realiame gyvenime“.
Jų tyrimas atskleidė, kaip skirtingos smegenų dalys įsitraukia atliekant užduotis, reikalingas kalbai atlikti ir suprasti.
A. Goldsteinas paaiškino, kad vis dar diskutuojama, ar atliekant šias užduotis įsijungia atskiros smegenų dalys, ar visas organas reaguoja kolektyviau. Pirmoji idėja galėtų reikšti, kad viena smegenų dalis apdoroja žodžius sudarančius garsus, kita interpretuoja tų žodžių reikšmes, o dar kita atlieka kalbai reikalingus judesius.
Pagal alternatyvią teoriją, labiau tikėtina, kad šios skirtingos smegenų sritys veikia suderintai, taikydamos „paskirstytą“ metodą, nurodė A. Goldsteinas.
Tyrėjai nustatė, kad tam tikros smegenų sritys iš tiesų buvo linkusios koreliuoti su kai kuriomis užduotimis.
Pavyzdžiui, sritys, kurios, kaip žinoma, susijusios su garso apdorojimu – pavyzdžiui, smilkininės srities šoninės smegenų vagos viršutinis vingis (Gyrus temporalis superior) buvo aktyvesnis apdorojant garsinę informaciją, o sritys, susijusios su aukštesnio lygio mąstymu – pavyzdžiui, smilkininės srities šoninės smegenų vagos apatinis vingis (Gyrus temporalis inferior) – buvo aktyvesnės suprantant kalbos prasmę.
Mokslininkai taip pat pastebėjo, kad šios sritys suaktyvėdavo nuosekliai.
Pavyzdžiui, sritis, labiausiai atsakinga už žodžių girdėjimą, suaktyvėdavo anksčiau nei sritis, labiausiai atsakinga už jų interpretavimą. Tačiau tyrėjai taip pat aiškiai matė, kad sritys suaktyvėja ir atliekant veiklą, kuriai jos nėra specializuotos.
„Manau, kad tai išsamiausias ir kruopščiausias, realiame gyvenime esantis šio paskirstyto metodo įrodymas“, – sakė A. Goldsteinas.
DI modelių susiejimas su vidine smegenų veikla
Tyrėjai naudojo 80 proc. padarytų įrašų ir prie jų pridėtų transkripcijų – kad galėtų apmokyti „Whisper“ ir nuspėti likusių 20 proc. garso įrašų transkripcijas.
Tada komanda išnagrinėjo, kaip „Whisper“ užfiksavo garso įrašus ir transkripcijas, ir atvaizdavo šiuos atvaizdus pagal elektrodais užfiksuotą smegenų veiklą.
Atlikę šią analizę, jie galėjo pasitelkti modelį, kad nuspėtų, koks smegenų aktyvumas vyks su pokalbiais, kurie nebuvo įtraukti į mokymo duomenis. Modelio tikslumas pranoko modelio, pagrįsto kalbos struktūros požymiais, tikslumą.
Nors tyrėjai iš pat pradžių į savo modelio neužprogramavo, kas yra fonema ar žodis, jie nustatė, kad šios kalbos struktūros vis tiek atsispindėjo tame, kaip modelis apdorojo transkripcijas. Taigi, jis išskyrė tuos požymius be nurodymų tai daryti.
Šis tyrimas yra „novatoriškas, nes parodo ryšį tarp kompiuterinio garso-į-kalbą (angl. acoustic-to-speech-to) kalbos modelio veikimo ir smegenų funkcijos“, – sakė šiame darbe nedalyvavęs Miuncheno neuromokslų centro Vokietijoje tyrimų grupės vadovas Leonhardas Schilbachas.
Tačiau jis pridūrė, kad „reikia atlikti dar daug tyrimų, norint išsiaiškinti, ar šis ryšys iš tikrųjų reiškia kalbos modelių ir smegenų kalbos apdorojimo mechanizmų panašumą“.
„Smegenų ir dirbtinių neuronų tinklų palyginimas yra svarbi darbo kryptis, – sakė kitas tyrime nedalyvavęs mokslininkas, Kalifornijos universiteto (JAV) Lingvistikos katedros docentas Gašperas Begušas.
„Jei suprasime vidinį dirbtinių ir biologinių neuronų veikimą ir jų panašumus, galbūt galėsime atlikti eksperimentus ir simuliacijas, kurių būtų neįmanoma atlikti su mūsų biologinėmis smegenimis“, – sakė jis.
Parengta pagal „Live Science“.



