„Amazon“ darbuotojai Fulei Zhang ir Zhou Yu palygino, kaip žmonės pradeda pokalbius su žmonėmis ir su pokalbių robotu, veikiančiu pagal didžiojo kalbos modelio (LLM) principą. Kad įvertintų pokalbius pagal įvairius veiksnius, jie pasitelkė „Claude 3.5 Sonnet“ modelį – ir nustatė, kad žmonės, bendraujantys su pokalbių robotais, vartojo mažiau tikslią gramatiką ir buvo mažiau mandagūs nei bendraudami su žmonėmis. Jie taip pat vartojo šiek tiek siauresnį žodyną.
Pavyzdžiui, žmonių tarpusavio bendravimas buvo 14,5 proc. mandagesnis ir formalesnis nei pokalbiai su pokalbių robotais, 5,3 proc. sklandesni ir 1,4 proc. leksikos požiūriu įvairesni.
„Vartotojai pritaiko savo kalbos stilių žmonių ir LLM pokalbiuose, kurdami trumpesnius, tiesesnius, mažiau formalius ir gramatiškai paprastesnius pranešimus, – rašo tyrimo autoriai. – Šį elgesį greičiausiai lemia vartotojų mentaliniai LLM pokalbių robotų modeliai, kurie yra mažiau socialiai jautrūs arba mažiau gebantys interpretuoti niuansus.“
Tačiau paaiškėjo, kad šis neformalumas turi ir neigiamą pusę. Antrajame vertinime tyrėjai apmokė DI modelį „Mistral 7B“ remdamiesi 13 000 realių žmonių pokalbių ir panaudojo jį 1357 realių pranešimų, išsiųstų DI pokalbių robotams, interpretavimui.
Jie anotavo kiekvieną pokalbį abiejuose duomenų rinkiniuose „ketinimu“, paimtu iš riboto sąrašo, apibendrindami, ką vartotojas bandė padaryti kiekvienu atveju. Tačiau kadangi „Mistral AI“ buvo apmokytas remiantis žmonių pokalbiais, tyrėjai pastebėjo, kad DI sunkiai sekėsi teisingai pažymėti pokalbių su pokalbių robotais ketinimus.
Tada F. Zhang ir Zh. Yu išbandė įvairias strategijas, siekdami pagerinti „Mistral AI“ supratimą. Pirmiausia jie panaudojo „Claude AI“, kad perrašytų trumpesnius vartotojų pranešimus į žmogišką prozą ir panaudojo juos „Mistral“ modelio tobulinimui. Tai sumažino jo ketinimų žymių tikslumą 1,9 proc. – palyginti su numatytosiomis atsakymais.
Toliau jie panaudojo „Claude“, kad atliktų „minimalų“ perrašymą, kuris buvo trumpesnis ir tiesesnis (pavyzdžiui, „Paryžius kitą mėnesį. Skrydžiai, viešbučiai?“ – klausimas apie kelionės ir apgyvendinimo galimybes artėjančiai kelionei), tačiau tai sumažino „Mistral“ tikslumą 2,6 proc. Alternatyviame „praturtintame“ perrašyme, kuriame buvo naudojama formalesnė ir įvairesnė kalba, taip pat sumažino tikslumą 1,8 proc. Tik apmokius „Mistral“ modelį tiek minimalaus, tiek praturtinto perrašymo būdu, jie pastebėjo 2,9 proc. našumo padidėjimą.
Noah Giansiracusa iš Bentley universiteto JAV sako, kad jis nėra nustebęs, jog žmonės su botais kalba kitaip nei su žmonėmis – bet tai nebūtinai yra kažkas, ko reikėtų vengti.
„Atradimas, kad žmonės bendrauja su pokalbių botais kitaip nei su kitais žmonėmis, yra viliojančiai pateikiamas kaip pokalbių botų trūkumas, bet aš teigčiau, kad taip nėra – kad yra gerai, kai žmonės žino, kad bendrauja su botais, ir atitinkamai pritaiko savo elgesį“, – sako N. Giansiracusa. – Manau, kad tai yra sveikiau nei obsesyviai bandyti panaikinti atotrūkį tarp žmogaus ir boto.“
Tyrimas publikuotas „arXiv“.
Parengta pagal „New Scientist“.
