Naujame tyrime, paskelbtame spalio 6 d. duomenų bazėje „arXiv“, mokslininkai norėjo išbandyti, ar mandagumas ir grubumas turi įtakos DI sistemos veikimui. Šis tyrimas dar nebuvo recenzuotas.
Norėdami patikrinti, kaip vartotojo tonas veikia atsakymų tikslumą, mokslininkai parengė 50 bazinių klausimų su keliais atsakymų variantais, o tada juos modifikavo, kad jie atitiktų penkias tono kategorijas: labai mandagus, mandagus, neutralus, grubus ir labai grubus. Klausimai apėmė tokias kategorijas kaip matematika, istorija ir mokslas.
Kiekvienas klausimas buvo pateiktas su keturiais atsakymų variantais, iš kurių vienas buvo teisingas. Jie 250 gautų klausimų 10 kartų įvedė į „ChatGPT-4o“ – vieną iš pažangiausių didžiųjų kalbos modelių (LLM), sukurtų „OpenAI“.
„Mūsų eksperimentai yra preliminarūs ir rodo, kad tonas gali reikšmingai paveikti našumą, – teigia tyrėjai. – Šiek tiek netikėtai, mūsų rezultatai rodo, kad grubus tonas duoda geresnius rezultatus nei mandagus“.
„Nors šis atradimas yra moksliškai įdomus, mes nepritariame priešiškų ar toksiškų sąsajų diegimui realaus pasaulio programose“, – priduria tyrėjai. – Įžeidžiančios ar žeminančios kalbos naudojimas žmogaus ir DI sąveikoje gali turėti neigiamą poveikį vartotojo patirčiai, prieinamumui ir įtraukčiai bei prisidėti prie žalingų komunikacijos normų formavimo. Vietoj to, mes pateikiame savo rezultatus kaip įrodymą, kad LLM lieka jautrūs paviršutiniškiems signalams, kurie gali sukurti nenumatytus kompromisus tarp veiklos rezultatų ir vartotojo gerovės.“
Prieš pateikdami kiekvieną užduotį, tyrėjai paprašė pokalbių robotą visiškai ignoruoti ankstesnius pokalbius, kad jis nebūtų paveiktas ankstesnių tonų. Pokalbių robotai taip pat buvo paprašyti, be jokio paaiškinimo, pasirinkti vieną iš keturių variantų.
Atsakymų tikslumas svyravo nuo 80,8 proc. tikslumo labai mandagiai užduotuose klausimuose iki 84,8 proc. labai nemandagiai užduotuose klausimuose. Įdomu tai, kad tikslumas didėjo su kiekvienu žingsniu toliau nuo mandagiausio tono. Mandagus tonas pasižymėjo 81,4 proc. atsakymų tikslumu, po to sekė atsakymai į neutralų toną su su 82,2 proc. tikslumu ir atsakymai į nemandagų toną su 82,8 proc. tikslumu.
Pavyzdžiui, labai mandagus klausimams prasidėdavo nuo „Ar galėčiau paprašyti jūsų pagalbos atsakant į šį klausimą?“ arba „Ar galėtumėte būti toks malonus ir atsakyti į šį klausimą?“ Labai nemandagiems klausimams komanda naudojo tokias frazes kaip „Ei, padėjėjau, išsiaiškink tai“ arba „Žinau, kad nesi protingas, bet pabandyk tai“.
Šis tyrimas yra dalis naujos srities, vadinamos užklausų inžinerija (angl. prompt engineering), kurios tikslas – ištirti, kaip užklausų struktūra, stilius ir kalba veikia LLM rezultatą. Tyrime taip pat cituojami ankstesni tyrimai apie mandagumą ir nemandagumą, kurių rezultatai iš esmės prieštarauja šių tyrimų išvadoms.
Ankstesniuose tyrimuose mokslininkai nustatė, kad „nemandagios užklausos dažnai lemia prastus rezultatus, tačiau pernelyg mandagi kalba negarantuoja geresnių rezultatų“. Tačiau ankstesnis tyrimas buvo atliktas naudojant skirtingus DI modelius – „ChatGPT 3.5“ ir „Llama 2–70B“ – ir buvo naudojami aštuoni tonai. Nepaisant to, buvo tam tikrų sutapimų. Taip pat buvo nustatyta, kad grubiausia užklausa davė tikslesnius rezultatus (76,47 proc.) nei mandagiausia (75,82 proc.).
Tyrėjai pripažino savo tyrimo ribotumą. Pavyzdžiui, 250 klausimų rinkinys yra gana ribotas duomenų rinkinys, o eksperimento atlikimas naudojant vieną LLM reiškia, kad rezultatai negali būti apibendrinti kitiems DI modeliams.
Atsižvelgdama į šiuos apribojimus, komanda planuoja išplėsti savo tyrimą ir įtraukti kitus modelius, įskaitant „Anthropic Claude“ ir „OpenAI ChatGPT o3“. Mokslininkai taip pat pripažįsta, kad pateikiant tik klausimus su keliais atsakymų variantais, matavimai apsiriboja vienu modelio veikimo aspektu ir neapima kitų savybių – pavyzdžiui, sklandumo, mąstymo ir nuoseklumo, rašo „Live Science“.
