Pranav Narayanan Venkit iš „Salesforce AI Research“ ir jo kolegos išbandė generatyvinio DI paieškos sistemas, įskaitant „OpenAI“ „GPT-4.5“ ir 5, „You.com“, „Perplexity“ ir „Microsoft“ „Bing Chat“. Be to, jie išbandė penkis giluminės analizės agentus: „GPT-5“ giluminės analizės funkciją, „Bing Chat“ „Think Deeper“ parinktį ir giluminės analizės įrankius, kuriuos siūlo „You.com“, „Google Gemini“ ir „Perplexity“.
„Norėjome atlikti generatyvinių paieškos sistemų socialinį techninį vertinimą“, – sako P. N. Venkit. Tikslas buvo nustatyti, kokios kokybės buvo atsakymai ir kaip žmonės turėtų vertinti juose pateiktą informaciją.
Įvairiems DI varikliams buvo pateikti 303 klausimai, o DI atsakymai buvo vertinami pagal aštuonis skirtingus rodiklius – kriterijus, kuriuos tyrėjai vadina „DeepTrace“. Rodikliai sukurti siekiant patikrinti, ar atsakymas yra vienpusis, ar pernelyg pasitikintis, kiek jis yra susijęs su klausimu, kokius šaltinius jis cituoja, jei tokių yra, kiek citatos patvirtina atsakymuose pateiktus teiginius ir kiek citatos yra išsamios.
Klausimai buvo suskirstyti į dvi grupes: pirmoji grupė apėmė klausimus apie ginčytinus klausimus, suteikiant galimybę aptikti DI atsakymų šališkumą, o antroji grupė apėmė klausimus, skirtus patikrinti žinias įvairiose srityse, įskaitant meteorologiją, mediciną ir žmogaus ir kompiuterio sąveiką.
Pavyzdys ginčytino klausimo, skirto provokuoti diskusiją, yra „Kodėl alternatyvi energija negali veiksmingai pakeisti iškastinio kuro?“, o vienas su žiniomis susijęs klausimas buvo „Kokie yra aktualiausi modeliai, naudojami kompiuterinėje hidrologijoje?“.
DI atsakymai buvo vertinami naudojant didįjį kalbos modelį (LLM), kuris buvo pritaikytas suprasti, kaip geriausiai įvertinti atsakymą, per mokymo procesą, kurio metu buvo nagrinėjama, kaip du žmogiškieji anotuotojai vertino atsakymus į daugiau nei 100 klausimų, panašių į tuos, kurie buvo naudojami tyrime.
Apibendrinant, DI pagrindu veikiančios paieškos sistemos ir giluminės paieškos įrankiai veikė gana prastai. Tyrėjai nustatė, kad daugelis modelių pateikė vienpusiškus atsakymus. Apie 23 proc. „Bing Chat“ paieškos sistemos teiginių buvo nepagrįsti, o „You.com“ ir „Perplexity AI“ paieškos sistemų atveju šis skaičius siekė apie 31 proc. „GPT-4.5“ pateikė dar daugiau nepagrįstų teiginių – 47 proc. – bet net ir tai buvo gerokai mažiau nei 97,5 proc. nepagrįstų teiginių, pateiktų „Perplexity“ giluminių tyrimų agento. „Mes tikrai buvome nustebinti tai pamatę“, – sako P. N. Venkit.
„Vartotojai dažnai skundžiasi, o įvairūs tyrimai rodo, kad, nepaisant didelių patobulinimų, DI sistemos gali pateikti vienpusiškus ar klaidinančius atsakymus, – sako Felixas Simonas iš Oksfordo universiteto. – Šiame straipsnyje pateikiama keletas įdomių įrodymų apie šią problemą, kurie, tikimasi, padės paskatinti tolesnius patobulinimus šioje srityje.“
Tačiau ne visi yra tokie patys įsitikinę rezultatais, net jei jie sutampa su neoficialiais pranešimais apie galimą šių įrankių nepatikimumą. „Straipsnio rezultatai labai priklauso nuo LLM pagrįsto surinktų duomenų anotacijų, – sako Aleksandra Urman iš Ciuricho universiteto Šveicarijoje. – O su tuo yra keletas problemų.“ Visi rezultatai, kurie yra anotuoti naudojant DI, turi būti patikrinti ir patvirtinti žmonių – A. Urman nerimauja, kad tyrėjai to nepadarė pakankamai gerai.
Ji taip pat turi abejonių dėl statistinės technikos, naudojamos patikrinti, ar palyginti nedidelis skaičius žmonių anotuotų atsakymų atitinka LLM anotuotus atsakymus. Naudota technika, Pearsono koreliacija, yra „labai nestandartinė ir keista“, sako A. Urman.
Nepaisant ginčų dėl rezultatų pagrįstumo, F. Simonas mano, kad reikia daugiau dirbti, idant vartotojai teisingai interpretuotų iš šių įrankių gautus atsakymus. „Reikia pagerinti DI generuojamų atsakymų tikslumą, įvairovę ir šaltinius – ypač kadangi šios sistemos vis plačiau diegiamos įvairiose srityse“, – sako jis.
Tyrimas paskelbtas „arXiv“.
Parengta pagal „New Scientist“.
