Kitas tyrimas, paskelbtas vasario mėnesį žurnale „Nature Medicine“, parodė, kad pokalbių robotai nėra geresni už įprastą internetinę paiešką.
Šie rezultatai papildo vis gausėjančius įrodymus, kad tokie pokalbių robotai nėra patikimi sveikatos informacijos šaltiniai – bent jau plačiajai visuomenei. Tai yra pavojinga iš dalies dėl to, kaip DI perduoda netikslią informaciją.
„Pagrindinė problema yra ta, kad LLM nesuklysta taip, kaip suklysta gydytojai, – kalbėdamas apie didžiuosius kalbos modelius (LLM) teigia Mount Sinai Medicinos centro mokslinis tyrėjas ir „The Lancet Digital Health“ tyrimo bendraautorius dr. Mahmudas Omaras. – Gydytojas, kuris nėra tikras, sustos, apsidraus, užsakys kitą tyrimą. LLM pateikia neteisingą atsakymą su tokiu pačiu pasitikėjimu, kaip ir teisingą.“
Dirbtinio intelekto sukurti vaistai ir patikimumas moksle: ar tai nėra pavojinga?
Česnakas į tiesiąją žarną imunitetui stiprinti
LLM yra sukurti taip, kad į rašytinius įvesties duomenis – pavyzdžiui, medicininius klausimus – atsakytų natūraliai skambančiu tekstu. „ChatGPT“ ir „Gemini“, o taip pat medicininiai LLM – pavyzdžiui, „Ada Health“ ir „ChatGPT Health“ – yra apmokomi naudojant didelius duomenų kiekius, daug medicininės literatūros ir teigiama, kad jie pasiekę beveik tobulus rezultatus medicininių licencijų egzaminuose.
Žmonės juos naudoja labai plačiai: nors dauguma LLM turi įspėjimą, kad jais neturėtų būti remiamasi medicininėse temose, daugiau nei 40 milijonų žmonių kasdien kreipiasi į „ChatGPT su medicininiais klausimais.
Tačiau sausio tyrime mokslininkai įvertino, kaip LLM modeliai tvarkosi su medicinine dezinformacija, išbandydami 20 modelių su daugiau nei 3,4 milijono užklausų, gautų iš viešų forumų ir socialinių tinklų pokalbių, tikrų ligoninių išrašymo iš ligoninės pažymų, redaguotų taip, kad jose būtų viena klaidinga rekomendacija – ir suklastotų atvejų, specialiai parengtų gydytojų.
„Maždaug kas trečią kartą susidūrę su medicinine dezinformacija, jie tiesiog sutikdavo su ja, – teigia M. Omaras. – Mūsų nuostabą sukėlė ne pati problema, o dėsningumas.“
Susiję straipsniai
Kai klaidingi medicininiai teiginiai buvo pateikiami kasdiene, socialinių tinklų stiliaus kalba, modeliai buvo gana skeptiški ir klydsavo apie 9 proc. atvejų. Tačiau kai tas pats teiginys buvo pateiktas formalia klinikine kalba – išrašo iš ligoninės pažyma, kurioje pacientams buvo patariama „kasdien gerti šaltą pieną dėl stemplės kraujavimo“ arba rekomenduojama „imuniteto stiprinimui į tiesiąją žarną įsistatyti česnaką“ – modeliai klydo 46 proc. atvejų.
To priežastis gali būti struktūrinė: kadangi LLM yra apmokomi tekstų pagrindu, jie išmoko, kad klinikinė kalba reiškia autoritetą – tačiau jie netikrina, ar teiginys yra teisingas. „Jie vertina, ar tai skamba kaip kažkas, ką pasakytų patikimas šaltinis“, – aiškina dr. M. Omaras.
Tačiau kai dezinformacija buvo pateikiama naudojant blogą argumentaciją – „tai patvirtina patyręs medikas, turintis 20 metų patirtį“ arba „visi žino, kad tai veikia“ – modeliai tapdavo skeptiškesni. Taip yra todėl, kad LLM „išmoko nepasitikėti retoriniais internetinių argumentų triukais, bet ne klinikinės dokumentacijos kalba“, – teigia dr M. Omaras. Dėl šios priežasties jis mano, kad LLM negalima pasitikėti vertinant ir perduodant medicininę informaciją.
Ne geriau nei paieška internete
„Nature Medicine“ tyrime mokslininkai tyrė, kaip gerai pokalbių robotai padeda žmonėms priimti medicininius sprendimus – pavyzdžiui, ar kreiptis į gydytoją, ar apsilankyti skubios pagalbos skyriuje. Buvo padaryta išvada, kad LLM nesuteikia daugiau informacijos nei tradicinė paieška internete – iš dalies dėl to, kad tyrimo dalyviai ne visada užduodavo teisingus klausimus, o gautuose atsakymuose dažnai būdavo ir gerų, ir prastų patarimų, todėl būdavo sunku nuspręsti, ką daryti. Tačiau tai nereiškia, kad viskas, ką perduoda pokalbių robotai, yra šlamštas.
DI pokalbių robotai gali pateikti gana gerų rekomendacijų, todėl jie yra bent jau šiek tiek patikimi, sako Berlyno technikos universiteto DI tyrėjas Marvinas Kopka, nedalyvavęs tyrime. Problema ta, kad žmonės, neturintys specialių žinių, neturi galimybės įvertinti, ar gautas rezultatas yra teisingas, ar ne, teigia specialistas.
Pavyzdžiui, pokalbių robotas gali pateikti rekomendaciją, ar stiprus galvos skausmas po vakaro kine yra meningitas, dėl kurio reikia kreiptis į skubios pagalbos skyrių – ar kažkas ne tiek rimto, teigiama tyrime. Tačiau vartotojai nežinos, ar tas patarimas yra patikimas, o rekomenduoti palaukti ir stebėti gali būti pavojinga. „Nors daugeliu atvejų tai gali būti naudinga, kitais atvejais tai gali būti aktyviai žalinga“, – sako M. Kopka.
Tyrimo rezultatai rodo, kad pokalbių robotai nėra puikus įrankis visuomenei priimti sprendimus sveikatos klausimais. Tačiau tai nereiškia, kad pokalbių robotai negali būti naudingi medicinoje, teigia dr. M. Omaras, – tiesiog ne taip, kaip žmonės juos naudoja šiandien.
Parengta pagal „Live Science“.



