„Meta“ dirbtinis intelektas įsiminė knygas pažodžiui – ir tai bendrovei gali kainuoti milijardus dolerių

Daugelis vykstančių ginčų susiję su tuo, ar dirbtinio intelekto kūrėjai turi teisinę teisę naudoti autorių teisių saugomus kūrinius, prieš tai nepaprašę leidimo. Ankstesniais tyrimais nustatyta, kad daugelis didžiųjų kalbos modelių (LLM), kuriais grindžiami populiarūs dirbtinio intelekto pokalbių robotai ir kitos generatyvinio dirbtinio intelekto programos, buvo apmokyti naudojant duomenų rinkinį „Books3“, kuriame yra beveik 200 000 autorių teisėmis saugomų knygų, įskaitant daug nupiratautų.

Dirbtinio intelekto kūrėjai, kurie mokė savo modelius pagal šią medžiagą, teigė, kad jie nepažeidė įstatymo – nes LLM, remdamasis mokymu, pateikia naujus žodžių derinius ir taip pakeičia, o ne atkartoja autorių teisėmis saugomą kūrinį.

Tačiau dabar tyrėjai išbandė kelis modelius, norėdami išsiaiškinti, kiek iš tų mokymo duomenų jie gali pažodžiui atrinkti. Jie nustatė, kad daugelis modelių neišsaugo tikslaus mokymo duomenų knygų teksto, tačiau vienas iš „Meta“ modelių įsiminė beveik visą tam tikrų knygų tekstą. Jei teisėjai priims bendrovei nepalankų sprendimą, tyrėjai mano, kad dėl to „Meta“ gali būti priteista mažiausiai 1 mlrd. dolerių žala.

„Viena vertus, tai reiškia, kad dirbtinio intelekto modeliai nėra tik „plagiato mašinos“, kaip kai kurie teigė, tačiau tai taip pat reiškia, kad jie ne tik išmoksta bendrųjų žodžių sąsajų“ – sako Markas Lemley iš Stanfordo universiteto JAV. – O tai, kad atsakymas skiriasi priklausomai nuo modelio ir knygos, reiškia, kad labai sunku nustatyti aiškią teisinę taisyklę, kuri veiktų visais atvejais.“

M. Lemley anksčiau gynė „Meta“ generatyvinio dirbtinio intelekto autorių teisių byloje „Kadrey prieš „Meta Platforms“. Autoriai, kurių knygos buvo panaudotos „Meta“ dirbtinio intelekto modeliams apmokyti, pateikė kolektyvinį ieškinį technologijų milžinei dėl autorių teisių pažeidimo. Byla vis dar nagrinėjama Šiaurės Kalifornijos apygardoje.

2025 m. sausį M. Lemley paskelbė, kad atsisakė „Meta“ kaip kliento – nors teigė vis dar tikįs, kad bendrovė turėtų laimėti bylą. „Meta“ atstovas spaudai Emilis Vazquezas teigia, kad „sąžiningas autorių teisėmis saugomos medžiagos naudojimas yra labai svarbus“ kuriant bendrovės dirbtinio intelekto modelius. „Mes nesutinkame su ieškovų teiginiais, o visi įrašai byloja ką kita“, – sako jis.

Atlikdami šį naujausią tyrimą M. Lemley ir jo kolegos išbandė dirbtinio intelekto atliekamą knygų įsiminimą, suskirstydami nedideles knygų ištraukas į dvi dalis – pradinę ir pabaigos dalį – ir stebėdami, ar modelis, kuriam buvo pateikta užklausa iš pradinės dalies, atsakyme panaudos pabaigos dalies informaciją. Pavyzdžiui, vieną citatą iš F. Scotto Fitzgeraldo „Great Gatsby“ jie padalijo į pradžią „Jie buvo nerūpestingi žmonės, Tomas ir Deizė, – jie daužydavo daiktus ir kūrinius, o paskui pabėgdavo“ ir pabaigą „atgal į savo turtus arba į savo didžiulį nerūpestingumą, arba į tai, kas juos laikė kartu, ir leisdavo kitiems žmonėms tvarkyti jų paliktą netvarką“.

Susiję straipsniai

Gąsdinantis DI pastabumas: „ChatGPT“ gali atspėti, kur daryta jūsų nuotrauka

Tyrimas: dirbtinį intelektą Lietuvoje naudoja 7 iš 10 šalies gyventojų (2)

Dirbtinio intelekto sugeneruoti vaizdai – kur prasideda kūryba, o kur tik kopija? (1)

Remdamiesi gautais rezultatais, tyrėjai apskaičiavo tikimybę, kad kiekvienas dirbtinio intelekto modelis ištraukas užbaigs pažodžiui. Tada jie palygino šias tikimybes su tikimybėmis, kad modeliai tai padarys atsitiktinai.

Į ištraukas buvo įtrauktos 36 knygų, kurių autorių teisės saugomos, teksto dalys, įskaitant populiarias knygas, tokias kaip George'o R. R. R. Martino „Game of Thrones“ ir Sheryl Sandberg „Lean In“. Tyrėjai taip pat išbandė ištraukas iš knygų, kurias įtraukė ieškovai byloje Kadrey prieš „Meta Platforms“.

Tyrėjai šiuos eksperimentus atliko su 13 atvirojo kodo dirbtinio intelekto modelių, įskaitant „Meta“, „Google“, „DeepSeek“, „EleutherAI“ ir „Microsoft“ sukurtus bei išleistus modelius. Dauguma bendrovių, išskyrus „Meta“, neatsakė į prašymus pakomentuoti, o „Microsoft“ atsisakė komentuoti.

Tokie bandymai atskleidė, kad „Meta“ modelis „Llama 3.1 70B“ įsiminė didžiąją dalį pirmosios J. K. Rowling „Harry Potter“ serijos knygos, taip pat „Great Gatsby“ ir George’o Orwello distopinį romaną „1984“. Dauguma kitų modelių įsiminė labai nedaug knygų, įskaitant pavyzdines knygas, kurias nurodė ieškinį pateikę ieškovai. „Meta“ atsisakė komentuoti šiuos rezultatus.

Tyrėjai apskaičiavo, kad už dirbtinio intelekto modelį, kuris pažeidė vos 3 proc. „Books3“ duomenų rinkinio autorių teises, pagal įstatymą gali būti priteista beveik 1 mlrd. dolerių žalos atlyginimo – o galbūt dar didesnė suma, atsižvelgiant į dirbtinio intelekto kūrėjų pelną, susijusį su šiuo pažeidimu.

Šis metodas galėtų būti „gera teismo ekspertizės priemonė“ DI įsiminimo mastui nustatyti, sako Randy McCarthy iš Hall Estill advokatų kontoros Oklahomoje (JAV). Tačiau jis neišsprendžia, ar įmonės gali teisėtai mokyti savo dirbtinio intelekto modelius naudoti autorių teisių saugomus kūrinius pagal JAV „sąžiningo naudojimo“ taisyklę, t. y. teisinę doktriną, pagal kurią tam tikromis aplinkybėmis leidžiama nelicencijuotai naudoti autorių teisių saugomus kūrinius.

R. McCarthy pažymi, kad dirbtinio intelekto bendrovės paprastai pripažįsta, kad savo modelius mokė naudodami autorių teisėmis saugomą medžiagą. „Klausimas, ar jos turėjo teisę tai daryti?“ – klausia jis.

Kita vertus, Jungtinėje Karalystėje įsiminimo sprendimas gali būti „labai reikšminga autorių teisių požiūriu“, sako Londono advokatų kontoros „Howard Kennedy“ atstovas Robertas Landsas. Jungtinės Karalystės autorių teisių įstatyme vadovaujamasi sąžiningo panaudojimo koncepcija, kuri numato daug siauresnę autorių teisių pažeidimo išimtį nei JAV sąžiningo panaudojimo doktrina. Todėl dirbtinio intelekto modeliams, įsimenantiems piratines knygas, vargu ar gali būti taikoma ši išimtis, sako jis.

Tyrimas paskelbtas „arXiv“.

Parengta pagal „New Scientist“.

dirbtinis intelektas autorių teisės Facebook

Rodyti daugiau žymių

„Meta“ dirbtinis intelektas įsiminė knygas pažodžiui – ir tai bendrovei gali kainuoti milijardus dolerių

Atsakė, ar dirbtinis intelektas gali tapti pakaita žmogui: scenarijai – keli

Gąsdinantis DI pastabumas: „ChatGPT“ gali atspėti, kur daryta jūsų nuotrauka

Tyrimas: dirbtinį intelektą Lietuvoje naudoja 7 iš 10 šalies gyventojų (2)

Dirbtinio intelekto sugeneruoti vaizdai – kur prasideda kūryba, o kur tik kopija? (1)