DI mokosi iš duomenų internete, bet kai kurie jų suteikti nebenori: kaltina autorių teisių pažeidimu

Tam, kad galėtų pateikti išsamų atsakymą, tokie dirbtinio intelekto (DI) pokalbių robotai, kaip „ChatGPT“ pasitelkia daugybę duomenų, kurių dalis greičiausiai priklauso privatiems asmenims ar įmonėms. Dabar toks duomenų panaudojimas ėmė kelti etinių klausimų dėl autorinių teisių pažeidimų, nes kūrėjai, kurių darbais apmokyti DI algoritmai, už tai nieko negauna. Pasak „Tele2“ Inovacijų eksperto Luko Keraičio, skirtingi interesai neleidžia rasti lengvos išeities iš tokios situacijos.

DI mokosi iš duomenų internete, bet kai kurie jų suteikti nebenori.<br> Bing / DALL-E-3 iliustr.

Daugiau nuotraukų (1)

Lrytas.lt

Dec 15, 2023, 11:11 AM

Duomenų surinkimui – neaiškios schemos

Netrukus po staigios „ChatGPT“ sėkmės atsirado ir daugiau panašių dirbtinio intelekto įrankių, o naujausiu tapo „Google“ pokalbių robotas „Gemini“ – ir toliau sparčiai pristatomos naujos generatyvinio DI atšakos, orientuotos į vartotojus ir verslus.

Tam, kad visi šie įrankiai sėkmingai gyvuotų, reikalingi didžiuliai duomenų kiekiai, kuriais apmokomi ir palaikomi jų algoritmai. Dauguma šios informacijos pagal sudėtingas schemas surenkama internete, knygose, straipsniuose ir kituose šaltiniuose, tačiau tai neretai daroma beatodairiškai – nors kai kurie duomenys yra vieši, kiti priklauso ir privačioms įmonėms ar asmenims.

„Dirbtinio intelekto apmokymui skirtų duomenų surinkime yra daug mistikos, neaiškių schemų. Pavyzdžiui, mokslininkams suteikiama išskirtinė prieiga prie vienokių ar kitokių duomenų. Vėliau ta prieiga pasinaudoja nevyriausybinė organizacija. O ją finansuojanti pelno siekianti organizacija iš to sukuria produktą. Netgi „ChatGPT“ sukūrusi kompanija „OpenAI“ (liet. „atviras DI“) labai nenoriai kalba apie tai, iš kur gavo savo duomenis, bet gali tai slėpti po komercine paslaptimi ir neišduoti“, – sako inovacijų ekspertas.

Apkaltino duomenų vagyste

Dėl šių priežasčių ėmė kilti vis daugiau klausimų ir net ginčų dėl DI įrankių pateikiamos informacijos tikslumo, patikimumo, privatumo ir autorių teisių pažeidimo. Pavyzdžiui, visai neseniai 17 žinomų autorių, tarp jų ir garsiųjų „Sostų karų“ rašytojas George'as R. R. Martinas, padavė į teismą „ChatGPT“ kūrėją „OpenAI“ už „sistemingą vagystę masiniu mastu“.

„Lenkų kilmės menininkas Gregas Rutkowskis kuria fantastinius pasaulius, yra piešęs iliustracijas žymioms knygoms ir filmams. Pasirodžius DI iliustracijų kūrimo įrankiui „Stable Diffusion“, užklausos su jo vardu ir pavarde darytos šimtus tūkstančių kartų – net daugiau nei Pikaso ar Da Vinčio. Rutkowskiui šis jo kūrybos panaudojimas nepatiko ir jis pasiūlė neleisti generatyviajam DI naudoti gyvų menininkų darbų. „Stable Diffusion“ vėliau išėmė galimybę kopijuoti jo ir kitų menininkų stilių, bet kiti, pasinaudodami atvirais duomenimis, juos nukopijavo ir gražino tokią galimybę. Tai galima pavadinti kova be pabaigos“, – pastebi L. Keraitis.

Nekokybiški duomenys gali pridaryti žalos

Kas nutiktų, jei dirbtinis intelektas nebegalėtų naudotis dalimi duomenų? Trumpai tariant, populiariausių pokalbių robotų atsakymai taptų gerokai mažiau išsamūs ir aktualūs. Pavyzdžiui, nebegalėdamas pasiekti autorių teisių apsaugotų kūrinių – knygų, muzikos, nuotraukų – DI galėtų apie juos pateikti tik labai apibendrintą, ne visuomet tikslią informaciją. Tokie nekokybiški duomenys gali turėti įtakos DI įrankių tolesniam apmokymui ir plėtrai.

Ieškodami sprendimo būdų, ekspertai neretai aptarinėja vadinamuosius sintetinius duomenis. Tokią informaciją dirbtinai sukuria kompiuteriniai algoritmai, o ne žmonių surinkti realūs duomenys. Nors galima sukurti begalę sintetinių duomenų, jiems vis tiek reikalingi realių šaltinių duomenys, naudojami juos kuriantiems algoritmams apmokyti. Jei pradiniai duomenys tinkamai neatspindi realybės, gauti sintetiniai duomenys gali padidinti pradinių duomenų šališkumą ir paskatinti tam tikrus stereotipus.

Taigi tam, kad būtų tikslios, etiškos ir patikimos, naujos generatyvinės DI programos ir toliau išliks priklausomos nuo didžiulio kiekio subalansuotų duomenų iš įvairių realių šaltinių.

Sprendimų rasti įmanoma

Akivaizdu, kad generatyvinio DI įrankiams populiarėjant, prireiks vis daugiau duomenų jų apmokymui – nuo akademinių šaltinių, iki meninės literatūros, tad didžiausiu iššūkiu tampa legalus ir etiškas šios informacijos panaudojimas. Pasirodžius pirmiesiems bandymams drausti duomenų pasisavinimą, tikėtina, kad atsiras būdų, kaip DI kūrėjai galėtų bendradarbiauti su duomenų autoriais.

„Panašią problemą turėjome tūkstantmečių sandūroje, kai hiphopo kūrėjai, o vėliau ir kiti intensyviai panaudodavo kitų muzikantų dainų elementus. Muzikos industrijoje buvo nemažai trinties, kurią ilgainiui išsprendė tobulėjantys algoritmai. Dabar „YouTube“ galima naudotis daugelio atlikėjų muzika, nes DI automatiškai ją aptinka ir paskirsto honorarus už kūrinius. Galbūt panašiai ateityje galėtų nutikti su į internetą įkeltais paveikslėliais ir kitu turiniu – jei jūsiškis panaudojamas DI apmokamiems duomenims, gausite atlygį. Kita problema – greičiausiai tas atlygis būtų šimtosios cento dalys. Tad išeities dar ieškoma“, – sako L. Keraitis.

Patogiausias būdas SUŽINOTI DAUGIAU – sekti naujienas mūsų „Facebook“ paskyroje!