Kodėl didieji modeliai klumpa ties lietuvių kalba?
Nors globalūs dirbtinio intelekto įrankiai demonstruoja įspūdingus rezultatus anglų kalba, lietuvių kalba interneto duomenų rinkiniuose išlieka viena prasčiausiai reprezentuotų visoje Europoje.
Populiariame „Common Crawl“ duomenų rinkinyje lietuviški tekstai sudaro vos 0,6 TB, nors anglų kalbos duomenų mastas siekia net 153 TB. Dėl šio milžiniško disbalanso didieji universalūs modeliai lietuvių kalbos klaidas dažnai taiso su didele paklaida arba netinkamai pritaiko svetimų kalbų sintaksės taisykles ar barbarizmus.
„Todėl nusprendėme ne laukti, kol globalūs žaidėjai atkreips dėmesį į mūsų rinką, o šią spragą užpildyti patys, kurdami išskirtinai lietuvių kalbai pritaikytus įrankius“, – sako startuolio bendraįkūrėjas Dominykas Sedleckas.
Susiję straipsniai
Jau pripažino ir „Google“
Naujasis modelis „Kamilė“ yra daugiau nei metus trukusių intensyvių eksperimentų rezultatas. Prieš pasiekdama dabartinę formą, komanda išbandė per 70 skirtingų modelio versijų.
Esminiu lūžiu technologijos vystyme tapo startuolio sukurta nuosava sintetinių duomenų generavimo sistema. Ji geba sistemingai manipuliuoti sudėtingomis lietuviškų žodžių formomis – linksniais, laikais ir asmenimis.
„Tai užtikrina, kad modelis atpažįsta klaidas net rečiausiai vartojamuose žodžių dariniuose, kurių paprasčiausiai nėra viešuose interneto duomenynuose“, – teigia kitas startuolio bendraįkūrėjas ir DI inžinerijos specialistas Andrius Bernatavičius.
Šio projekto potencialą įvertino ir technologijų milžinė „Google“. Per „Google for Startups“ programą lietuvių kūrėjams buvo skirta 25 000 JAV dolerių parama, padėjusi padengti brangius modelių treniravimo kaštus.
Lenkia didžiausius rinkos žaidėjus
Siekiant įrodyti modelio pranašumą, buvo atlikti bandymai. Naudojant daugiau nei 50 000 žodžių tekstyną, kuriame tyčia palikta per 10 000 įvairaus tipo klaidų, „Kamilė“ pademonstravo aukštesnę taisymo kokybę nei naujausios globalių modelių versijos (lyginta su „Gemini 3.1“, „GPT-5.4“ bei „Claude Opus 4.6“).
„Šis modelis mums yra patvirtinimas, kad susitelkimas į vieną problemą gali įveikti mastą, ir kad skaitmeniniame amžiuje atsakomybę už lietuvių kalbos puoselėjimą galime drąsiai prisiimti patys“, – sako A. Bernatavičius.
Šiuo metu „Kablelis.lt“ įrankis yra prieinamas nemokamai (iki 10 000 žodžių per mėnesį), tačiau taip pat siūlo ir mokamus planus su neribotu tikrinimu bei automatiniu sakinių perfrazavimu. Įrankiu jau naudojasi daugiau kaip tūkstantis asmenų ir organizacijų, tarp kurių – ir Krašto apsaugos ministerijos, „BNS“, „DELFI“, „More“ agentūra, „Neshys“.




