- Kauno.diena.lt inf.
- Teksto dydis:
- Spausdinti
Gyvename kalbos technologijų revoliucijos amžiuje, kai jos gali kurti rišlų tekstą, versti, spręsti sudėtingus uždavinius, su jomis galime net palaikyti pokalbį
Vienas ryškiausių kalbos technologijų evoliucijos pasiekimų yra neuroniniais tinklais paremtas gilusis mašininis mokymasis, kurio pagrindu kuriami didieji kalbos modeliai, pavyzdžiui, 2022 m. pabaigoje „OpenAI“ kompanijos pristatytas „ChatGPT“ pokalbių robotas. Technologijų evoliucija atneša naujų iššūkių kalbos industrijai, keičia kalbos ir kitų sričių tyrimų pobūdį ir metodologiją, net kai kurias profesijas.
Naują tyrimų sritis
Dirbtinio intelekto (DI) tobulėjimas mokslininkams atveria duris, už kurių slepiasi menkai paliesta, tačiau itin aktuali kalbos technologijų tyrimų sritis.
Kauno technologijos universiteto Socialinių, humanitarinių mokslų ir menų fakulteto (KTU SHMMF) kartu su Lietuvos švietimo istorijos muziejumi birželio 13–14 d. surengtoje konferencijoje „LTech 2024“ mokslininkai dalijosi atradimais apie kalbą ir jos iššūkius dirbtinio intelekto amžiuje.
Valstybinės lietuvių kalbos komisijos (iš Lietuvių kalbos prestižo stiprinimo programos lėšų) remiamoje konferencijoje kalbos ekspertai, tarp kurių ir žinomi mokslininkai, profesoriai, dalijosi tyrimų rezultatais, metodologinėmis įžvalgomis ir patirtimi apie sparčiai besiplečiančią kalbos industriją ir dirbtinio intelekto pritaikymo galimybes.
Skaitmeninėje erdvėje dominuoja tos kalbos, kuriomis ekonomiškai stipriose valstybėse kalba dauguma žmonių, todėl kalbos technologijų tobulėjimas yra susijęs su kalbos standartizacijos klausimais, ypač kalbant apie pliuricentrines kalbas.
Freiburgo universiteto (Vokietija) profesoriaus dr. Christiano Mairo atlikto tyrimo metu paaiškėjo, kad mažiau dominuojantiems pliuricentrinių kalbų standartams (pvz., britų anglų kalbos) tenka mažiau dėmesio kuriant didžiuosius kalbos modelius, o generatyvinio dirbtinio intelekto tekstuose taikomi labiau paplitę kalbos variantai.
Įdomu, kad pati kalba taip pat daro savotišką įtaką dirbtinio intelekto priemonėms. Pasitelkiant tam tikros struktūros ir turinio pasakojimo formos tekstus, vadinamus dirbtinio intelekto užkalbėjimais (angl. jailbreaks), galima apeiti didžiųjų kalbos modelių draudžiamo turinio apribojimus.
„Jei sąmokslo teorijos įtikina žmones, nulauždamos jų kritinio mąstymo apsaugos mechanizmus, lygiai tokiomis pačiomis priemonėmis sukonstruoti užkalbėjimai panaikina didžiųjų kalbos modelių algoritminius apribojimus“, – teigia Kauno technologijos universiteto (KTU) mokslo grupės „Skaitmeninė kultūra, komunikacija ir medijos“ pagrindinis tyrėjas prof. dr. Saulius Keturakis. Kalbos technologijos kopijuoja mūsų bendravimą, o kartu klaidas ir silpnąsias vietas.
Mažų kalbų problema
Jau šiandien pastebima nelygybė tarp dirbtinio intelekto priemonių naudotojų. Nors kalbos technologijų bijoti nereikia, DI gali visuomenėje sukurti socialinę atskirtį tarp mažiau ir daugiau išsilavinusių. Pastarieji, mokėdami daug išteklių turinčių kalbų, turi prieigą prie daugiau skaitmeninių duomenų.
Didieji kalbos modeliai, tokie, kaip „ChatGPT“, yra taikomi ir vertimo srityje, nors generatyviniai DI įrankiai nesukurti kaip vertimo sistemos.
Pasak KTU mokslininkės, mokslo grupės „Kalba ir technologijos“ tyrėjos ir pirmosios „LTech2024” konferencijos organizacinio komiteto pirmininkės doc. dr. Dainoros Maumevičienės, kalba ir technologijos visada eina greta nuo to momento, kai žmogus išraižė tekstą Gilgamešo molio lentelėse ar hieroglifais.
„Kalba ir technologijos lemia nuolatinę abipusę kaitą, plėtrą, raidą ir naujų technologinių sprendimų kūrimą. Dėl to kalbos, kartu ir vertimo, industrija per pastaruosius dešimt metų labai pasikeitė. Nepaisant to, kokybiško vertimo, ypač į lietuvių kalbą, mašininio vertimo sistemos ir dirbtinis intelektas šiuo metu negali ir artimiausiu laikotarpiu negalės pateikti dėl to, kad lietuvių kalba yra mažai išteklių turinti kalba. Tam, kad mašininio vertimo sistemos galėtų pasiūlyti aukštos kokybės vertimų, reikia ne tik daug finansinių investicijų, bet ir iniciatyvų sukurti pakankamai skaitmenizuotus ir atvirų išteklių turinčius didžiuosius kalbos modelius“, – sako ji.
Pateikus užklausą, susijusią su tuo, kas nėra plačiai aprašyta skaitmeninėje erdvėje lietuvių kalba, rezultatai labai abstraktūs.
Lietuviškos DI problemos
Palyginti su didelėmis kalbomis, ypač anglų, lietuvių kalba turi daug mažiau skaitmeninių išteklių ir duomenų rinkinių, nors yra viena iš oficialiųjų ES kalbų.
„Lietuvių kalba visame pasaulyje kalba maždaug iki 4 mln. gyventojų. Palyginti su kinų, anglų, vokiečių, ispanų ar kitomis vadinamosiomis didelėmis kalbomis, net ir ukrainiečių, kurių yra 45 mln., kalbančiųjų bendruomenėmis, misija ir užduotis sukurti kokybiškai veikiančias mašininio vertimo ar DI sprendimais grindžiamas vertimo sistemas yra beveik neįmanoma tiek dėl mažos investicinės grąžos, tiek dėl mažos lietuvių kalba kalbančiųjų bendruomenės“, – sako D. Maumevičienė.
Pasak Valstybinės lietuvių kalbos komisijos narės, KTU mokslo grupės „Kalba ir technologijos“ pagrindinės tyrėjos prof. dr. Ramunės Kasperės, didieji kalbų modeliai ir generatyvinis dirbtinis intelektas tekstus lietuvių kalba generuoja palikdami daug klaidų, netikslumų, neegzistuojančių žodžių, jau nekalbant apie tai, kad sugeneruotas turinys yra bendrinio pobūdžio.
„Pateikus užklausą, susijusią su tuo, kas nėra plačiai aprašyta skaitmeninėje erdvėje lietuvių kalba, rezultatai labai abstraktūs, tinkantys apibūdinti daug panašių konceptų arba pateikiama informacija yra klaidinga“, – sako ji.
Nors didelė visuomenės dalis technologijomis gali naudotis ir globaliąja anglų kalba, unikalią kultūrą ir tautinę tapatybę galime perteikti tik savo kalba.
„Jei siekiame išsaugoti lietuvių kalbą, vien mokslininkų pajėgų ir verslo investicijų neužtenka, reikalingi politiniai sprendimai ir finansavimas valstybės mastu. Svarbu skaitmenizuoti jau turimus išteklius, kurti atviros prieigos duomenų rinkinius ir tekstynus, nes tik dideli duomenų kiekiai gali užtikrinti skaitmeninių išteklių plėtrą lietuvių kalba“, – sako R. Kasperė.
SUSIJĘ STRAIPSNIAI
-
Prancūzų žiniasklaidos priemonės kelia bylą socialiniam tinklui „X“
Keli įtakingi prancūzų laikraščiai antradienį paskelbė keliantys bylą socialiniam tinklui „X“ dėl jų turinio skelbimo už jį nemokant. ...
-
Kada smalsumas tampa per didelis?
Sunku būtų sutikti žmogų, kuris niekada nesidomėjo buvusio bendraklasio ar naujos simpatijos profiliu socialiniuose tinkluose. Jei pateikta informacija yra viešai prieinama, rodos, nieko blogo trumpam įsijausti į detektyvo vaidmenį. Tik ar karta...
-
Australija uždraus vaikams iki 16 metų naudotis socialiniais tinklais
Australijos ministras pirmininkas Anthony Albanese'is ketvirtadienį pareiškė, kad bus priimti nauji įstatymai, draudžiantys jaunesniems nei 16 metų vaikams naudotis socialiniais tinklais. ...
-
Pietų Korėja nubaudė „Meta“ 14 mln. eurų bauda
Pietų Korėja nubaudė socialinį tinklą „Facebook“ patronuojančiąją bendrovę „Meta“ 21,6 mlrd. vonų (14 mln. eurų) bauda už tai, kad ji neteisėtai rinko beveik milijono naudotojų jautrią informaciją komerciniams tikslams, ...
-
Į kosmosą paleistas pirmasis pasaulyje medinis palydovas4
Su kompanijos „SpaceX“ raketa į kosmosą pakilo pirmasis pasaulyje medinis palydovas, dalyvausiantis Tarptautinės kosminės stoties aprūpinimo misijoje, antradienį pranešė jį sukūrę konstruktoriai iš Japonijos. ...
-
Naujausi tyrimai: katės protingesnės už kūdikius?
Kačių šeimininkai žino, kad jų augintiniai protingi, tačiau Japonijoje atliktas tyrimas rodo, kad kačių intelektas yra dar didesnis, nei manome. Naujo tyrimo duomenimis, katės sugeba išmokti žodžius greičiau nei kūdikiai ir net gali p...
-
DI priemonė padės atpažinti ir moksleiviu nerimą2
KTU Matematikos ir gamtos mokslų fakulteto Taikomosios matematikos katedros docentė dr. Liepa Bikulčienė vadovauja Lietuvos tyrėjų komandai, dirbančiai tarptautiniame projekte „Gerovė@dirbtinis intelektas“. Jį įgyvendinant mokslininkai si...
-
Linkėjimai iš kreidos periodo
Honkongo mokslininkai pranešė pirmą kartą aptikę dinozaurų fosilijų atokioje saloje šalia miesto, kuri yra saugomo geoparko dalis. Ekspertai jau patvirtino, kad fosilijos yra didelio dinozauro fragmentas. ...
-
„LinkedIn“ skirta 310 mln. eurų bauda1
Airijos reguliavimo institucija, padedanti prižiūrėti Europos Sąjungos (ES) duomenų privatumą užtikrinančių reglamentų laikymąsi, ketvirtadienį pranešė, kad profesinių ryšių platformai „LinkedIn“ skyrė 310 mln. eurų b...
-
Kiek kainuoja sekundė netikslaus laiko?2
Ar žinojote, kad laikas Vilniuje ir Palangoje skiriasi? Pasirodo, tai priklauso nuo žemės pasisukimo kampo. Netrukus mes suksime savo laikrodžio rodykles valandą atgal, tačiau mokslininkai tą daro nuolat. Įrangos pagalba šie tikslina net mums me...