Automatinis vertimas savo kokybe neprilygsta profesionaliam

Prieš keletą metų atsiradus automatinėms vertimo sistemoms, verčiančioms į lietuvių kalbą, internetas „lūžo“ nuo įvairiausių netikslaus vertimo pokštų. Latvijos sostinė „Ryga“ iš anglų kalbos į lietuvių būdavo verčiama kaip „Vilnius“, o „lietuviai“ tapdavo ir „lenkais“, ir „rusais“.

Iki šiol išversti tekstai yra kupini įvairiausių absurdiškų klaidų ir netikslumų. Nors tos pačios vertimo sistemos į prancūzų, vokiečių ar ispanų kalbas verčia jau gana tiksliai.

Tai, kad mums dar yra kur tobulėti, pripažįsta vienos didžiausių šalyje kalbines technologijas plėtojančių bendrovių „Tilde informacinės technologijos“ („Tilde IT“) direktorius Vaclovas Pranskūnas. Jis užsimena, kad jo vadovaujama bendrovė jau kelerius metus aktyviai dirba kurdama automatinio vertimo sistemą.

Šiuo metu internete galime rasti dvi mašininio vertimo sistemas, kurios gali išverti tekstą iš anglų kalbos į lietuvių. Kuo „Tilde IT“ kuriamas mašininis vertimas skirsis nuo jau veikiančių sistemų?

Veikimo principas bus visiškai kitoks. Į lietuvių kalbą verčiančios vertimo sistemos yra pagrįstos taisyklėmis arba statistika. Pirmasis metodas analizuoja tekstus naudodamas algoritmus. Statistinis vertimo būdas remiasi tekstais, išverstais į skirtingas kalbas. Abiem atvejais sistemos veikia ne be priekaištų. Geriausių vertimo rezultatų galime pasiekti sujungę abu metodus ir panaudoję ontologijų kalbą.

Kas yra ontologijos, kuo jos ypatingos?

Tai savotiškos duomenų bazės, žodžių aprašymai. Dėl jų vertimo sistema supranta ir susieja skirtingus žodžius, pavyzdžiui, vanduo ir puodelis, garlaivis ir valtis. Pirmuoju atveju sistema supranta, kad vanduo gali būti pilamas į puodelį, antruoju, kad tiek garlaivis, tiek valtis yra vandens transporto priemonės.

Ontologijos gali smarkiai pagerinti automatinio vertimo kokybę ir padeda išspręsti vieną didžiausių problemų - žodžių daugiareikšmiškumą. Pavyzdžiui, angliškas žodis „Georgia“ gali būti verčiamas kaip „Gruzija“ ir kaip „Džordžija“, JAV valstija, „oil“ - gali būti ir „aliejus“, ir „nafta“.

Ontologijos padeda vertimo sistemai suprasti kontekstą, todėl versdama ji parenka tinkamą žodį. Ontologijų kalbą tyrinėjame drauge su partneriais iš Turkijos, Švedijos ir Olandijos. Visi dalyvaujame projekte „Erdvinės ontologijos kalbos naudojimas modeliuojant multimedijos informaciją“.

Ar galima sukurti sklandžiai ir be klaidų verčiančią mašininio vertimo sistemą?

Kol kas sklandaus vertimo į lietuvių kalbą negali pasiūlyti jokia rinkoje esanti automatinio vertimo sistema. Tačiau, manau, kad tai tik laiko klausimas. Kurdami automatinio vertimo sistemą bendradarbiaujame ne tik su užsienio partneriais, bet ir su Lietuvių kalbos institutu. Jis kaupia, sistemina bei skaitmenina įvairius lietuvių kalbos išteklius. Lietuviški tekstai reikalingi automatinio vertimo sistemai, kad ji patikrintų, ar į lietuvių kalbą išverstas žodžių junginys tikrai yra teisingas. Dabar dažnai pasitaiko gramatiškai netaisyklingų žodžių ir jų junginių.

Jokiu būdu nesakau, kad artimiausiu metu turėsime jau tobulą mašininio vertimo sistemą. Ir kad mums tikrai pavyks išvengti plačiai žiniasklaidoje nuskambėjusių kuriozų, kuomet vertimo sistemos parenka visiškai netinkamus žodžius. Svarbiausia, kad kuriama vertimo sistema galės būti nuolatos tobulinama, papildoma naujais tekstais, pritaikomi naujausi mokslinių tyrimų rezultatai.

Kada vartotojai galės išbandyti naują automatinio vertimo sistemą?

Jau artimiausiu metu, tačiau tai bus tik pirminis rezultatas. Tikiuosi, kad vartotojai į tai atsižvelgs. Šiuo metu atliekame daug įvairiausių mokslinių tyrimų, susijusių su automatinėmis vertimo sistemomis, gilinamės ir atskleidžiame jų paslaptis, kurios turėtų padėti sukurti tobulesnę automatinio vertimo sistemą. Kadangi matome šviesias šio reikalo perspektyvas, daug investuojame į šios sistemos kūrimą, dalyvaujame tarptautiniuose projektuose su užsienio partneriais, atliekame mokslinius tyrimus. Tačiau viso šio darbo akivaizdžiais vaisiais ir gerokai tobulesne vertimo sistema galėsime džiaugtis šiek tiek vėliau. Šiuo metu dar tik kaupiamos žinios.

Daugeliui gali pasirodyti keista, kad pradėjote kurti mašininio vertimo sistemą, kai tai jau daro ir kitos įmonės, pavyzdžiui, internetinės paieškos milžinė „Google“?

„Tilde IT“ specializacija - kalbinių technologijų vystymas. Šioje srityje turime patirties. Prieš ketverius metus pristatėme „Tildės Biuro“ vertimo vedlį, kuris yra automatinio vertimo užuomazga.

Esame per maža tauta, mūsų kalba nėra pasaulyje itin populiari, todėl „Google“ ar kita tarptautinė kompanija nieko specialiai nekurs lietuvių kalbai. Sistema tik bus papildoma naujais dvikalbiais tekstais. Kadangi lietuvių kalba pasaulyje nėra tokia paplitusi, kaip, pavyzdžiui, ispanų, tai ir dvikalbių tekstų yra mažiau, o dėl to ir vertimo kokybė prastesnė. Lietuviški vertimai gali būti sklandesni, bet tik tuo atveju, jei sistemą kursime patys, išmanydami lietuvių kalbos specifiką.

Ar sukurta vertimo sistema neatims darbo iš vertėjų?

Artimiausiu metu to tikrai neatsitiks. Kol kas automatinės vertimo sistemos darbas savo kokybe neprilygsta profesionalaus vertėjo darbui. Mes ir patys teikiame lokalizavimo, vertimo paslaugas. Tikimės, kad kuriama mašininio vertimo sistema mūsų vertėjams kaip tik palengvins darbą. Užsienyje jau gana populiaru kreiptis į IT bendroves, kad pastarosios sukurtų specializuotą mašininio vertimo sistemą, galinčią versti, pavyzdžiui, teisės ar logistikos tekstus. Kaip tai vyksta? Per kelis mėnesius IT bendrovė „pamaitina“ mašininio vertimo sistemą milijonais specializuotų žodžių ir tekstų, išverstų į kliento pageidaujamas kalbas. Taip sistema „išmokoma“ versti gana sklandžiai. Tačiau net ir tuomet vertėjai nelieka be darbo. Jie turi peržiūrėti ir suredaguoti automatiškai išverstą tekstą. Be to, profesionalus vertėjas gali puikiai ir suprantamai išversti bet kokios kokybės tekstą. Verčiant su mašininio vertimo sistema galutinis rezultatas priklauso nuo verčiamo teksto kokybės. Jei tekstas yra netaisyklingas, nesklandus, tai jis ir išverstas toks bus.

Kokios srities tekstus ir į kokias kalbas geriausiai vers „Tilde IT“ mašininio vertimo sistema?

Versti bus galima iš lietuvių kalbos į anglų, o vėliau ir atvirkščiai. Pradžioje tiksliausiai bus verčiami ES teisiniai dokumentai ir direktyvos. Visi tekstai yra peržiūrėti mūsų vertėjų ir redaktorių.

Artimiausiu metu vertimo sistemos atmintį papildysime dvikalbiais medicinos ir informacinių technologijų tekstais. Šiuo metu mūsų tikslas ir pagrindinis darbas - surinkti kuo daugiau dvikalbių tekstų ir jais „pamaitinti“ mašininio vertimo sistemą.


Šiame straipsnyje: vertimas

NAUJAUSI KOMENTARAI

aura

aura portretas
Man atrodo automatinis teksto vertimas niekada neprilygs žmogaus profesionaliam vertimui. Aš visuomet naudojuosi profesionalų vertėjų paslaugomis http://www.runos.lt/
VISI KOMENTARAI 1
  • Skelbimai
  • Pranešk
    naujieną
  • Portalo
    svečias
  • Klausk
    specialisto
  • Diskusijos
  • Orai
  • TV
    programa
  • Pažintys
  • Žaidimai
  • Horoskopai
  • Naujienlaiskis
  • RSS
  • Facebook
  • Twitter

Galerijos

Daugiau straipsnių