Masintõlge ja andmeturvalisus - ohud, mis tuleks igaühel läbi mõelda

Kaasaegses maailmas, kus toodetakse pidevalt astronoomilises koguses tekstilist informatsiooni ja kus üha rohkem eeldatakse, et see informatsioon peab liikuma vabalt üle kõigi, sh keeleliste piiride, on odav, mugav ja kvaliteetne masintõlge loomulikult issanda õnnistus. Sellest on ammu aru saanud tuhanded väga erineva tausta, võimekuse, erinevate eesmärkide ja ressurssidega ettevõtted ja organisatsioonid üle maailma, masintõlke arendamises on sel sajandil toimunud tõeline plahvatus. Pea igal progressiivsemal tõlkebürool on praeguseks olemas oma masintõlkeprojekt, aga samuti panustavad masintõlke arendusse globaalse haardega hiigelkorporatsioonid, akadeemilised organisatsioonid ja ühendused, riigid ja riikide liidudki.

Muidugi käib see arendus asja pärast - neurovõrkude mudelil ja süvaõppel põhinev masintõlge tõepoolest töötab, muudab tõlkimise raske töö kordades kiiremaks ja tõhusamaks. Ilma liialduseta võib öelda, et tänapäeval tõlgitakse masinate abil iga päev kordades rohkem teksti kui kõik maailma inimtõlkijad kokku terve aasta jooksul suudavad läbi töötada. Aga nagu kõigi tööriistade puhul tuleks ka masintõlke juures silmas pidada võimalikult laia pilti, s.t. vaadata ka neid aspekte, mis esmapilgul võib-olla päris enesestmõistetavad ei ole. Kõigi tehniliste ja akadeemiliste küsimuste kõrval on siin olulisel kohal ka andmete turvalisus - igasugune tekst sisaldab kordumatut informatsiooni ja kui see tekst tõlkemasinast läbi käib, talletub tekstis sisalduv informatsioon kuhugi n-ö kapoti alla. Seepärast tasubki väga hoolikalt läbi mõelda, millist teksti millisesse masinasse sisestada võib.

Iga masintõlke mootor kasutab iga uut tõlgitud segmenti (lauset) loomulikult oma korpuse ja tõlkealaste "kogemuste" täiustamiseks, st õpib iga uue tõlketoimingu juures. See on loogiline, hea ja õige lähenemine, aga ei tasu ära unustada, et iga tõlgitud lause koos tõlkevastega salvestub andmebaasi. See tähendab, et iga kord kui ma tõlgin ükskõik millise tõlkemootori abiga näiteks lause "Viktor Vihmavari varastas Aksel Aknalaua jalgratta", jääb kuhugi andmebaasi oluline informatsioon nende kahe kodaniku kohta, ja kui lauses sisalduvad näiteks nende isikukoodid või muud isikuandmed, ei kao ka need andmebaasist kuhugi. Sama kehtib ka ettevõtte nime, kaubamärki või ükskõik millist muud konkreetse juriidilise isikuga seostatavat informatsiooni sisaldava lause kohta. Seega toimub iga masintõlke protsessi loomuliku ja paratamatu kõrvalnähtusena ka andmete kogumine. Paljud masintõlke pakkujad kinnitavad, et nende tõlkemälud anonümiseeritakse kas automaatselt ja regulaarselt või vastavalt kliendi soovile - aga esiteks ei pruugi anonümiseerimine (protsess, mille käigus proovitakse eemaldada tekstist kõik nimed ja muud konkreetseid juriidilisi või füüsilisi isikuid puudutavad andmed) alati sajaprotsendiliselt töötada, ja teiseks võib töötleja lubaduste ja tegeliku tegutsemise vahel esineda ka lahknevusi. Seepärast ei tasu tehniliste lahenduste peale täielikult lootma jääda, vaid tuleks hoolikalt uurida ka juriidilist külge ehk lugeda läbi masintõlke pakkuja leping või kasutustingimused. Kindlasti ei anna ka neis toodud lubadused alati kindlat turvalisuse garantiid, aga mingit informatsiooni selle kohta, kui oluliseks pakkuja andmeturvalisust peab ja milliseid meetmeid selle tagamiseks rakendab, võib sealt tõenäoliselt leida.

Teine oluline koht, kus tuleks masintõlke kasutamise lubatavus läbi mõelda, on ettevõtte sisemised andmeturvalisuse reeglid. Ei ole just haruldane, et organisatsiooni töötajad kasutavad avalikku masintõlget heas usus ja omal algatusel, vahel sellest ehk ise arugi saamata. Sedasi süütult avalikku ringlusse lastud materjalide hulgas võib olla näiteks tootearendusplaane, kliendisuhete ja -probleemide alast kommunikatsiooni, isikuandmetega seotud värbamismaterjale ja igasugust muud mitteavalikku sisu. Lisaks ärikriitilise informatsiooni tahtmatule avalikustamisele lähevad sellised tegevused loomulikult vastuollu ka seadustega (isikuandmete kaitse üldmäärus tuleb esimesena meelde, aga ei ole kindlasti ainus seadus, mida näiteks kellegi cv-d läbi mõne avaliku masintõlke serveri jooksutades rikutakse - eriti juhul kui server asub väljaspool Euroopa Liitu, aga seal nad tihti just asuvadki). Tõlkemaailmas on üldtuntud paari aasta tagune juhtum, kus Norra naftahiiu Statoili töötajad avastasid üllatusega, et dokumendid, mille tõlkimiseks nad olid kasutanud translate.com-i pakutavat tasuta masintõlkeprogrammi, olid ühtäkki vabalt leitavad igaühele, kes neid suvalise otsimootori abiga otsida viitsis. Nii ei ole sugugi erandlik juhus, kus suurte organisatsioonide arvutivõrkudest on lausa keelatud ligipääs Google Translate'ile või muudele sarnastele avalikele ja tasuta tõlkeplatvormidele.

Ja kui veelgi süngemaks minna, siis nn /big tech/ korporatsioonide andmete kogumises ja andmekogude ärakasutamises süüdistamine ei ole ju midagi uut (vahemärkuseks: kes ei ole lugenud Shoshana Zuboffi raamatut "The Age of Surveillance Capitalism", see kobab tõenäoliselt pimeduses!), aga lisaks hiigelsuurtele tehnoloogiafirmadele on seda kullaauku aktiivselt kaevandamas ka riiklikud tegijad - siin on näiteks paari aasta tagune Austraalia strateegilise poliitika instituudi raport selle kohta, kuidas kommunistlik Hiina pakub lahkesti mugavaid, soodsaid ja tipptasemel teenuseid, muuhulgas ka nii masintõlke kui näiteks konverentsitõlke lahendusi - ikka selleks et kogu neisse valatav informatsioon läbi sõeluda ja seda enda huvides ära kasutada.

Muidugi võib seda nimetada liigseks paranoiaks, aga igaüks võiks nende ohtudega vähemalt kursis olla ja enda jaoks läbi mõelda, kust läheb piir tehnoloogia fantastilise mugavuse, piiritute võimaluste ja endas reaalseid ohte kätkeva lihtsameelsuse vahel.