Překládá Google jako člověk?

Koncem minulého týdne rozvířila vody na zahraničních technologických a překladatelských webech zpráva, že Google přišel se systémem strojového překládání textů, který se vyrovná lidskému překladateli. Z českých webů tomu krátkou zprávu věnuje například server zive.cz. Odvážně do toho šel ovšem Respekt, který rovnou tvrdí, že se Google naučil překládat jako člověk.

Stroj překládá jako člověk? Vždyť máme všichni zkušenost s těmi trapnými překlady do češtiny, když si něco nahodíme na Google Translate. A jak je to vůbec možné, aby počítač dokázal tak dobře překládat?
brain

Strojový překlad – stará záležitost

O strojových překladech (machine translation – MT) se v překladatelském oboru diskutuje už dlouho, možná déle než jsme si mysleli – od 50. let 20. století. Historie to je zajímavá, systémy, které vždy v nějaký čas byly favority na to, aby se staly nástupci lidských překladatelů, se postupně střídaly. Jednou šlo o programy, které by zvládly všechna jazyková pravidla a uměly všechna dostupná slova daného jazyka, jindy o systémy, které analyzují obrovské množství již přeložených textů a z nich vytvářejí překlady nové. Systém, který nyní Google zavádí, je dalším vývojovým stádiem. O podrobnostech možná někdy příště, nyní se pojďme spíše podívat na to, jak to je s tím „vyrovnáním se člověku“ při překládání.

Google ke svému výzkumu vydal blogpost, který hodnotí jeho výsledky, a také celou výzkumnou zprávu, kde na dvaceti, často velmi odborně pojatých stranách popisuje vývoj, výsledky a metodologii hodnocení. Právě zde se objevuje ona věta, která začíná „in some cases human and GNMT (Google Neural Machine Translation) translations are nearly indistinguishable…“, tedy „v některých případech jsou překlady vyprodukované člověkem a GNMT (Googlovským systémem strojového překladu s použitím neuronových sítí) téměř k nerozeznání“. A to je věta, kterou ony překladatelské a technologické servery převzaly do svých zpráv a téměř vytvořily dojem, že počítač už umí překládat skoro tak dokonale jako člověk. Ne tak rychle s tou dokonalostí

Internetový server zabývající se překladatelským trhem a technologiemi oslovil tucet odborníků na strojové překlady, aby googlovský pokrok zhodnotili (https://slator.com/technology/hyperbolic-experts-weigh-in-on-google-neural-translate/). Většina z nich uznává pokrok ve vývoji strojového překladatelského softwaru u Googlu jako velmi významný a stěžejní pro další rozvoj. Shodují se, že rozvoj na základě neuronových sítí je (spolu a tzv. adaptivním strojovým překladem) jednou z hlavních cest, která povede k dalšímu zlepšování těchto systémů. K tvrzení, že se jedná o překlady, které by se vyrovnaly lidským překladatelům, jsou ale veskrze všichni velmi skeptičtí. Někteří kritizují metodologii nebo malé a příliš jednoduché vzorky pro překlady, jiní obviňují Google z toho, že celý výzkum je z části marketingovou kampaní. Přestože Google již svůj GNMT zavedl do praktického použití pro překlady z čínštiny do angličtiny v rámci Google Translate, k praktickému použití v dalších jazykových kombinacích je ještě dlouhá cesta.

Nezávislý konzultant v oblasti strojových překladů Kirti Vashee vyjmenovává 3 zásadní problémy s prohlášením Googlu, že se jedná překlady, které by měly být téměř k nerozeznání od lidských. (http://kv-emptypages.blogspot.cz/2016/09/the-google-neural-machine-translation.html)

  • V samotné výzkumné zprávě je použita aritmetická manipulace, kdy pro zhodnocení pokroku je použita nevhodná metoda. Google oznamuje zlepšení 55-85 %, přičemž matematicky správně je to nejvýše 12,3 %. I v samotné zprávě Google prezentuje grafy, které na první pohled nevypadají jako zlepšení o 85 %.
  • Google pro porovnání kvality překladů používá spornou metodologii, kdy nechává bilingvní hodnotitele opakovaně hodnotit úroveň překladu na škále od 0 (naprosto nesmyslný překlad) do 6 (dokonalý překlad). Kromě toho, že sám Google tuto metodologii v téže výzkumné zprávě kritizuje a označuje jako nespolehlivou, vychází z ní. Odborníci poukazují především na to, že člověk je schopný efektivně porovnávat překlady a určovat, který je „lepší“, ale dlouhodobě a hlavně konzistentně hodnotit kvalitu na škále 0-6 nedokáže.
  • To vede k tomu, že Google na základě těchto chyb vydává falešné zdání pokroku a využívá to především jako marketingové prohlášení.

Stroje, překlady a budoucnost

Většina oslovených odborníků uvádí, že ke strojovým překladům, které by byly téměř k nerozeznání od lidských, máme ještě dlouhou cestu a to zejména z těchto důvodů:

  • použití neuronových sítí pro strojové překlady je velmi náročné na výpočetní kapacitu a čas, takže jsou zatím nedostupné pro komerční využití,
  • mnoho jazykových kombinací je komplikovanějších než překlady z čínštiny do angličtiny, jež v současnosti dávají nejlepší výsledky,
  • stále se objevují stejné problémy, především vypouštění některých slov ve větách a neschopnost přeložit málo používaná slova.

Sám Google přiznává, že jejich systém dokáže při překládání udělat chyby, které by lidský překladatel nikdy neudělal. Nicméně na druhou stranu se ovšem mnoho odborníků shoduje, že právě strojové překlady založené na neuronových sítích jsou jedním z možných správných směrů, jak se v budoucnosti k dokonalým strojovým překladům dostat.

V současnosti na podobných systémech jako Google pracuje několik firem včetně Facebooku, Microsoftu, Baidu nebo společnosti Systran. Menší firmy jako KantanMT nebo Iconic se zaměřují na strojové překlady vytvářené na míru svým klientům pro specifické typy překladů a jazykové kombinace. Tyto menší systémy často produkují lepší výsledky, než velké systémy, jako je současný Google Translate.

Co se dá tedy očekávat do budoucnosti? Opravdu dobrý strojový překlad bude vypadat vždy jako překlad lidský, nikoli pouze v určitém vzorku a s omezenou komplexností. Časem se buď jedné, nebo více společnostem podaří stávající problémy překonat, zejména snížení nároků na výpočetní kapacitu a čas je nejspíše otázkou jen relativně krátkého času. Pokud se potom podaří vyřešit i další problémy týkající se jazyka a práce s ním, tak se pro kombinace velkých a morfologicky méně bohatých jazyků dočkáme opravdu dobrých strojových překladů v horizontu několika málo let.

 

Autor: Vítězslav Bican
Vítězslav Bican absolvoval Masarykovu univerzitu v oborech filosofie a politologie a Vysokou školu ekonomickou v oboru podniková ekonomika a management. V roce 2014 ukončil doktorské studium na katedře mikroekonomie VŠE pro obor Ekonomické teorie.

Od roku 2007 působí na pozici výkonného ředitele jazykové agentury Channel Crossings, v říjnu roku 2012 byl na pravidelném zasedání Asociace jazykových škol a agentur ČR zvolen jejím prezidentem. Jedním z jeho cílů bylo vytvořit jednotnou asociaci jazykových škol, což se podařilo v lednu 2015. Od té doby je také předsedou této jednotné Asociace jazykových škol.