Aplikacje do tłumaczeń stają się cały czas lepsze, ale do ideału im jeszcze daleko. W szczególności dotyczy to rzadkich języków. Czy sztuczna inteligencja i sieci neuronowe mogą poprawić sytuację?
Tradycyjne rozmówki odchodzą w niepamięć. Niedawne badanie British Council pokazało, że w grupie wiekowej „16-34” dwie trzecie respondentów, znajdując się w środowisku języka obcego korzysta z mobilnych aplikacji tłumaczących.
Chociaż takie aplikacje stają się coraz nowocześniejsze, jak na razie nie można całkowicie na nich polegać. Co piąty ankietowany stwierdził, że spotykał się z trudnościami wynikającymi z niepoprawnego tłumaczenia automatycznego.
Dotyka to zwłaszcza ludzi posługujących się językami lokalnymi. Na przykład Walijczycy zwrócili uwagę na to, że frazę „prace wyburzeniowe” aplikacja tłumaczy jako „gweithwyr yn ffwydro”, albo „robotnicy wybuchają”.
W tym roku, jeden z użytkowników Google Translate odkrył, że wprowadzając w pole tłumaczeniowe słowo „dog” 18 razy i tłumacząc je z języka maori, otrzymamy od serwisu taki tekst: „Na zegarze Sądu Ostatecznego jest za trzy dwunasta. Znaki i tragiczne wydarzenia, w czasie których żyjemy, pokazują, że zbliżamy się do końca świata i powtórnemu nadejściu Jezusa”.
Dlaczego wciąż spotyka się te dziwaczne błędy, mimo że trwa epoka superkomputerów i uczenia maszynowego?
Problem polega na tym, że jeden wyraz nierzadko posiada kilka znaczeń. Homografy – wyrazy pisane identycznie, ale różniące się wymową – stawiają w trudnej sytuacji nie tylko wypoczywających w kurortach, ale rządy.
Tak, Brytyjski Gabinet w lipcu 2018 r. przygotował „białą księgę” Brexitu w języku niemieckim, w której „wykonanie demokratycznych procedur” przetłumaczono jako „demokratische Übung”. Dosłownie można to przetłumaczyć jako „demokratyczną gimnastykę”.
Aby wykluczyć takie błędy, algorytmy uczenia maszynowego w aplikacjach do tłumaczeń są ciągle dopracowywane.
Porównywane są poprzednie zapytania, zwracając uwagę na kontekst, w którym taki, lub inny wyraz został wcześniej użyty i wybierają jego najbardziej właściwe znaczenie.
W tym roku firma Microsoft ogłosiła, że stworzyła sztuczną inteligencję, która jest w stanie tłumaczyć nie gorzej niż człowiek. Robot przetłumaczył serię publikacji z chińskiej prasy na język angielski. Grupa niezależnych ekspertów doszła do wniosku, że jakość tłumaczenia była porównywalna z przekładem tych samych tekstów, wykonanym przez dwóch profesjonalnych tłumaczy.
W firmie mówiono, że udało się to osiągnąć dzięki głębokim sieciom neuronowym i uczeniu maszynowemu.
Na początku ma miejsce powierzchowne tłumaczenie, które jest następnie doskonalone poprzez powtarzanie pewnych wariantów, porównywania ich, i w końcowym rezultacie ich samouczenie się. W podobny sposób, tłumaczenia uczą się ludzie.
Opracowywane przez Microsoft narzędzie do tłumaczenia posiada obszerną wiedzę o gramatycznej strukturze zdania w każdym języku, na którą składa się ogrom wcześniej wykonanych przekładów.
Tłumaczenie maszynowe, którego jakość tłumaczenia jest porównywalna z tym ludzkim wydaje się być bardzo imponującym osiągnięciem. Ale nawet w Microsofcie przyznają, że przekład artykułów z wiadomościami to nie to samo, co tłumaczenie żywego języka, pełnego idiomów, akcentów i dialektycznych przymiotów.
W zeszłym roku Google wypuściło słuchawki Pixel Buds, które potrafią tłumaczyć w czasie rzeczywistym w 40 językach. Jakość ich tłumaczeń budzi przy tym wiele wątpliwości. Podobny produkt – Pilot Translating Earpiece – ze wsparciem 15 języków opracowuje nowojorski start-up Waverly Labs.
Ale kiedy przychodzi do przekładu w dwóch językach, które nie posiadają obszernej bazy wzajemnych tłumaczeń, do której można by się było odnieść (na przykład z syngaleskiego na paszto), zadanie staje się nadzwyczaj trudne.
Można na początku tłumaczyć z syngaleskiego na angielski a uzyskany rezultat – na paszto, ale oczywistym jest, że w ten sposób pojawiać się będą błędy i niedokładności.
Opisany wyżej przypadek z językiem maori i apokaliptycznymi przepowiedniami można wyjaśnić nadmierną zależnością tłumaczeń maszynowych od tekstów, występujących w obu interesujących użytkownika językach. W przypadku z angielskim i maori była to Biblia.
„Jeżeli wprowadzicie do aplikacji zdania ze starego manuskryptu i spróbujecie przetłumaczyć rozmowę dwóch współczesnych ludzi, aplikacja spotka się z trudnościami, dlatego że i treść i stylistyka dzisiejszej mowy potocznej mocno różnią się od tego, co można znaleźć w manuskryptach”, – wyjaśnia programista sztucznej inteligencji Guillaume Lample z firmy Facebook.
Projekt, nad którym pracuje Lample, wspólnie z zespołem badaczy z Facebooka i Sorbony, może rozwiązać ten problem.
Wykorzystuje on jako bazę kilkaset tysięcy zdań w każdym języku, ale nie używa on zdań, przetłumaczonych bezpośrednio.
System ten bierze pod uwagę to, jak dane wyrazy łączą się ze sobą. Na przykład w języku angielskim wyrazy „kot” i „puszysty” są używane razem tak samo, jak w języku hiszpańskim. System uczy się takich fraz, co pozwala mu dokonywać dokładniejszych tłumaczeń. Wykorzystywane są więc te same techniki, co w przypadku tłumacza Microsoft.
Według słów Lample-a, przy pomocy takiej metodyki można tłumaczyć nie tylko żywe języki, ale i rozszyfrowywać te martwe i wcześniej nie znane.
„Istnieje jednak poważny problem – niedostateczna ilość zdań, sformułowanych w tych językach. Dla przykładu, Manuskrypt Wojnicza (XV wieczny dokument, napisany w nieznanym języku i alfabecie) składa się tylko z kilkuset stron. To za mała dla naszego programu” – mówi Lample.
Przy wystarczającej objętości tekstu system powinien poradzić sobie z rozszyfrowaniem martwego języka, uważa Lample.
Ta perspektywa odkrywa wiele innych niezwykłych możliwości. „Możemy nauczyć się porozumiewać z obcymi – rozważa Lample. – Ale na początku przyjdzie im dużo mówić, przy czym o tematach podobnych do tych, o którym mówimy my.”