Odborník na umělou inteligenci a strojové učení Ondřej Bojar z Matematicko-fyzikální fakulty UK vyvíjí překladače, které poráží Google i lidské překladatele a umí simultánně překládat do 43 jazyků, i tak ale radí: „Učte se cizí jazyky – dnes už se pomocí překladače dorozumíte, ale bez znalosti jazyka jste ochuzeni. A také je to skvělý trénink pro mozek.“
Rozhovor vyšel původně na UK Forum.
Strojovým překladem jste se prý začal zabývat proto, že jste chtěl vědět, co to znamená něčemu rozumět. Už jste na to přišel?
Já jsem si na začátku myslel, že porozumění bude nutné pro překlad, ale ono se ukazuje, že se dá dojít velmi daleko, aniž by stroj čemukoli porozuměl. Dokladem toho může být náš článek v Nature Communications, kdy náš systém CUBBITT, volně přístupný na serveru Lindat, překládá novinové texty lépe než jiné překladače či dokonce na stejné úrovni jako překladatelská agentura, aniž by rozuměl tomu, co překládá.
Bude umělá inteligence někdy rozumět?
To je něco, co všichni zkoumáme. Tomáš Mikolov měl před časem na naší katedře přednášku o jazykovém modelování, což jsou v jádru jednoduché vzorečky, jejichž cílem je umět generovat dobrý text. Dnešní systémy umí „přečíst“ mnohonásobně větší objem textu, než je schopen zvládnout člověk za celý život, ale stále nejsou tak dobré v jazykovém modelování jako lidé. A to je přesně proto, že obsahu nerozumí, že jen chytře odhadují, co se tak v dané situaci „většinou“ říkává.
I mezi odborníky se liší názory, zda je pro strojové porozumění nutná fyzická zkušenost lidského světa či zda je možné to vyčíst z textů. Já si myslím, že je nutná zkušenost, která nemusí být přímo fyzická, ale musí být přenesena do strojů na úrovni našeho vnímání; to znamená stejná obrazová, teplotní, tlaková, akustická zkušenost a k tomu tělesná odezva našeho těla. Člověka ale bude možné brzy ošálit: nepozná, že robot nerozumí tomu, co dělá, protože to bude dělat velmi dobře. Ostatně již dnes často nepoznáme, zda i docela složitou větu nebo kratší text přeložila umělá inteligence, či člověk.
Co už umí a neumí strojový překlad?
Dlouho bylo poměrně jednoduché vysvětlit a popsat, co strojové překladače umí a neumí. V posledních letech jsme se ale dostali do situace, kdy je to naopak těžké. Jsme v situaci, kdy máme dostatečně velká trénovací data pro některé domény, jako jsou například novinové články a překlad čeština-angličtina. Jedná se o domény-oblasti, na kterých jsme již desetiletí pracovali a teď zúročujeme ten dlouhodobý výzkum a dosahujeme výsledků jako lidé. Bohužel ale jen v té konkrétní oblasti – v jiných je překlad stále daleko od ideálu. Další výzvou je třeba mluvená řeč, což je i předmětem našeho tříletého evropského projektu European Live Translator (ELITR), který koordinuji a na konci března jsme jej završili.
V projektu ELITR jste se snažili vyvinout strojový překladač, který by na mezinárodních jednáních simultánně překládal do 43 světových jazyků. Jak se vám to podařilo?
Programy pro rozpoznávání hlasu již existovaly – uměly poměrně dobře rozpoznat proud slov, problematická ale byla interpunkce, na kterou se dřívější projekty moc nesoustředily. A právě interpunkce je zásadní pro překlad, protože co věta, to je zaznamenaná myšlenka. Zjistili jsme, že když propojíme „nadlidsky“ rozpoznaný proud proslov a „nadlidský“ překlad, tak to ve výsledku stejně dobře nefunguje, protože rozpoznávání hranic vět je stále na velmi „podlidské“ úrovni. Protože, když budete překládat věty, které mají posunutou interpunkci – půl myšlenky v jiné větě – povede to k nesmyslům.
Opět ale záleží na doméně. Když máte konkrétní úzkou oblast a máte k ní dostatek trénovacích dat, tak se můžete přiblížit perfektnímu výsledku, nebo ho i dosáhnout, ale jakmile překladač nasadíte na jinou oblast, tak se to začne komplikovat a v praxi je to nepoužitelné.
To je ale obecný problém současné umělé inteligence.
Ano, dnes již není problém natrénovat umělou inteligenci na řešení konkrétní úlohy a je jedno, zda budete chtít rozpoznávat zlomeniny na rentgenových snímcích, hledat defekty na pneumatikách nebo ze záznamu zvuku detekovat, zda eskalátory potřebují servis – když budete mít dostatek vstupních dat, uspějete. Když ale budete chtít vyrobit robota, kterého pošlete na náhodnou misi a bude mít za úkol roztřídit plevel od rostliny, tak na třech příkladech mu to nevysvětlíte. Aktuální výzkumy se zaměřují na obecnost a řešení co nejpestřejších úloh.
Dostatek trénovacích dat je, jak jste řekl v přednášce v rámci konference Best of Prague AI, jedna z věcí, které vděčíte Evropské Unii. Vysvětlete to prosím čtenářům.
Myslíte banány v řečtině (směje se)? V současné době systémy pro strojový překlad zásadním způsobem spoléhají na existenci velkého objemu textů, které dříve přeložili lidé. A Evropská unie si před mnoha lety dala za cíl a jako jednu z ústředních hodnot zachovat si svoji jazykovou diverzitu a nabízet rovný přístup všem svým občanům. Tak vznikly obrovské objemy obsahově stejných textů přeložených ve 24 jazycích a na těchto obrovských objemech textů se mohou trénovat systémy, které mezi těmito systémy překládají. V projektu ELITR pracujeme se 43 jazyky a je tam krásně vidět veliký rozdíl mezi kvalitou překladů v evropských jazycích, kde jsou k dispozici evropská data, a kvalitou překladů pro jiné jazyky, kde tato trénovací data chybí.
S vývojem takového strojového překladače se nabízí otázka – má smysl učit se cizí jazyky?
Já si jednoznačně myslím, že učit se cizí jazyky má velký smysl. Nadále platí a bude platit: Kolik řečí umíš, tolikrát jsi člověkem. Znalost cizího jazyka přidává nový rozměr do života, protože se učíte nové vztahy mezi pojmy, které znáte v mateřštině. Navíc žít v cizím prostředí za pomoci strojových překladačů je bolestivé a hlavně ochuzující – neznalostí jazyka se připravíte o hodně. Technologie jsou skvělé na rychlou pomoc v nouzi, jako je například kolegy rychle vyvinutý překladač do ukrajinštiny nebo na krátkodobé návštěvy a mezinárodní setkání. Myslím si, že brzy přijde doba, kdy nebude nutné se učit jazyk, abyste fungovali v dané společnosti, ale ochudíte se – ochudíte se o zážitky s místními lidmi, ale především se ochudíte o cvičení vlastní hlavy. A dnes už víme, že ve stáří dochází ke kognitivnímu úbytku a je výhodné mít odkud brát – mít rezervu.
Zapojen jste byl i do projektu THEaiTRE. Co byla ta vaše výzkumná část? A jak se vám divadelní hra napsaná umělou inteligencí líbila?
Celý projekt měl i mediálně utajenou část, kdy jsme odkaz na hru prostřednictvím Českých center rozeslali po celém světě a zkoušeli jsme simultánně překládat do 43 jazyků. Samotné strojové titulkování hry bylo poměrně jednoduché – transkript jsme strojově přeložili do 43 jazyků a během hry jsme to jen pustili. Výzkumně zajímavější byla následná živá diskuze, kterou jsme simultánně překládali pomocí našeho překladače ELITR. Ukázalo se, jak mimořádně důležitou roli pro kvalitu našeho výstupu hrála tlumočnice.
Kolegové v diskusi totiž měli jeden společný a docela vzdálený mikrofon a navíc přišli v rouškách! Na takové podmínky je naše rozpoznávání řeči hrubě nepřipravené. Jako vstup jsme proto brali hlas tlumočnice z ideálních podmínek zvukové kabiny a díky ní jsme i měli krásně oddělené jednotlivé věty. Ze zmatku diskuse tedy člověk dělal kvalitní souhrn a stroj už „jenom“ doplnil 43 dalších jazyků. Proto vidím budoucnost hlavně v těsné spolupráci lidí a strojů.
A samotná hra se mi moc líbila. Dlouho jsem nebyl v divadle kvůli všem někdejším lockdownům a tím, že jsem byl do projektu zapojen, to pro mě mělo i další rozměr – i když jsem byl spoluúčasten příprav, snažil jsem se nechat se co nejvíce překvapit a to se povedlo. Myslím, že na tom dramaturg David Košťák a herci udělali neskutečný objem práce. Dali si záležet na tom, aby zachovali text, ale přitom do něj vložili obsah, který tam původně nebyl. Herci byli tím posledním testem, zda je to hratelné a sám jsem zvědavý na jejich dojmy, kolegové o tom sepisují knížku.
Jaké jsou vaše další výzkumné projekty?
Jedna má doktorandka například pracuje na takzvaně neřízeném strojovém překladu, kdy je cílem udělat systém, který se naučí překládat jenom tím, že mu dáte hromadu anglických textů a hromadu jiných českých textů a on se sám naučí, která slova jsou si překladem a postupně, iterativním postupem, se v překládání sám zdokonalí. Funguje to na principu vektorové reprezentace slov, kdy je ve vektorech zaznamenán kontext daného slova. Zároveň víme – zafixujeme, co jsou jména a interpunkce, a z toho můžeme vycházet. Při porovnání vektorů v jednotlivých jazycích pak dokážeme najít podobnosti a určit, která slova si jsou překladem. Je to velmi hrubý systém, který dělá hodně chyb, ale dostanete se překvapivě daleko.
Jeden z dalších projektů je Bergamot, který má za cíl dostat strojový překlad přímo do webového prohlížeče, aby překlad probíhal offline. Teď to funguje tak, že Google ví, co hledáte, ale když už se pohybujete na konkrétní stránce, tak neví, co si čtete, pokud nevyužíváte automatický online překlad. Pokud si překládáte například přímo v prohlížeči Chrome, tak Google vidí vše, co si prohlížíte a čtete; ví i mimořádně přesně, kde jste už číst přestali. My se snažíme udělat strojový překladač dostatečně malý, ale dostatečně kvalitní, tak aby se na každém obyčejném počítači mohl pustit jako součást prohlížeče, čímž bychom výrazným způsobem zlepšili soukromí a ochranu dat uživatelů. Takový překladač by se mohl používat i v institucích, které fungují na intranetu nebo pracují s citlivými údaji.
Co jsou největší mýty kolem umělé inteligence?
Spíše než s mýty se setkávám s polarizací názorů – buď jsou lidé velmi optimističtí a mají nereálná očekávání z hlediska toho, co bude umět, nebo naopak mají přehnané obavy ze ztráty práce či jsou pesimisté, že to stejně nebude fungovat. Tato polarizace pramení z neznalosti celé problematiky a věřím, že by v tom mohl velmi pomoci například online kurz Elements of AI – úvod do umělé inteligence, který je dostupný i v češtině a mohl by široké veřejnosti poskytnout základy a informace pro získání realistické představy, jaké jsou možnosti umělé inteligence a co (ne)umí.
Jsem bytostně přesvědčen, že bez alespoň základního pochopení principů strojového učení není možné současným světem proplouvat bez zklamání, nepochopení a nezřídka rozhořčení z toho, jak strašlivě můj mobil, informační tabule v dopravě nebo dokonce moje pračka a lednička nerozumí mým potřebám.
Ještě jednou se vrátím k vaší přednášce na konferenci Best of Prague AI, která byla velmi srozumitelná i pro laiky. Jak jste se učil popularizovat?
Děkuji, bylo mým cílem, aby byla hodně popularizační. Myslím, že za úspěchem stojí i to, že jsme to trénovali a dostali jsme od prg.ai konkrétní rady, co dělat a nedělat. Struktura vycházela z TED talks; na internetu jsou dostupné návody a tipy, jak má vypadat úspěšná přednáška – od doporučené délky až po strukturu přesýpacích hodin, kdy začínáte širokým problémem, uprostřed je soustředěna pozornost na konkrétní problém, ke konci se téma opět otevírá výhledem do budoucna a končí se výzvou, co může udělat každý. K tomu patří i pravidla, že máte mluvit ke všem vrstvám publika od studentů až po profesory nebo že je ideální mít nějakou ukázku z praxe, což se ukázalo jako úskalí, protože mi to tam nefungovalo…
To nebylo součástí?
Ne, ale všichni mě uklidňovali, že to v té době bylo moderní, že i Elonovi Muskovi nefungovalo demo (směje se). Pro nás to bylo veliké poučení, protože při zkouškách to tam dvakrát fungovalo a jediné, co se změnilo, bylo, že v sále přibyli lidé. Proto i v našem evropském projektu na překládání se poslední dva roky hodně věnujeme integraci a pořád to testujeme v praxi. A na každé testovací události jsme objevili něco nového, co zásadním způsobem zabránilo systému v chodu. Teď už jsme vychytali ty nejčastější chyby a většinou nám to již funguje a to je teď naše nová startovní pozice, kdy se už můžeme dívat na ty konkrétní překlady do mnoha jazyků. A zjišťujeme, že vznikají hrubé až superhrubé chyby, čímž se vracíme zpátky k základnímu výzkumu, ale obohaceni o nové poznatky.