Expert: Umělá inteligence nám časem pomůže s peer review

Modely jako ChatGPT nacházejí ve vědě uplatnění při krácení a shrnování textů, psaní žádostí i zpracování dat. Podle Jakuba Sedláčka z Národního institutu SYRI a Univerzity Karlovy může AI časem sloužit i jako první krok k peer review, podobně jako dnes procházejí závěrečné práce detekcí plagiátů. Zároveň ale usnadní šíření dezinformací: „Tuhle pandořinu skříňku už nelze zavřít.“

Jak se AI za rok etablovala ve vědě?
Poctivá odpověď by vyžadovala široký průzkum. Ale co vidím kolem sebe i online, velké jazykové modely (angl. zkratka LLM, large language models, tedy nástroje generující texty, jako je například ChatGPT, pozn. red.) se pomalu etablují v několika rolích. Používají se k parafrázování a reformulaci myšlenek, například lepší angličtinou; ke krácení a sumarizaci textů; jako generátory hezké „vaty“ třeba v grantových žádostech a závěrečných zprávách; jako programovací asistenti při analýze dat.

Méně známá je schopnost pokročilejších modelů s delším kontextovým oknem (např. GPT-4) provádět zpracování a analýzu dat v podstatě přímo. Nahrajeme data, řekneme LLM, co s nimi má udělat a ať vrátí například hotové vizualizace. Zde pochopitelně narážíme na jistou inherentní nespolehlivost současných LLMs, která nikdy neumožňuje takovéto analýze věřit na 100 procent. Jistější tedy bývá cesta využití LLM jako programovacího asistenta, případně v kombinaci s prostředím, které LLM umožňuje kód rovnou spouštět a provádět analýzu s jeho pomocí. Jde například o plugin Advanced Data Analysis pro ChatGPT nebo volně dostupný Open Interpreter.

Z minulosti také známe kauzy s falšováním dat ve vědeckých článcích. Bude jeho odhalení nyní obtížnější? Jak se tomu bránit?
Podobně jako u šíření a potírání dezinformací, i zde může AI sloužit na obou stranách. Ano, bude například možné nahrát soubor s daty a říct LLM, ať je nenápadně upraví tak, aby z nich vyplývalo něco, co z nich v původním stavu nevyplývá. To pochopitelně vždy šlo provést i ručně, ale zde to může jít rychleji a přesvědčivěji. A teoreticky i u médií, kde to dříve nebylo tak snadné – například u vizuálních a zvukových záznamů. Co se obrany týče, věřil bych v existující nástroje. Například při peer review může AI obrovsky urychlit a ulehčit srovnání s existujícím výzkumem, a tedy i napovědět, kde něco nehraje. Dokonce si dovedu velmi dobře představit, že časem bude první krok review vypadat tak, že výzkum projde nějakým automatickým nástrojem, který bude mít „v hlavě“ všechnu oborovou literaturu. Podobně jako dnes procházejí třeba závěrečné práce detekcí plagiátů.

V roli vědce se zabýváte mimo jiné právě dezinformacemi. Už jsme si zvykli na hoaxy a poplašné zprávy, ale co fotky vytvořené AI?
Revoluce v generování obrazu „umělou inteligencí“ nastala teprve v minulém roce, takže jsme si skutečně ještě tak docela zvyknout nemohli. Třeba známá služba Midjourney dnes skutečně dovede generovat velice přesvědčivé fotky. Neuronovou síť Stable Diffusion si dokonce každý uživatel může zdarma stáhnout a dotrénovat na vlastních datech, a tedy naučit generovat cokoli a kohokoli v jakémkoli kontextu. Na druhou stranu je dobré připomenout, že manipulace obrazu není nic nového. Třeba vymazávat lidi z fotografií nechával už přinejmenším Stalin a takřka všechno, co dnes umožňují nejnovější generativní nástroje umělé inteligence, zvládne trénovaný uživatel Photoshopu už desítky let. Rozdíl je hlavně v dostupnosti takových nástrojů. Přestávají být zapotřebí roky praxe s Photoshopem, stačí mobilní aplikace poháněná strojovým učením.

Jak se to dá regulovat?
Regulovat obsah vytvářený AI se obecně prakticky nedá. Můžeme lokálně regulovat služby, které takovou možnost nabízejí, například zakazovat konkrétní aplikace v Evropské unii. Velká část z nich ale stejně staví na nástrojích, které vznikly v rámci výzkumných projektů a autoři je buď sdíleli se světem přímo, nebo přinejmenším publikovali postupy, které může komunita replikovat. Například provést trénink neuronové sítě ve vlastní režii a následně ji sdílet se světem. Velice přesvědčivou fotku si tak dnes můžete s trochou digitální gramotnosti vygenerovat doma na výkonnějším počítači s pomocí nástrojů, které jsou k dispozici zdarma. Tuhle pandořinu skříňku už nelze zavřít.

Na co si dát pozor, abychom nenaletěli?
Pokud jde o fake news a dezinformace, ještě zásadnější roli než kdy dřív dostávají důvěryhodné informační zdroje. Jestli jsou fotka, audionahrávka nebo videozáznam skutečné, nemá už laik, a mnohdy dokonce ani profesionál moc šanci poznat. Otázka tedy především zní, jestli věříme zdroji, ze kterého se k nám obsah dostal. A pokud je tím zdrojem mail od souseda začínající „fwd: fwd: fwd:“, preventivně mu nevěřme rovnou, protože soused na tom lépe nebude. Trénovaný člověk dnes ještě obvykle může poznat třeba takzvaný deepfake, tedy výměnu obličeje ve videu, ale především v situaci, kdy bude nějaký podvod očekávat, a bude tedy na pozoru. Při běžné rychlokonzumaci obsahu na sociálních sítích spíše nikoli.

Kam až se to může vyvinout?
K naprosté nerozeznatelnosti, od které jsme už dnes jen krůček. Zatím můžeme na fotkách počítat zuby, prsty, okna, sledovat vzory na oblečení nebo chodníku a odhalit tak nedokonalosti AI, ale to je nejspíš dočasný stav. Když budu chtít, můžu se s vámi po telefonu bavit hlasem pana prezidenta a ve videohovoru na sebe vzít jeho docela přesvědčivou podobu. Můžu ho na fotce posadit na jachtu s Putinem nebo můžu umístit jeho obličej na tělo pornoherce ve snaze zdiskreditovat jeho minulost. Všechny tyhle věci dnes ještě vyžadují určité know-how a, jak jsem zmiňoval, trochu výkonnější počítač. Ale technologie se posouvá a během pár let budou tyhle možnosti zcela samozřejmě dostupné každému s chytrým telefonem v ruce. V takové situaci závisí výpovědní hodnota fotografie, audiozáznamu i videa čistě na důvěryhodnosti jejich zdroje. Obzvlášť v prostředí sociálních sítí může být velký problém, že je AI schopná takovýto obsah chrlit ve velkém. „Trollím farmám“ to dává možnost vytvářet dojem, že je daná věc pravdivá čistě tím, že se na nás sype ze všech stran.

Co by měl dělat stát?
Já jsem docela technooptimista. Za mě by stát měl především podporovat startupové podhoubí a nechat v tomhle období zlaté horečky kolem generativní AI vyrůst projekty s potenciálem světového dosahu. Evropě spíš hrozí, že se stane synonymem pro regulace a antonymem pro inovace, než že by nestihla něco včas zakázat. Stát ale samozřejmě bude potřebovat zaměstnat odborníky, zorganizovat osvětové kampaně a rozvíjet gramotnost kolem generativní AI i ve školách. Občan musí být digitálně gramotný, jinak bude demokracie trpět. Před výtvory generativní AI už se neuchráníme, i kdybychom ji u nás snad pomýleně zakázali.

A nemůže nám AI naopak v boji s dezinformacemi pomoci?
Určitě je možné budovat systémy na přinejmenším poloautomatické ověřování informací a částečně i rozpoznávání generovaného obsahu. Provozovatelé sociálních sítí využívají různé formy AI pro moderování obsahu čili i rozpoznávání obsahu nežádoucího už dávno. A jejich role poroste.