Naučil umělou inteligenci překládat znakový jazyk do textu. Student Boháček představil výzkum na Havaji

Na začátku roku 2022 se Matyáš Boháček, středoškolský student a člen výzkumného týmu v centru umělé inteligence Dataclair.ai, díky podpoře O2 zúčastnil mezinárodní akademické konference WACV 2022 ve Waikoloe na Havaji. Prestižní konference se každoročně zaměřuje na umělou inteligenci a její práci s vizuálními médii. V rámci svého příspěvku prezentoval svůj výzkum na překlad znakového jazyka z videa do psaného textu.

Jak Vás napadlo právě toto téma výzkumu a jak dlouho jste na něm pracoval?

K tématu využití umělé inteligence pro zpřístupnění technologií obecně mě přivedl rozhovor s jedním nevidomým vývojářem mobilních her. Předtím jsem nikdy dost dobře nepřemýšlel nad tím, jak vlastně lidé s postižením sluchu nebo zraku využívají chytré telefony a počítač. Řada pro nás běžných způsobů použití je pro ně totiž nepřístupná.

O téma jsem se tak začal zajímat víc, a nakonec se ponořil konkrétně do překladu znakového jazyka z videí do psaného jazyka. To by mohlo pomoct znakujícím lidem při práci s technologiemi využívat svůj rodný jazyk namísto psaného. Protože oba tyto typy jazyků mají různé možnosti vyjádření. Používání textového jazyka tak může být pro rodilé znakující nepohodlné.

Napojil jsem se proto na Západočeskou univerzitu, kde se analýza znakového jazyka s AI (umělou inteligencí) už řešila. S místní Katedrou kybernetiky od té doby spolupracuji. Tento konkrétní výzkumný projekt jsem pak řešil pod supervizí p. dr. Hrúze v průběhu léta a podzimu minulého roku.

Bude mít Váš výzkum nějaké praktické využití, případně budete ho nadále rozvíjet?

Určitě! Plánujeme ve výzkumu dál pokračovat – dalším milníkem by bylo upravit systémy tak, aby pro své trénování nepotřebovaly velké množství ukázkových dat, jako je tomu dnes. Ale učily se třeba jen z pár videí.

Koncept umělé inteligence totiž vždy funguje právě na trénovacích datech, na kterých se model snaží zachytit obecné struktury a koncept daného problému. Potom může tyto poznatky použít na neznámá data.

Co se týče praktického využití, už se rýsují první spolupráce s platformami a firmami, které by systém chtěly zakomponovat do svých produktů. Zákazníkům by to umožnilo komunikovat ve znakovém jazyce. Věřím, že brzy bude na světě i první taková demonstrační ukázka.

Zaznamenal jste nějaké reakce na Váš výzkum?

Na konferenci jsem cítil ohlas vesměs velmi pozitivní – řadu účastníků téma zaujalo. Také se lidem líbil náš přístup, kdy jsme využili odhad pózy těla i rukou znakujícího. Mnozí navrhovali nové směry výzkumu do budoucna. Online mi ke článku i kódu psalo již několik lidí zkoumajících lingvistiku znakových jazyků, kteří by systém rádi využili pro své analýzy a studie.

Kdybyste měl jmenovat jednu studii, která Vás něčím zaujala, jaká by to byla?

Říct jen jednu je docela oříšek, zajímavých prací tam bylo spoustu. Kromě řady skvělých teoretických novinek bych z praktických výzkumů asi vypíchl projekt, ve kterém autoři natrénovali model umělé inteligence, který je schopen pro video sám vygenerovat popisek, co se v něm zrovna děje.

Vtipný pak byl ještě projekt, kde autoři trénovali model umělé inteligence na libovolnou animaci postaviček z jedné kresby – stačil by tak obrázek jakékoliv nakreslené postavičky kohokoliv z nás a model by ji sám uvedl do chůze, běhu, nebo třeba poskakování.

Co Vám účast na konferenci nejvíce dala a přinesla?

Účast na konferenci byla skutečně k nezaplacení. Hlavně jsem poznal spoustu nesmírně inspirativních a zapálených studentů, výzkumníků a profesorů z celého světa. Povídali jsme si spolu hodiny o novinkách v oboru, potenciálních spolupracích a zajímavých tématech. Mohl jsem nakouknout a poznat zase jiný aspekt výzkumu a vědy, kterým bych se chtěl v budoucnu věnovat.

A v neposlední řadě jsem taky mohl – v několika málo chvílích, když jsem zrovna nebrouzdal sály konference – poznat i havajskou přírodu a kulturu. Za tuhle příležitost jsem celkově nesmírně vděčný.

Na čem nyní pracujete? Jaká je Vaše vize do budoucna, kam chcete ideálně směrovat?

Primárně se nyní věnuji se svými kolegy v centru umělé inteligence Dataclair.ai vývoji aplikace Verifee. Ta by měla uživatelům díky analýze článků na internetu pomoci se orientovat v aktuálním informačním přehlcení. Zároveň se ale na ZČU věnuji právě i navazujícímu výzkumnému projektu ke znakovému jazyku.

Jsem na škole, ve třetím ročníku. Po maturitě bych chtěl zkusit vysoké školy v zahraničí, ale uvidíme, jak to vyjde. Celkově bych se chtěl do budoucna dál věnovat výzkumu umělé inteligence s přesahem do společensky odpovědných projektů.

Matyáš Boháček studuje na pražském Gymnáziu Jana Keplera. Ve svých projektech se věnuje umělé inteligenci a strojovému učení a jejich přesahům do jazyka a médií. Primárně nyní v Dataclair.ai spolu s kolegy pracuje na aplikaci Verifee pro analýzu důvěryhodnosti online zpráv pomocí umělé inteligence, která by byla schopná svá rozhodnutí transparentně a lidsky odůvodňovat. Sám před tímto projektem založil několik aplikací na rozvoj mediální gramotnosti a důvěryhodného zpravodajství, které si stáhly desítky tisíc uživatelů. Dále pod Západočeskou univerzitou pracuje na výzkumných projektech k analýze a překladu znakového jazyka nebo předsedá skupině pro umělou inteligenci v rámci mezinárodní komunity mladých podnikatelů a vědců Sigma Squared.