Dabéri sa o prácu báť nemusia. AI má rezervy, vraví tvorca animovaných videí v Štandarde

Ľudský hlas síce môže byť nedokonalý, ale práve táto „človečina“ bude v budúcnosti pridanou hodnotou, vraví Juraj Šoltis, ktorý so svojím tímom vytvára pre Štandard audiovizuálny obsah.

Juraj Šoltis vlastní spoločnosť Studio PARADA, ktorá spolupracuje s denníkom Štandard už takmer dva roky. Spolu so svojím tímom stál za videokomentármi, ktoré sa začali publikovať na stránkach denníka - respektíve na YouTube kanáli - v októbri 2023.

Jeho tím sa takisto postaral o rozbehnutie denníka Štandard na platforme TikTok a zveľaďoval aj ďalšie jeho účty na rôznych sociálnych sieťach.

S výsledkami ich práce sa mohli čitatelia oboznámiť napríklad v podobe dvoch videorozhovorov s premiérom Robertom Ficom či vtedajším lídrom SaS Richardom Sulíkom.

Približne po roku spolupráce - zhruba v čase, keď sa pripravoval projekt Téma týždňa - začal spolu s tímom tvoriť animované videá, ktoré môžu čitatelia vidieť na stránkach Štandardu dodnes.

S redaktorom Štandardu sa rozprával najmä o procese tvorby videí, využiteľnosti umelej inteligencie a jej výhodách a nevýhodách.

Pre Štandard so svojím tímom robíte už istý čas animované videá. Ako vznikol tento nápad?

Nápad prišiel už istý čas dozadu, ešte počas nakrúcania videokomentárov. Pôvodná predstava bola taká, že by sme mohli tieto klipy obohatiť.

Teda vložiť do nich grafický materiál, takzvané stock footage videá [rôzne ilustračné, respektíve archívne snímky, pozn. red.] či rôzne spravodajské zábery. Inšpiráciou boli veľké zahraničné médiá.

Nakoniec sa týmto smerom nešlo a od vydavateľa prišla požiadavka na animované videá.

Ak tomu dobre rozumiem, tak cieľom bolo vizualizovať čitateľovi to, čo číta a počuje...

Myslím, že spočiatku to mala byť najmä akási pridaná hodnota k spomenutým videokomentárom. Neskôr, niekedy v lete minulého roka, sme dostali objednávku na animované videá, ktoré sme predtým v požadovanom formáte nerobili.

Vedeli sme, ako na to, mali sme rôzne skúsenosti s grafikou, ale nikdy sme ich nerobili na dennej báze.

V rámci nejakého videoklipu alebo reklamy sme pracovali aj s takzvanou motion grafikou, ale nikdy nie v tomto spravodajskom štýle.

Takže to bolo pre vás niečo nové.

Áno, najmä to, že to bolo na dennej báze, ale aj formát bol niečím novým. Konkrétne to, že video obsahuje nejakú dejovú líniu, ktorú vlastne kopíruje, a vizuály posúvajú text na novú úroveň.

Takisto dopracovanie úvodu a záveru bolo ušité špeciálne pre Štandard podľa vizuálnych smerníc, ktoré sme v podstate navrhli my.

Teda to, ako to teraz vyzerá, aká je kompozícia videa, aký to má úvod, že to má nejaký thumbnail [úvodný obrázok, pozn. red.] a štruktúru, v rámci ktorej sa do kruhov alebo štvorcov pridávajú takzvané modulárne grafiky, je výsledkom najmä našej práce.

Ak je napríklad v strede pápež a v texte sa hovorí o Biblii, tak k nemu príde jej obrázok...

Robia všetky tieto grafiky ľudia?

Úplne všetko robia ľudia, okrem voiceoveru a titulkov nerobí umelá inteligencia v podstate nič. Samozrejme, veľmi zriedkavo ju používame aj na generovanie obrázkov, ak nejde o konkrétne osoby.

Lenže veľmi často zobrazujeme v tých videách nejaké reálne osobnosti. Teraz je to pápež, minule Trump, predtým to bol Musk. Tam používame zábery z fotobánk.

V grafike teda využívate umelú inteligenciu (AI) len vtedy, keď nejde o konkrétnu vec alebo človeka?

Áno, napríklad nám vygeneruje stíhačku, keď nevieme nájsť peknú a vhodnú fotku a v texte sa nehovorí o konkrétnom type stíhačky.

Používame to však málokedy, pretože kým dostaneme použiteľný vygenerovaný výsledok, zaberie to zhruba taký istý čas, ako nájsť to v nejakej platenej banke.

Takže umelú inteligenciu využívate hlavne na prerozprávanie textu. Viacerí pozornejší čitatelia si zrejme všimli, že videá nedabuje človek. Dá sa povedať, v čom spočívajú výhody a nevýhody AI?

Je celkom paradoxom, že s použitím umelej inteligencie to vlastne trvá dlhšie, ako keby to nahrával človek. Myslím si, že rádovo.

Naozaj to trvá dlho, kým sa vygeneruje kvalitný voiceover [zvuková stopa, respektíve hlas v pozadí videa, pozn. red.]. A ten aj tak ešte potrebuje mnoho úprav, ktoré robí človek.

Čo sa týka generovania titulkov do videa, tam vie umelá inteligencia zrezať nejakých 30 percent času.

Zrejme to však nie je len o čase. Kvalitný dabér by bol zrejme drahší...

Ani nie. V podstate to stojí v súhrne viac, pretože treba platiť za použitý softvér, ako aj za zvukovú úpravu. A k tomu treba pripočítať mzdu človeka, ktorý s umelou inteligenciou pracuje a jej výstup manuálne upravuje do použiteľnej podoby.

Hlavná a v mediálnom sektore pomerne významná výhoda spočíva vo flexibilite.

Dajme tomu, že pracujeme na aktuálnom spravodajskom videu, ku ktorému sme dostali scenár o deviatej ráno a musí byť publikované večer o šiestej.

Ak by to nahral herec a boli by potrebné úpravy pre informačný posun, už nemusí byť k dispozícii.

V prípade AI stačí pozmeniť text a nahodiť ho do programu, ktorý používame. Znova však opakujem, že je to náročné na čas, keďže nie je úplne zriedkavé, že umelá inteligencia generuje nezmysly.

Bežne sa stáva, že slová skomolí alebo dodá niečo, čo v predlohe nie je, prípadne niečo vynechá.

Ako dlho trvá narozprávať povedzme minútové video? Zhruba ako dlho trvá to spracovanie?

Približne dve hodiny.

S tým, že je to viac-menej finálna podoba?

Áno, pokiaľ nepríde požiadavka na nejaké zásadnejšie úpravy – napríklad čo sa týka melódie, intonácie.

My tam nedostatky často ešte vidíme, ale dotiahnuť to do dokonalosti, tak ako by to prerozprával dabér, je časovo neefektívne, povedal by som, že v slovenskom jazyku nemožné.

Generatívna umelá inteligencia znamená, že výsledky generuje, ale my ich nevieme ovládať. Vieme vygenerovať len ďalšiu nahrávku a potom ju upraviť.

Nevieme AI povedať, že má v konkrétnej nahrávke skrátiť pauzy... Vygeneruje novú, ktorá bude mať kratšie pauzy, ale môže sa líšiť od pôvodnej v iných veciach. Je to akoby na náhode. Čakáme na najlepší výsledok a potom ho musíme manuálne upravovať.

Avšak platí, že v angličtine sú výsledky podstatne lepšie, čo do budúcnosti dáva istú nádej, že sa to bude pomaly zlepšovať aj v ostatných jazykoch.

V čom teda spočíva príťažlivosť umelej inteligencie? Prečo s ňou pracujú aj iné médiá, napríklad pri čítaní článkov?

Povedal by som, že veľké médiá od toho práve upúšťajú. Jedno z prestížnych renomovaných médií, ktoré pozorne sledujeme a odoberáme, podľa nás istý čas AI využívalo, no po pomerne krátkom čase od toho podľa nás upustilo a opäť používa ľudský hlas.

Naozaj by ma prekvapilo, ak by sme sa dozvedeli, že stále ide o vygenerovaný hlas. Museli by mať nejaký svoj softvér.

My používame ten, čo vnímame ako najlepší na trhu, hoci môže existovať nejaký neznámy amatérsky, ale výnimočne dobrý program za päť centov, o ktorom nevieme. Pochybujem však o tom.

Podobný trend sme si však všimli aj mimo mediálneho priestoru. Napríklad pri reklamách jednej konkrétnej firmy.

Chvíľu používala AI voiceover, no po istom čase som videl na YouTube ich ďalšie spoty a vrátili sa naspäť k ľudskému hlasu.

Môže byť teda v budúcnosti ľudský hlas práve tou pridanou hodnotou?

V podstate ide o taký paradox. Ak si dobre pamätám, ešte pred pár rokmi to vystihla jedna učiteľka z Prešovskej univerzity, na ktorej som absolvoval mediálne štúdiá. Skonštatovala, že tá chybovosť, ktorej sa ľudia chceli v rečovom prejave vyhnúť, bude v budúcnosti žiadaná.

Teda ak bude v hlase cítiť ľudskosť – napríklad ak dá niekto intonáciu tam, kde nemá byť, zareaguje prekvapene alebo niečo špecificky zdôrazní, pričom jeho rečový prejav nebude taký predvídateľný –, tak to môže byť veľkým plusom.

Avšak asi aj tá umelá inteligencia sa bude zdokonaľovať, nie? Ten vývoj ide predsa celkom rýchlo...

Myslím si, že konkrétne pri slovenčine bude ten posun dosť pomalý a prerozprávanie textu sa nebude až tak rýchlo vyvíjať. Pracujeme s ňou totiž už isté mesiace a zatiaľ sme si nevšimli nejaké výraznejšie zlepšenie.

V ľudskom hlase sú akoby nepatrné elementy, ktoré sa nedajú oklamať, pri AI ide iba o nejaký výpočet.

Takže dabéri sa nemusia báť o svoju robotu.

Je to len môj názor, ale myslím si, že dobrý dabér sa nemusí báť. Minimálne ešte nejaký čas, ale netrúfam si zhodnotiť to objektívne, keďže každý deň vzniká niečo nové.

Z toho mi vyplýva, že pri hovorenom slove pracujete s umelou inteligenciou najmä preto, že ste to dostali ako zadanie...

Áno, prišlo to ako požiadavka. My sme navrhovali, že to môže narozprávať aj človek, ktorého by sme pri súčasnej úrovni AI zrejme uprednostnili.

Najmä v prípade nahrávok v slovenčine. Avšak to, že s tým pracujeme už teraz, sa môže v budúcnosti ukázať ako výhoda.

Čo sa týka nejakého širšieho využitia, viete si predstaviť, že v budúcnosti by vám mohla umelá inteligencia napríklad vygenerovať celé video?

To sa už začína diať. Teraz bol napríklad ChatGPT aktualizovaný a už nadobúda konzistentnosť. To znamená, že po tom, ako vygeneruje obrázok a používateľ skonštatuje, že je to fajn, ale potrebuje v ňom niečo zmeniť, tak to dokáže zapracovať.

Toto je pomerne silná vec, ktorá tu doteraz nebola a aj časť grafikov sa bojí, že môžu prísť o prácu. Ale to sú len začiatky, tá konzistentnosť mi stále pripadá ako jeden z najväčších problémov.

Teda umelá inteligencia zatiaľ nevie vylepšovať svoj produkt na základe požiadavky používateľa?

Nakreslí mi slniečko, ale ja ho chcem iba väčšie, no umelá inteligencia ho nezväčší, ale vygeneruje nový obraz väčšieho slnka, ktoré však nemusí byť také isté.

Možno by vedela vygenerovať požadované video pri mimoriadne presnom príkaze. AI zvládne veľa vecí, ale môj názor je taký, že by sa zase ukázal iný problém, ktorý bude treba vyriešiť.

Animácia je dosť komplexná záležitosť. Možno bude vedieť lepšie generovať obrázky, ale stále ich bude musieť rozpohybovať, dať do konceptu. Popri celom humbugu okolo AI sa veľmi často prehliada akýsi storytelling. Teda potreba upratať to, dať tomu hlavu a pätu, myšlienku.

AI rozumie textu, ale na generatívnej úrovni. Vie poskytnúť výstup, pretože pozná znaky.

Napríklad by sme chceli ukázať, že pápež František začal pracovať ako dobrovoľník v Afrike v tom a v tom roku. No umelá inteligencia nevie, že má jeho podobizeň prísť do stredu snímky a v pozadí sa majú napočítať roky, kedy sa to udialo, lebo na obrázku predtým bol zobrazený niekto iný.

To už je naša abstrakcia, že je tam zvýraznený rok, že pápež príde zospodu, lebo takto to máme zadefinované v smernici...

Nie je to však len o tom, že treba zadať ten príkaz úplne presne?

Sčasti možno áno, ale dopracovať sa k tomu je mimoriadne ťažké. Ak je každé video obsahovo úplne iné, je ťažké vypracovať si nejakú šablónu, pretože parametrov, ktoré by sa v nej menili, je naozaj veľa.

Kým by sa finálny príkaz pre každé video pripravil a na jeho základe vygenerovalo vhodné video, zabralo by to dosť času.

AI stále nevie spĺňať požiadavky konzistentne, stále dodáva iný výstup, tak ako je to pri hovorenom slove – každá nahrávka má trochu inú intonáciu, iné pauzy, inú hlasitosť, aj keď je príkaz v podstate rovnaký.

Nehovoriac o tom, že video by bolo treba ešte opravovať. Vidíme, koľko máme práce pri zvukovej stope.

Neviem si predstaviť, aký zložitý by musel byť príkaz pri videu a koľko detailov by bolo potrebné doladiť. Napríklad opis grafov, čísla, mená a podobne.

Navyše sú to ďalšie náklady. Na tieto záležitosti treba mať človeka, ktorý to vyvíja.

AI prišla do tvorivého prostredia preto, lebo je to najmenej regulovaný trh, čiže tam sa s ňou dá experimentovať.

Vymyslieť však konkrétny výstup podľa presne zadaných požiadaviek tvorivým spôsobom je celostná záležitosť. Ani my sami niekedy nevieme, ako sa s umelou inteligenciou dopracujeme k výsledku, ktorý chceme.