Do roku 2026 by nám mohla dojít data pro trénink umělé inteligence. Co bude potom?

V době, kdy umělá inteligence (AI) dosahuje vrcholu své popularity, vědci varují, že v tomto odvětví může dojít k nedostatku tréninkových dat – paliva, které pohání výkonné AI systémy.

Tento fakt by mohl zpomalit růst modelů umělé inteligence, zejména velkých jazykových modelů, a mohl by dokonce změnit trajektorii revoluce v oblasti umělé inteligence. Proč je ale potenciální nedostatek dat problémem, když uvážíme, kolik jich na webu je? A existuje způsob, jak toto riziko řešit?

Proč jsou pro AI důležitá kvalitní data?

K tréninku výkonných, přesných a kvalitních algoritmů umělé inteligence potřebujeme velké množství dat. Například ChatGPT byl vycvičen na 570 gigabajtech textových dat, což je přibližně 300 miliard slov.

Podobně algoritmus, který stojí za mnoha aplikacemi pro generování obrázků umělou inteligencí, jako jsou DALL-E, Lensa a Midjourney, byl vycvičen na datové sadě LIAON-5B obsahující 5,8 miliardy párů obrázek-text. Pokud je algoritmus vycvičen na nedostatečném množství dat, bude produkovat nepřesné nebo nekvalitní výstupy.

Důležitá je také kvalita trénovacích dat. Nekvalitní data, jako jsou příspěvky na sociálních sítích nebo rozmazané fotografie, lze získat snadno, ale nejsou dostatečná pro trénování vysoce výkonných modelů umělé inteligence.

Texty převzaté z platforem sociálních médií mohou být neobjektivní nebo zaujaté, případně mohou obsahovat dezinformace nebo nezákonný obsah, který by mohl být modelem replikován. Například když se společnost Microsoft pokusila vycvičit svého bota s umělou inteligencí pomocí obsahu Twitteru, naučil se produkovat rasistické a misogynní výstupy.

Proto vývojáři AI vyhledávají kvalitní obsah, jako jsou texty z knih, online články, vědecké články, Wikipedie a určitý filtrovaný webový obsah. Asistent Google byl vycvičen na 11 000 milostných románech převzatých z webu pro samonakladatele Smashwords, aby byl více konverzační.

Máme dostatek dat?

Odvětví umělé inteligence trénuje systémy umělé inteligence na stále větších souborech dat, a proto dnes máme vysoce výkonné modely, jako je ChatGPT nebo DALL-E 3. Zároveň výzkumy ukazují, že zásoby online dat rostou mnohem pomaleji než datové soubory používané k trénování umělé inteligence.

V loňském roce publikovaném článku skupina výzkumníků předpověděla, že pokud budou současné trendy v trénování AI pokračovat, dojdou nám kvalitní textová data před rokem 2026. Odhadli také, že nekvalitní jazyková data budou vyčerpána někdy mezi lety 2030 a 2050 a nekvalitní obrazová data mezi lety 2030 a 2060.

Měli bychom se obávat?

Ačkoli výše uvedené body mohou některé fanoušky AI znepokojovat, situace nemusí být tak špatná, jak se zdá. Existuje mnoho neznámých ohledně toho, jak se budou modely AI v budoucnu vyvíjet, a také několik způsobů, jak riziko nedostatku dat řešit.

Jednou z možností je, že vývojáři AI zdokonalí algoritmy tak, aby efektivněji využívaly data, která již mají k dispozici. Je pravděpodobné, že v příštích letech budou schopni trénovat vysoce výkonné systémy AI s využitím menšího množství dat a možná i menšího výpočetního výkonu. To by také pomohlo snížit uhlíkovou stopu AI.

Další možností je využití umělé inteligence k vytváření syntetických dat pro trénování systémů. Jinými slovy, vývojáři mohou jednoduše generovat potřebná data upravená tak, aby vyhovovala jejich konkrétnímu modelu AI.

Několik projektů již syntetický obsah využívá, často získaný ze služeb generujících data, jako je Mostly AI. V budoucnu bude tento způsob stále běžnější.

Vývojáři také hledají obsah mimo volný online prostor, například v držení velkých vydavatelů a offline úložišť. Vzpomeňte si na miliony textů publikovaných před nástupem internetu. Zpřístupněny v digitální podobě by mohly poskytnout nový zdroj dat pro AI projekty.

Společnost News Corp, jeden z největších světových vlastníků zpravodajského obsahu (který má většinu svého obsahu za paywallem), nedávno uvedla, že jedná o smlouvách k obsahu s vývojáři umělé inteligence. Takové dohody by donutily společnosti zabývající se umělou inteligencí platit za tréninková data – zatímco dosud je většinou získávaly z internetu zdarma.

Tvůrci obsahu protestovali proti neoprávněnému využívání jejich obsahu k trénování AI modelů a někteří z nich zažalovali společnosti jako Microsoft, OpenAI a Stability AI. Odměna za jejich práci může pomoci obnovit určitou nerovnováhu sil, která mezi tvůrci a společnostmi zabývajícími se umělou inteligencí existuje.

Zdroj: The Conversation, The Hindu, redakce