Neuronová síť dokázala na základě mozkové aktivity dekódovat, co člověk vidí

Vědcům se podařilo vytvořit difuzní model neuronové sítě, který je schopen dekódovat aktivitu lidského mozku (fMRI) a reprodukovat to, co vidí.

Difuzní modely jsou v současné době nejpopulárnější metodou generování obrazů umělou inteligencí a jsou používány v jádru takových populárních služeb, jako jsou DALL-E a Midjourney, uvádí server Mark Tech Post.

Jak výzkumníci poznamenávají, dekódování vizuálních podnětů ze záznamů mozku má za cíl prohloubit naše porozumění lidskému vizuálnímu systému a vybudovat pevný základ pro propojení lidského vidění a počítačového vidění prostřednictvím rozhraní mozek-počítač. Vzhledem k nedostatku datových anotací a složitosti základních informací o mozku je však dekódování obrazů s ověřitelnými detaily a smysluplnou sémantikou náročným úkolem.

Pomocí samoučení (self-supervised machine learning), tj. samoučení neuronové sítě na stejných datech o mozkové aktivitě různých lidí, přidali autoři studie k těmto imaginárním reprezentacím dříve vycvičený difuzní model transformace textu na obraz a model transformátoru (cross-attention). Po krátké úpravě na 1,5 tisíce párů snímků fMRI byl model schopen dekódovat, co člověk vidí před sebou. Data a kód pro trénování neuronové sítě již výzkumníci zveřejnili.

Zdroj: marktechpost.com, redakce

Pravidla diskuze:

  • Diskutujte slušně - nenadávejte, neurážejte, nespamujte, pište k tématu článku.
  • Netolerujeme rasismus, násilí, vyhrožování a nenávistné reakce vůči jiným uživatelům.
  • Nebavte se o redakci webu, diskuze je určena k probírání tématu článku.
  • Některé komentáře procházejí schvalovacím procesem, nevhodné příspěvky budou bez upozornění smazány.
Upozornit na nové komentáře
Upozornit na
guest
0 Komentáře
Inline zpětná vazba
Zobrazit všechny komentáře
0
Budeme rádi, když okomentujete tento článekx