Vědcům se podařilo vytvořit difuzní model neuronové sítě, který je schopen dekódovat aktivitu lidského mozku (fMRI) a reprodukovat to, co vidí.
Difuzní modely jsou v současné době nejpopulárnější metodou generování obrazů umělou inteligencí a jsou používány v jádru takových populárních služeb, jako jsou DALL-E a Midjourney, uvádí server Mark Tech Post.
Jak výzkumníci poznamenávají, dekódování vizuálních podnětů ze záznamů mozku má za cíl prohloubit naše porozumění lidskému vizuálnímu systému a vybudovat pevný základ pro propojení lidského vidění a počítačového vidění prostřednictvím rozhraní mozek-počítač. Vzhledem k nedostatku datových anotací a složitosti základních informací o mozku je však dekódování obrazů s ověřitelnými detaily a smysluplnou sémantikou náročným úkolem.
Pomocí samoučení (self-supervised machine learning), tj. samoučení neuronové sítě na stejných datech o mozkové aktivitě různých lidí, přidali autoři studie k těmto imaginárním reprezentacím dříve vycvičený difuzní model transformace textu na obraz a model transformátoru (cross-attention). Po krátké úpravě na 1,5 tisíce párů snímků fMRI byl model schopen dekódovat, co člověk vidí před sebou. Data a kód pro trénování neuronové sítě již výzkumníci zveřejnili.
Zdroj: marktechpost.com, redakce