VALL-E od Microsoftu dokáže simulovat jakýkoli hlas pomocí tří sekund zvuku

Výzkumníci společnosti Microsoft oznámili nový model umělé inteligence pro převod textu na řeč s názvem VALL-E, který dokáže přesně napodobit lidský hlas na základě třísekundového zvukového vzorku, uvádí server Independent.

Po rozpoznání konkrétního hlasu dokáže VALL-E syntetizovat hlas daného člověka, a to způsobem, který zachovává emocionální tón mluvčího, uvádí ArsTechnica. Tvůrci VALL-E naznačují, že jej lze použít pro vysoce kvalitní aplikace převodu textu na řeč a vytváření zvukového obsahu v kombinaci s dalšími generativními modely umělé inteligence, jako je GPT-3.

Microsoft označuje VALL-E jako „Neural Codec Language Model“ a je postaven na technologii EnCodec, kterou Meta představila v říjnu 2022. Na rozdíl od jiných metod převodu textu na řeč, které obvykle syntetizují text na řeč manipulací se signály, generuje VALL-E z textu a zvukových podnětů samostatné zvukové kodeky. V podstatě analyzuje, jak člověk zní, díky EnCodecu rozdělí tyto informace na jednotlivé složky (tzv. tokeny) a pomocí tréninkových dat porovná to, co umělá inteligence „ví“ o tom, jak by daný hlas zněl, kdyby mluvil jiné fráze.

Na webových stránkách VALL-E poskytuje Microsoft desítky zvukových ukázek modelu AI v akci. Mezi ukázkami „Speaker Prompt“ jsou tři sekundy zvuku poskytnutého VALL-E, který má napodobovat. „Ground Truth“ je již existující nahrávka stejného mluvčího, který říká určitou frázi pro srovnání (jako „kontrola“ v experimentu). „Baseline“ je příklad syntézy poskytované běžnou syntézou převodu textu na řeč a příklad „VALL-E“ je výsledkem modelu VALL-E.

Kromě zachování barvy hlasu a emocionálního tónu řečníka dokáže VALL-E simulovat také „akustické prostředí“ zvukového vzorku. Pokud například vzorek pochází z telefonního hovoru, napodobí jeho akustické a frekvenční charakteristiky. A ukázky společnosti Microsoft (v části „Syntéza rozmanitosti“) demonstrují, že VALL-E může generovat variace hlasového tónu změnou náhodného vzorku použitého v procesu generování.

Zdroj: independent.co.uk, redakce