Výzkumníci společnosti Microsoft oznámili nový model umělé inteligence pro převod textu na řeč s názvem VALL-E, který dokáže přesně napodobit lidský hlas na základě třísekundového zvukového vzorku, uvádí server Independent.
Po rozpoznání konkrétního hlasu dokáže VALL-E syntetizovat hlas daného člověka, a to způsobem, který zachovává emocionální tón mluvčího, uvádí ArsTechnica. Tvůrci VALL-E naznačují, že jej lze použít pro vysoce kvalitní aplikace převodu textu na řeč a vytváření zvukového obsahu v kombinaci s dalšími generativními modely umělé inteligence, jako je GPT-3.
Microsoft označuje VALL-E jako „Neural Codec Language Model“ a je postaven na technologii EnCodec, kterou Meta představila v říjnu 2022. Na rozdíl od jiných metod převodu textu na řeč, které obvykle syntetizují text na řeč manipulací se signály, generuje VALL-E z textu a zvukových podnětů samostatné zvukové kodeky. V podstatě analyzuje, jak člověk zní, díky EnCodecu rozdělí tyto informace na jednotlivé složky (tzv. tokeny) a pomocí tréninkových dat porovná to, co umělá inteligence „ví“ o tom, jak by daný hlas zněl, kdyby mluvil jiné fráze.
Na webových stránkách VALL-E poskytuje Microsoft desítky zvukových ukázek modelu AI v akci. Mezi ukázkami „Speaker Prompt“ jsou tři sekundy zvuku poskytnutého VALL-E, který má napodobovat. „Ground Truth“ je již existující nahrávka stejného mluvčího, který říká určitou frázi pro srovnání (jako „kontrola“ v experimentu). „Baseline“ je příklad syntézy poskytované běžnou syntézou převodu textu na řeč a příklad „VALL-E“ je výsledkem modelu VALL-E.
Kromě zachování barvy hlasu a emocionálního tónu řečníka dokáže VALL-E simulovat také „akustické prostředí“ zvukového vzorku. Pokud například vzorek pochází z telefonního hovoru, napodobí jeho akustické a frekvenční charakteristiky. A ukázky společnosti Microsoft (v části „Syntéza rozmanitosti“) demonstrují, že VALL-E může generovat variace hlasového tónu změnou náhodného vzorku použitého v procesu generování.
Zdroj: independent.co.uk, redakce
Autor článku
Kliknutím na jméno zobrazíte další články od tohoto autora.