VALL-E берет образец и разбивает его на мелкие фрагменты. Затем они сравниваются с существующей базой данных. Нейронная сеть способна «предсказать» голос донора, слушая другие голоса в различных ситуациях. VALL-E может имитировать голосовой тон носителя образца, используя естественные интонации.
Нейросеть создан с использованием технологии сжатия звука EnCodec. Он также включает в себя библиотеку с записанными голосами более 7000 человек и примерно 60 000 часов Librilight. Эти продукты принадлежат корпорации Meta (компания признана экстремистской и запрещена в России). Microsoft считает, что новая нейронная сеть может быть использована для создания текстового аудиоконтента, для этого VALLE может быть объединен с генератором текстов GPT-3.
Источник: www.gazeta.ru