Революция в синтезе речи: Meta* представляет Voicebox

28 июля 2023 г.

4 мин.

Voicebox, речевой генератор на базе искусственного интеллекта, использует текстовые данные для создания и редактирования звукового материала, звучащего, как будто его произнес настоящий человек. Meta* утверждает, что программа настолько мощная, что превосходит модели конкурентов.

Возможности Voicebox:

Контекстный синтез текста в речь. Используя входной аудиосэмпл продолжительностью всего две секунды, Voicebox может соответствовать звуковому стилю сэмпла и использовать его для преобразования текста в речь. Будущие проекты могли бы развить эту возможность, доведя речь до людей, которые не могут говорить, или позволив людям настраивать голоса, используемые неигровыми персонажами и виртуальными помощниками.
Межъязыковая передача стиля. При наличии образца речи и отрывка текста на английском, французском, немецком, испанском, польском или португальском языках Voicebox может воспроизвести чтение текста на этом языке. Эта возможность интересна, потому что в будущем она может быть использована для того, чтобы помочь людям общаться естественным, аутентичным образом — даже если они говорят на разных языках.
Подавление шума и редактирование речи. контекстное обучение Voicebox позволяет эффективно генерировать речь для плавного редактирования фрагментов аудиозаписей. Он может повторно синтезировать часть речи, искаженную кратковременным шумом, или заменить слова с ошибками без необходимости перезаписи всей речи. Человек мог бы определить, какой необработанный сегмент речи искажен шумом (например, собачьим лаем), обрезать его и дать команду модели восстановить этот сегмент. Эта возможность в один прекрасный день может быть использована для того, чтобы сделать очистку и редактирование аудио таким же простым делом, каким популярные инструменты для редактирования изображений сделали корректировку фотографий.
Разнообразная выборка речи. Основываясь на разнообразных данных, полученных в дикой природе, Voicebox может генерировать речь, которая более точно отражает то, как люди разговаривают в реальном мире, и на шести языках, перечисленных выше. В будущем эта возможность может быть использована для генерации синтетических данных, которые помогут лучше обучить модель речевого помощника. Наши результаты показывают, что модели распознавания речи, обученные на синтетической речи, сгенерированной Voicebox, работают почти так же хорошо, как модели, обученные на реальной речи, с уменьшением частоты ошибок на 1 % по сравнению с 45-70% при использовании синтетической речи в предыдущих моделях преобразования текста в речь.

Согласно собственной научной статье Meta*, компания обучила Voicebox на 60 000 часов аудиокниг на английском языке, а затем на 50 000 часов аудиокниг на пяти дополнительных языках (французском, немецком, испанском, польском и португальском). Voicebox основан на методе, называемом Flow Matching, который, как было показано, улучшает диффузионные модели. Voicebox превосходит современную английскую модель VALL-E при преобразовании текста в речь с нулевым кадром как по разборчивости (5,9% против 1,9% ошибок в словах), так и по сходству звука (0,580 против 0,681), при этом он работает в 20 раз быстрее. Что касается межъязыковой передачи стиля, Voicebox превосходит ваш BTS, снижая среднюю частоту ошибок в словах с 10,9% до 5,2% и улучшая сходство звука с 0,335 до 0,481.

* Признана экстремистской организацией, запрещена на территории РФ.