Kokoro 82M

Андрей Ракитин

ML-инженер и автор блога

Сфера: Озвучка текста

Условия использования: Бесплатные

Задача:

Озвучить текст

Доступ к API: Да

Попробовать

Kokoro 82M — бесплатная нейросеть для синтеза речи. Доступно 10 голосов на английском языке. Благодаря скромному размеру модели в 82 миллиона параметров, можно запустить её на недорогой видеокарте или современном процессоре, например, M3. Веса нейросети и API доступны на Hugging Face.

Особенности Kokoro 82M:

Синтез речи. Kokoro-82M представляет собой модель для преобразования текста в речь, которая принимает текстовые данные на входе и генерирует аудио на выходе. Размер нейросети позволяет её использовать на десктопе.
Производительность. Несмотря на сравнительно небольшой размер в 82 миллиона параметров, Kokoro-82M демонстрирует высокую производительность, превосходя многие более крупные модели, такие как XTTS v2 (467M параметров) и MetaVoice (1.2B параметров). Это достигается благодаря эффективной архитектуре и оптимизации модели
Голоса. На данный момент доступно 10 голосовых пакетов, которые позволяют пользователям выбирать различные голоса для синтеза речи. Архитектура моделей позволяет использовать множество языков, но тренировка происходила преимущественно на англоязычных текстах.

Демоверсия модели доступна бесплатно на платформе Hugging Face. На Github доступна оболочка FastAPI для запуска нейросети.

Похожие нейросети

Cartesia

Cartesia - платформа для озвучки текста с помощью нейросети. Сервис предоставляет быстрый синтез речи с помощью множества реалистичных голосов. Кроме того, нейросеть умеет клонировать голос пользователя за 15 секунд записи. Далее его можно использовать в интерфейсе платформы или с помощью API.

ElevenLabs

ElevenLabs - нейросеть для озвучки текста, основанная на модели Eleven Multilingual v2, которая предоставляет возможность конвертировать текст в речь и клонировать голоса. Нейросеть использует передовые технологии AI, чтобы создавать высококачественную аудиозапись, реалистично воспроизводящую голоса людей. Стоит отметить высокое качество звука и наличие API.

Fish Audio

Fish Audio - нейросеть для озвучки текста. Платформа предлагает возможность создания голосов из небольших аудиозаписей. Также можно использовать модели, созданные другими пользователями. Нейросеть способна озвучить текст на русском, английском, немецком и других языках. Доступно внедрение AI-инструмента с помощью API.

Free TTS

Free TTS - приложение для озвучки текста с помощью нейросети. Простой и удобный синтезатор речи, поддерживающий голоса Google и Amazon. Вас обрадует язык разметки и поддержка большого количества языков для озвучки нейросетью, включая русский, английский, немецкий и многие другие. Присутствует бесплатная версия.