Kokoro 82M — бесплатная нейросеть для синтеза речи. Доступно 10 голосов на английском языке. Благодаря скромному размеру модели в 82 миллиона параметров, можно запустить её на недорогой видеокарте или современном процессоре, например, M3. Веса нейросети и API доступны на Hugging Face.
Особенности Kokoro 82M:
- Синтез речи. Kokoro-82M представляет собой модель для преобразования текста в речь, которая принимает текстовые данные на входе и генерирует аудио на выходе. Размер нейросети позволяет её использовать на десктопе.
- Производительность. Несмотря на сравнительно небольшой размер в 82 миллиона параметров, Kokoro-82M демонстрирует высокую производительность, превосходя многие более крупные модели, такие как XTTS v2 (467M параметров) и MetaVoice (1.2B параметров). Это достигается благодаря эффективной архитектуре и оптимизации модели
- Голоса. На данный момент доступно 10 голосовых пакетов, которые позволяют пользователям выбирать различные голоса для синтеза речи. Архитектура моделей позволяет использовать множество языков, но тренировка происходила преимущественно на англоязычных текстах.
Демоверсия модели доступна бесплатно на платформе Hugging Face. На Github доступна оболочка FastAPI для запуска нейросети.