Kokoro 82M — Бесплатная нейросеть для генерации речи

СГЕНЕРИРУЙ РЕФЕРАТ, КУРСОВУЮ И ДИПЛОМ

Со скидкой 5%

Kokoro 82M

Нейросеть Kokoro 82M. Пример работы
Фотография автора

ML-инженер и автор блога

Сфера:

Озвучка текста

Задача:

Озвучить текст

Тип преобразования:

Текст в Аудио

Условия использования:

Бесплатные

Поделиться:
Как оплатить зарубежный сервис?

Нет зарубежной банковской карты? Вы можете выгодно оплатить подписку на иностранный сервис с помощью GetPayAll с минимальной комиссией на рынке. Назовите менеджеру промокод neural для получения скидки 30% на комиссию при первой оплате.
Компания работает как с физическими, так и с юридическими лицами. Помимо оплаты зарубежных сервисов, предлагается выпуск индивидуальной карты с возможностью пополнения.

Kokoro 82M — бесплатная нейросеть для синтеза речи. Доступно 10 голосов на английском языке. Благодаря скромному размеру модели в 82 миллиона параметров, можно запустить её на недорогой видеокарте или современном процессоре, например, M3. Веса нейросети и API доступны на Hugging Face.

Особенности Kokoro 82M:

  1. Синтез речи. Kokoro-82M представляет собой модель для преобразования текста в речь, которая принимает текстовые данные на входе и генерирует аудио на выходе. Размер нейросети позволяет её использовать на десктопе.
  2. Производительность. Несмотря на сравнительно небольшой размер в 82 миллиона параметров, Kokoro-82M демонстрирует высокую производительность, превосходя многие более крупные модели, такие как XTTS v2 (467M параметров) и MetaVoice (1.2B параметров). Это достигается благодаря эффективной архитектуре и оптимизации модели
  3. Голоса. На данный момент доступно 10 голосовых пакетов, которые позволяют пользователям выбирать различные голоса для синтеза речи. Архитектура моделей позволяет использовать множество языков, но тренировка происходила преимущественно на англоязычных текстах.

Демоверсия модели доступна бесплатно на платформе Hugging Face. На Github доступна оболочка FastAPI для запуска нейросети.

Похожие нейросети

Fish Audio-превью

Fish Audio

Fish Audio - нейросеть для озвучки текста. Платформа предлагает возможность создания голосов из небольших аудиозаписей. Также можно использовать модели, созданные другими пользователями. Нейросеть способна озвучить текст на русском, английском, немецком и других языках. Доступно внедрение AI-инструмента с помощью API.

Whisper Turbo-превью

Whisper Turbo

Whisper Turbo - нейросеть для перевода аудио в текст. Продукт от OpenAI выделяется высокой скоростью транскрибации и возможностью перевода аудио на другой язык. Нейросеть обучена на записях на 98 языках. В браузерной версии доступна загрузка файлов, указание ссылок на видео, а также использование записи с микрофона.

eBook to Auidobook-превью

eBook to Auidobook

eBook to Auidobook - бесплатная нейросеть для озвучки электронных книг. Инструмент поддерживает 17 языков благодаря модели Coqui XTTS. Для использования голоса из стороннего аудио потребуется загрузить файл длительностью от 6 секунд. Нейросеть создает аудиокнигу в формате .m4b. Доступен API.

Kolors-превью

Kolors

Kolors - нейросеть для генерации реалистичных изображений. Сервис доступен абсолютно бесплатно для академических исследования. Нейросеть была обучена на огромном количестве изображений и обладает способностью генерировать текст на английском и китайских языках неплохого качества. Для модели доступен API.