Whisper Turbo

Андрей Ракитин

ML-инженер и автор блога

Сфера: Перевод Аудио в текст

Условия использования: Бесплатные

Задача:

Перевести аудио

Перевести видео в текст

Перевести аудио в текст

Доступ к API: Да

Попробовать

Whisper Turbo — нейросеть для перевода аудио в текст. Продукт от OpenAI выделяется высокой скоростью транскрибации и возможностью перевода аудио на другой язык. Нейросеть обучена на записях на 98 языках. В браузерной версии доступна загрузка файлов, указание ссылок на видео, а также использование записи с микрофона.

Особенности Whisper Turbo:

Транскрибация речи. OpenAI решили порадовать сообщество выпуском мощной нейросети для перевода аудио в текст. Модель обрабатывает не только аудиофайлы, а также записи с микрофона и видео. Помимо транскрибации аудио, нейросеть способна выполнять задачи идентификации языка и перевода речи.
Высокая скорость. OpenAI серьезно поработали над скоростью инференса модели. Транскрибация аудиофайла длиной 2 минуты составляет не более 12 секунд.
Мультиязычность. Модель обучена на 680 000 часах аудио и соответствующих расшифровок. 65% данных представляют собой записи на английском языке. Остальной набор данных содержит аудио на 98 языках, что позволяет нейросети выполнять транскрибацию с высокой точностью.

Whisper Turbo можно загрузить на странице проекта в Github. Вы можете протестировать модель в браузере на платформе Hugging Face. Кроме того, использовать Whisper Turbo можно с помощью официального OpenAI API.

Похожие нейросети

Transkriptor

Transkriptor - нейросеть для преобразования аудиозаписей в текст. Платформа поддерживает более 100 языков, включая русский, японский, индийский, тайский и некоторые редкие языки. Нейросеть отличается высокой скоростью обработки: время транскрибации в два раза меньше длительности аудиозаписи. Присутствует API по подписке Enterprise.

Rask AI

Rask AI - нейросеть для перевода видео. Сервис поддерживает 130+ языков. Нейросеть переведёт видео с русского, английского, японского и многих других языков. Особенностью приложения является синхронизация речи и мимики. Кроме того, нейросеть предоставит субтитры на оригинальном или выбранном языке. Присутствует API.

BlipCut

BlipCut - нейросеть для перевода видео на другой язык. Сервис поддерживает большое количество языков, включая русский, английский, немецкий и различные акценты. При переводе видео можно использовать оригинальный голос спикера с помощью технологии клонирования голоса. Также присутствуют функции транскрибации, синтеза речи и перевода аудио с помощью нейросети.

Cleanvoice AI

Cleanvoice AI - нейросеть для удаления шума, долгих пауз и слов-паразитов из аудио. Сервис проанализирует аудиозаписи и подкасты, избавится от раздражающих звуков (щелчки, хруст, причмокивания губами), сохранит естественность подачи контента и предоставит расшифровку, если потребуется. Для разработчиков предоставляется API.