Whisper Turbo — нейросеть для перевода аудио в текст. Продукт от OpenAI выделяется высокой скоростью транскрибации и возможностью перевода аудио на другой язык. Нейросеть обучена на записях на 98 языках. В браузерной версии доступна загрузка файлов, указание ссылок на видео, а также использование записи с микрофона.
Особенности Whisper Turbo:
- Транскрибация речи. OpenAI решили порадовать сообщество выпуском мощной нейросети для перевода аудио в текст. Модель обрабатывает не только аудиофайлы, а также записи с микрофона и видео. Помимо транскрибации аудио, нейросеть способна выполнять задачи идентификации языка и перевода речи.
- Высокая скорость. OpenAI серьезно поработали над скоростью инференса модели. Транскрибация аудиофайла длиной 2 минуты составляет не более 12 секунд.
- Мультиязычность. Модель обучена на 680 000 часах аудио и соответствующих расшифровок. 65% данных представляют собой записи на английском языке. Остальной набор данных содержит аудио на 98 языках, что позволяет нейросети выполнять транскрибацию с высокой точностью.
Whisper Turbo можно загрузить на странице проекта в Github. Вы можете протестировать модель в браузере на платформе Hugging Face. Кроме того, использовать Whisper Turbo можно с помощью официального OpenAI API.