Расшифровка интервью, лекций и созвонов: час записи — от 32 ₽, с таймкодами. Точная модель Whisper large-v3, русский язык — отлично.
Транскрибация на NeuralBox работает на Whisper large-v3 — самой точной открытой модели распознавания речи от OpenAI. Русский язык распознаётся отлично, включая беглую речь, термины и записи с фоновым шумом. Язык записи определяется автоматически — поддерживаются десятки языков.
Результат — готовый текст плюс сегменты с таймкодами: удобно делать субтитры, искать нужное место в записи или цитировать с точностью до секунды. Если в файле не оказалось речи, токены автоматически возвращаются.
Никаких подписок и помесячных тарифов «от $10», как у сервисов-транскрибаторов: загрузили файл — заплатили за его длительность. Час записи стоит от 32 ₽ (Fast Whisper) или 54 ₽ (WhisperX — максимальная точность). Файлы до 200 МБ, оплата российской картой, через СБП или криптовалютой.
Загрузите аудиофайл — текст будет готов через пару минут.
| Модели | WhisperX (large-v3), Fast Whisper (large-v3) |
| Размер файла | до 200 МБ |
| Форматы | MP3, WAV, M4A, OGG и другие аудиоформаты |
| Языки | десятки, включая русский; автоопределение |
| Результат | полный текст + сегменты с таймкодами |
| Минимальное списание | 250–500 токенов (≈ 1–1,5 ₽) за короткие файлы |
| Доступ по API | да — API NeuralBox |
| Запись | Fast Whisper | WhisperX |
|---|---|---|
| 10 минут | 1 800 токенов ≈ 5,4 ₽ | 3 000 токенов ≈ 9 ₽ |
| 30 минут | 5 400 токенов ≈ 16 ₽ | 9 000 токенов ≈ 27 ₽ |
| 1 час | 10 800 токенов ≈ 32 ₽ | 18 000 токенов ≈ 54 ₽ |
| 3 часа | 32 400 токенов ≈ 97 ₽ | 54 000 токенов ≈ 162 ₽ |
Тарификация посекундная, по длительности записи. Курс токена — по тарифу Basic (449 ₽ = 150 000 токенов), на старших тарифах до 40% дешевле. Для сравнения: API OpenAI Whisper ($0.006/мин) недоступен из России, а сервисы-транскрибаторы продают подписки от $10–20/мес.
Используется Whisper large-v3 — самая точная открытая модель распознавания речи. На чистой русской речи ошибки единичны; на записях с шумом и перебиваниями качество выше у WhisperX.
От 32 ₽ в Fast Whisper и 54 ₽ в WhisperX (по базовому тарифу; на старших — до 40% дешевле). Платите только за длительность записи, подписки нет.
Десятки языков, включая русский, английский, европейские и азиатские. Язык определяется автоматически, указывать его не нужно.
Да, результат включает сегменты с привязкой ко времени. Для максимально точных таймкодов (субтитры) берите WhisperX.
Обе работают на large-v3. Fast Whisper в полтора раза дешевле и быстрее — для большинства записей. WhisperX точнее выравнивает таймкоды и лучше держит сложный звук.
Загружается аудиофайл. Извлеките дорожку из видео (любой конвертер) — и расшифровывайте. Файлы до 200 МБ — это многочасовые записи.
Токены автоматически вернутся на баланс — за тишину и музыку без слов вы не платите.
Да, транскрибация доступна по API NeuralBox — удобно для автоматической обработки звонков и контента. Документация на neuralbox.ru/api.