Преобразуйте речь в текст с использованием новейших AI-моделей от мировых провайдеров. Инструменты Speech-to-Text (STT) AACFlow позволяют преобразовывать аудио и видео в точные, помеченные временными метками и, при необходимости, переведенные транскрипты — поддерживая множество языков и расширенные возможности, такие как диаризация и идентификация говорящих.
Поддерживаемые провайдеры и модели:
-
OpenAI Whisper (OpenAI):
OpenAI Whisper — это модель глубокого обучения с открытым исходным кодом, известная своей надежностью в различных языках и аудиоусловиях. Она поддерживает продвинутые модели, такие какwhisper-1, превосходно справляясь с транскрипцией, переводом и задачами, требующими высокой обобщающей способности модели. Поддерживаемая OpenAI — компанией, известной благодаря ChatGPT и ведущим исследованиям в области AI — Whisper широко используется в исследованиях и в качестве базового уровня для сравнительной оценки. -
Deepgram (Deepgram Inc.):
Базирующаяся в Сан-Франциско, Deepgram предлагает масштабируемые, готовые к производству API распознавания речи для разработчиков и предприятий. Модели Deepgram включаютnova-3,nova-2иwhisper-large, предлагая транскрипцию в реальном времени и пакетную обработку с лидирующей в отрасли точностью, поддержкой нескольких языков, автоматической пунктуацией, интеллектуальной диаризацией, аналитикой звонков и функциями для использования в различных сценариях — от телефонии до производства медиа. -
ElevenLabs (ElevenLabs):
Лидер в области голосового AI, ElevenLabs особенно известен премиальным синтезом и распознаванием голоса. Его продукт STT обеспечивает высокоточное, естественное понимание множества языков, диалектов и акцентов. Последние модели STT от ElevenLabs оптимизированы для четкости, различения говорящих и подходят как для творческих, так и для сценариев доступности. ElevenLabs признан за передовые достижения в AI-технологиях речи. -
AssemblyAI (AssemblyAI Inc.):
AssemblyAI предоставляет API-управляемое, высокоточное распознавание речи с такими функциями, как автоматическое разделение на главы, обнаружение тем, суммаризация, анализ тональности и модерация контента наряду с транскрипцией. Его проприетарная модель, включая признанныйConformer-2, питает некоторые из крупнейших медиа, колл-центров и приложений для соответствия требованиям в отрасли. AssemblyAI доверяют компании из Fortune 500 и ведущие AI-стартапы по всему миру. -
Google Cloud Speech-to-Text (Google Cloud):
Корпоративный API Speech-to-Text от Google поддерживает более 125 языков и вариантов, предлагая высокую точность и такие функции, как потоковая передача в реальном времени, уверенность на уровне слов, диаризация говорящих, автоматическая пунктуация, пользовательский словарь и настройка для конкретных доменов. Доступны такие модели, какlatest_long,videoи оптимизированные для доменов модели, основанные на многолетних исследованиях Google и развернутые для глобальной масштабируемости. -
AWS Transcribe (Amazon Web Services):
AWS Transcribe использует облачную инфраструктуру Amazon для предоставления надежного распознавания речи в виде API. Он поддерживает несколько языков и такие функции, как идентификация говорящих, пользовательский словарь, идентификация каналов (для аудио колл-центров) и транскрипция для медицинских целей. Популярные модели включаютstandardи варианты для конкретных доменов. AWS Transcribe идеально подходит для организаций, уже использующих облако Amazon.
Как выбрать:
Выберите провайдера и модель, которые подходят вашему приложению — будь то быстрое, готовое к корпоративному использованию преобразование с дополнительной аналитикой (Deepgram, AssemblyAI, Google, AWS), высокая универсальность и доступ к открытому исходному коду (OpenAI Whisper) или продвинутое понимание говорящих/контекста (ElevenLabs). Учитывайте ценообразование, покрытие языков, точность и любые специальные функции (такие как суммаризация, разделение на главы или анализ тональности), которые могут вам понадобиться.
Для получения более подробной информации о возможностях, ценообразовании, ключевых функциях и вариантах тонкой настройки обратитесь к официальной документации каждого провайдера по ссылкам выше.
Инструкции по использованию
Преобразуйте аудио и видео файлы в текст с использованием ведущих AI-провайдеров. Поддерживает несколько языков, временные метки и диаризацию говорящих.
Инструменты
stt_whisper
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
provider | string | Да | Провайдер STT (whisper) |
apiKey | string | Да | OpenAI API ключ |
model | string | Нет | Модель Whisper для использования (по умолчанию: whisper-1) |
audioFile | file | Нет | Аудио или видео файл для транскрипции (например, MP3, WAV, M4A, WEBM) |
audioFileReference | file | Нет | Ссылка на аудио/видео файл из предыдущих блоков |
audioUrl | string | Нет | URL аудио или видео файла |
language | string | Нет | Код языка (например, "en", "es", "fr") или "auto" для автоматического определения |
timestamps | string | Нет | Гранулярность временных меток: none, sentence или word |
translateToEnglish | boolean | Нет | Перевести аудио на английский |
prompt | string | Нет | Необязательный текст для направления стиля модели или продолжения предыдущего аудио сегмента. Помогает с именами собственными и контекстом. |
temperature | number | Нет | Температура выборки между 0 и 1. Более высокие значения делают вывод более случайным, более низкие — более сфокусированным и детерминированным. |
responseFormat | string | Нет | Формат вывода для транскрипции (например, "json", "text", "srt", "verbose_json", "vtt") |
Выходные данные
Этот инструмент не производит никаких выходных данных.
stt_deepgram
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
provider | string | Да | Провайдер STT (deepgram) |
apiKey | string | Да | Deepgram API ключ |
model | string | Нет | Модель Deepgram для использования (nova-3, nova-2, whisper-large и т.д.) |
audioFile | file | Нет | Аудио или видео файл для транскрипции (например, MP3, WAV, M4A, WEBM) |
audioFileReference | file | Нет | Ссылка на аудио/видео файл из предыдущих блоков |
audioUrl | string | Нет | URL аудио или видео файла |
language | string | Нет | Код языка (например, "en", "es", "fr") или "auto" для автоматического определения |
timestamps | string | Нет | Гранулярность временных меток: none, sentence или word |
diarization | boolean | Нет | Включить диаризацию говорящих |
Выходные данные
Этот инструмент не производит никаких выходных данных.
stt_elevenlabs
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
provider | string | Да | Провайдер STT (elevenlabs) |
apiKey | string | Да | ElevenLabs API ключ |
model | string | Нет | Модель ElevenLabs для использования (scribe_v1, scribe_v1_experimental) |
audioFile | file | Нет | Аудио или видео файл для транскрипции (например, MP3, WAV, M4A, WEBM) |
audioFileReference | file | Нет | Ссылка на аудио/видео файл из предыдущих блоков |
audioUrl | string | Нет | URL аудио или видео файла |
language | string | Нет | Код языка (например, "en", "es", "fr") или "auto" для автоматического определения |
timestamps | string | Нет | Гранулярность временных меток: none, sentence или word |
Выходные данные
Этот инструмент не производит никаких выходных данных.
stt_assemblyai
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
provider | string | Да | Провайдер STT (assemblyai) |
apiKey | string | Да | AssemblyAI API ключ |
model | string | Нет | Модель AssemblyAI для использования (по умолчанию: best) |
audioFile | file | Нет | Аудио или видео файл для транскрипции (например, MP3, WAV, M4A, WEBM) |
audioFileReference | file | Нет | Ссылка на аудио/видео файл из предыдущих блоков |
audioUrl | string | Нет | URL аудио или видео файла |
language | string | Нет | Код языка (например, "en", "es", "fr") или "auto" для автоматического определения |
timestamps | string | Нет | Гранулярность временных меток: none, sentence или word |
diarization | boolean | Нет | Включить диаризацию говорящих |
sentiment | boolean | Нет | Включить анализ тональности |
entityDetection | boolean | Нет | Включить обнаружение сущностей |
piiRedaction | boolean | Нет | Включить редактирование PII |
summarization | boolean | Нет | Включить автоматическую суммаризацию |
Выходные данные
Этот инструмент не производит никаких выходных данных.
stt_gemini
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
provider | string | Да | Провайдер STT (gemini) |
apiKey | string | Да | Google API ключ |
model | string | Нет | Модель Gemini для использования (по умолчанию: gemini-2.5-flash) |
audioFile | file | Нет | Аудио или видео файл для транскрипции (например, MP3, WAV, M4A, WEBM) |
audioFileReference | file | Нет | Ссылка на аудио/видео файл из предыдущих блоков |
audioUrl | string | Нет | URL аудио или видео файла |
language | string | Нет | Код языка (например, "en", "es", "fr") или "auto" для автоматического определения |
timestamps | string | Нет | Гранулярность временных меток: none, sentence или word |
Выходные данные
Этот инструмент не производит никаких выходных данных.

