Speech-to-Text

Преобразуйте речь в текст с использованием новейших AI-моделей от мировых провайдеров. Инструменты Speech-to-Text (STT) AACFlow позволяют преобразовывать аудио и видео в точные, помеченные временными метками и, при необходимости, переведенные транскрипты — поддерживая множество языков и расширенные возможности, такие как диаризация и идентификация говорящих.

Поддерживаемые провайдеры и модели:

OpenAI Whisper (OpenAI):
OpenAI Whisper — это модель глубокого обучения с открытым исходным кодом, известная своей надежностью в различных языках и аудиоусловиях. Она поддерживает продвинутые модели, такие как whisper-1, превосходно справляясь с транскрипцией, переводом и задачами, требующими высокой обобщающей способности модели. Поддерживаемая OpenAI — компанией, известной благодаря ChatGPT и ведущим исследованиям в области AI — Whisper широко используется в исследованиях и в качестве базового уровня для сравнительной оценки.
Deepgram (Deepgram Inc.):
Базирующаяся в Сан-Франциско, Deepgram предлагает масштабируемые, готовые к производству API распознавания речи для разработчиков и предприятий. Модели Deepgram включают nova-3, nova-2 и whisper-large, предлагая транскрипцию в реальном времени и пакетную обработку с лидирующей в отрасли точностью, поддержкой нескольких языков, автоматической пунктуацией, интеллектуальной диаризацией, аналитикой звонков и функциями для использования в различных сценариях — от телефонии до производства медиа.
ElevenLabs (ElevenLabs):
Лидер в области голосового AI, ElevenLabs особенно известен премиальным синтезом и распознаванием голоса. Его продукт STT обеспечивает высокоточное, естественное понимание множества языков, диалектов и акцентов. Последние модели STT от ElevenLabs оптимизированы для четкости, различения говорящих и подходят как для творческих, так и для сценариев доступности. ElevenLabs признан за передовые достижения в AI-технологиях речи.
AssemblyAI (AssemblyAI Inc.):
AssemblyAI предоставляет API-управляемое, высокоточное распознавание речи с такими функциями, как автоматическое разделение на главы, обнаружение тем, суммаризация, анализ тональности и модерация контента наряду с транскрипцией. Его проприетарная модель, включая признанный Conformer-2, питает некоторые из крупнейших медиа, колл-центров и приложений для соответствия требованиям в отрасли. AssemblyAI доверяют компании из Fortune 500 и ведущие AI-стартапы по всему миру.
Google Cloud Speech-to-Text (Google Cloud):
Корпоративный API Speech-to-Text от Google поддерживает более 125 языков и вариантов, предлагая высокую точность и такие функции, как потоковая передача в реальном времени, уверенность на уровне слов, диаризация говорящих, автоматическая пунктуация, пользовательский словарь и настройка для конкретных доменов. Доступны такие модели, как latest_long, video и оптимизированные для доменов модели, основанные на многолетних исследованиях Google и развернутые для глобальной масштабируемости.
AWS Transcribe (Amazon Web Services):
AWS Transcribe использует облачную инфраструктуру Amazon для предоставления надежного распознавания речи в виде API. Он поддерживает несколько языков и такие функции, как идентификация говорящих, пользовательский словарь, идентификация каналов (для аудио колл-центров) и транскрипция для медицинских целей. Популярные модели включают standard и варианты для конкретных доменов. AWS Transcribe идеально подходит для организаций, уже использующих облако Amazon.

Как выбрать:
Выберите провайдера и модель, которые подходят вашему приложению — будь то быстрое, готовое к корпоративному использованию преобразование с дополнительной аналитикой (Deepgram, AssemblyAI, Google, AWS), высокая универсальность и доступ к открытому исходному коду (OpenAI Whisper) или продвинутое понимание говорящих/контекста (ElevenLabs). Учитывайте ценообразование, покрытие языков, точность и любые специальные функции (такие как суммаризация, разделение на главы или анализ тональности), которые могут вам понадобиться.

Для получения более подробной информации о возможностях, ценообразовании, ключевых функциях и вариантах тонкой настройки обратитесь к официальной документации каждого провайдера по ссылкам выше.

Параметр	Тип	Обязательный	Описание
`provider`	string	Да	Провайдер STT (whisper)
`apiKey`	string	Да	OpenAI API ключ
`model`	string	Нет	Модель Whisper для использования (по умолчанию: whisper-1)
`audioFile`	file	Нет	Аудио или видео файл для транскрипции (например, MP3, WAV, M4A, WEBM)
`audioFileReference`	file	Нет	Ссылка на аудио/видео файл из предыдущих блоков
`audioUrl`	string	Нет	URL аудио или видео файла
`language`	string	Нет	Код языка (например, "en", "es", "fr") или "auto" для автоматического определения
`timestamps`	string	Нет	Гранулярность временных меток: none, sentence или word
`translateToEnglish`	boolean	Нет	Перевести аудио на английский
`prompt`	string	Нет	Необязательный текст для направления стиля модели или продолжения предыдущего аудио сегмента. Помогает с именами собственными и контекстом.
`temperature`	number	Нет	Температура выборки между 0 и 1. Более высокие значения делают вывод более случайным, более низкие — более сфокусированным и детерминированным.
`responseFormat`	string	Нет	Формат вывода для транскрипции (например, "json", "text", "srt", "verbose_json", "vtt")

Параметр	Тип	Обязательный	Описание
`provider`	string	Да	Провайдер STT (deepgram)
`apiKey`	string	Да	Deepgram API ключ
`model`	string	Нет	Модель Deepgram для использования (nova-3, nova-2, whisper-large и т.д.)
`audioFile`	file	Нет	Аудио или видео файл для транскрипции (например, MP3, WAV, M4A, WEBM)
`audioFileReference`	file	Нет	Ссылка на аудио/видео файл из предыдущих блоков
`audioUrl`	string	Нет	URL аудио или видео файла
`language`	string	Нет	Код языка (например, "en", "es", "fr") или "auto" для автоматического определения
`timestamps`	string	Нет	Гранулярность временных меток: none, sentence или word
`diarization`	boolean	Нет	Включить диаризацию говорящих

Параметр	Тип	Обязательный	Описание
`provider`	string	Да	Провайдер STT (elevenlabs)
`apiKey`	string	Да	ElevenLabs API ключ
`model`	string	Нет	Модель ElevenLabs для использования (scribe_v1, scribe_v1_experimental)
`audioFile`	file	Нет	Аудио или видео файл для транскрипции (например, MP3, WAV, M4A, WEBM)
`audioFileReference`	file	Нет	Ссылка на аудио/видео файл из предыдущих блоков
`audioUrl`	string	Нет	URL аудио или видео файла
`language`	string	Нет	Код языка (например, "en", "es", "fr") или "auto" для автоматического определения
`timestamps`	string	Нет	Гранулярность временных меток: none, sentence или word

Параметр	Тип	Обязательный	Описание
`provider`	string	Да	Провайдер STT (assemblyai)
`apiKey`	string	Да	AssemblyAI API ключ
`model`	string	Нет	Модель AssemblyAI для использования (по умолчанию: best)
`audioFile`	file	Нет	Аудио или видео файл для транскрипции (например, MP3, WAV, M4A, WEBM)
`audioFileReference`	file	Нет	Ссылка на аудио/видео файл из предыдущих блоков
`audioUrl`	string	Нет	URL аудио или видео файла
`language`	string	Нет	Код языка (например, "en", "es", "fr") или "auto" для автоматического определения
`timestamps`	string	Нет	Гранулярность временных меток: none, sentence или word
`diarization`	boolean	Нет	Включить диаризацию говорящих
`sentiment`	boolean	Нет	Включить анализ тональности
`entityDetection`	boolean	Нет	Включить обнаружение сущностей
`piiRedaction`	boolean	Нет	Включить редактирование PII
`summarization`	boolean	Нет	Включить автоматическую суммаризацию

Параметр	Тип	Обязательный	Описание
`provider`	string	Да	Провайдер STT (gemini)
`apiKey`	string	Да	Google API ключ
`model`	string	Нет	Модель Gemini для использования (по умолчанию: gemini-2.5-flash)
`audioFile`	file	Нет	Аудио или видео файл для транскрипции (например, MP3, WAV, M4A, WEBM)
`audioFileReference`	file	Нет	Ссылка на аудио/видео файл из предыдущих блоков
`audioUrl`	string	Нет	URL аудио или видео файла
`language`	string	Нет	Код языка (например, "en", "es", "fr") или "auto" для автоматического определения
`timestamps`	string	Нет	Гранулярность временных меток: none, sentence или word

Выходные данные

Этот инструмент не производит никаких выходных данных.

Speech-to-Text

Инструкции по использованию

Инструменты

`stt_whisper`

Входные параметры

Выходные данные

`stt_deepgram`

Входные параметры

Выходные данные

`stt_elevenlabs`

Входные параметры

Выходные данные

`stt_assemblyai`

Входные параметры

Выходные данные

`stt_gemini`

Входные параметры

Выходные данные

On this page