Преобразуйте текст в естественно звучащую речь с использованием новейших AI-голосов. Инструменты Text-to-Speech (TTS) в AACFlow позволяют генерировать аудио из письменного текста на десятках языков с выбором выразительных голосов, форматов и расширенными настройками, такими как скорость, стиль, эмоции и многое другое.
Поддерживаемые провайдеры и модели:
-
OpenAI Text-to-Speech (OpenAI):
TTS API от OpenAI предлагает сверхреалистичные голоса с использованием продвинутых AI-моделей, таких какtts-1,tts-1-hdиgpt-4o-mini-tts. Голоса включают как мужские, так и женские, с такими вариантами, как alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage и verse. Поддерживает несколько аудиоформатов (mp3, opus, aac, flac, wav, pcm), регулируемую скорость и потоковый синтез. -
Deepgram Aura (Deepgram Inc.):
Aura от Deepgram предоставляет выразительные английские и многоязычные AI-голоса, оптимизированные для разборчивости в разговорах, низкой задержки и кастомизации. Доступны модели, такие какaura-asteria-en,aura-luna-enи другие. Поддерживает несколько форматов кодирования (linear16, mp3, opus, aac, flac) и тонкую настройку скорости, частоты дискретизации и стиля. -
ElevenLabs Text-to-Speech (ElevenLabs):
ElevenLabs лидирует в создании реалистичного, эмоционально насыщенного TTS, предлагая десятки голосов на 29+ языках и возможность клонирования пользовательских голосов. Модели поддерживают дизайн голоса, синтез речи и прямой доступ к API с расширенными настройками стиля, эмоций, стабильности и схожести. Подходит для аудиокниг, создания контента, доступности и многого другого. -
Cartesia TTS (Cartesia):
Cartesia предлагает высококачественный, быстрый и безопасный text-to-speech с акцентом на приватность и гибкое развёртывание. Предоставляет мгновенную потоковую передачу, синтез в реальном времени и поддерживает множество международных голосов и акцентов, доступных через простой API. -
Google Cloud Text-to-Speech (Google Cloud):
Google использует модели DeepMind WaveNet и Neural2 для обеспечения высококачественных голосов на 50+ языках и вариантах. Функции включают выбор голоса, высоту тона, скорость речи, контроль громкости, теги SSML и доступ как к стандартным, так и к студийным премиум-голосам. Широко используется для доступности, IVR и медиа. -
Microsoft Azure Speech (Microsoft Azure):
Azure предоставляет более 400 нейронных голосов на 140+ языках и локалях с уникальной кастомизацией голоса, стилем, эмоциями, ролью и контролем в реальном времени. Предлагает поддержку SSML для произношения, интонации и многого другого. Идеально подходит для глобальных, корпоративных или творческих потребностей TTS. -
PlayHT (PlayHT):
PlayHT специализируется на реалистичном синтезе голоса, клонировании голоса и мгновенном потоковом воспроизведении с 800+ голосами на более чем 100 языках. Функции включают эмоции, контроль высоты тона и скорости, многоголосое аудио и создание пользовательских голосов через API или онлайн-студию.
Как выбрать:
Выберите вашего провайдера и модель, отдавая приоритет языкам, поддерживаемым типам голосов, желаемым форматам (mp3, wav и т.д.), детализации контроля (скорость, эмоции и т.д.) и специализированным функциям (клонирование голоса, акцент, потоковая передача). Для творческих, доступных или разработческих случаев использования убедитесь в совместимости с требованиями вашего приложения и сравните стоимость.
Посетите официальный сайт каждого провайдера для получения актуальных возможностей, цен и деталей документации!
Инструкции по использованию
Генерируйте естественно звучащую речь из текста с использованием современных AI-голосов от OpenAI, Deepgram, ElevenLabs, Cartesia, Google Cloud, Azure и PlayHT. Поддерживает множество голосов, языков и аудиоформатов.
Инструменты
tts_openai
Преобразовать текст в речь с использованием моделей TTS от OpenAI
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
text | string | Да | Текстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!") |
apiKey | string | Да | API-ключ OpenAI |
model | string | Нет | Идентификатор модели TTS OpenAI (например, "tts-1", "tts-1-hd", "gpt-4o-mini-tts") |
voice | string | Нет | Идентификатор голоса OpenAI (например, "alloy", "ash", "ballad", "coral", "echo", "sage", "shimmer") |
responseFormat | string | Нет | Аудиоформат (mp3, opus, aac, flac, wav, pcm) |
speed | number | Нет | Множитель скорости речи от 0.25 до 4.0 (например, 0.5 для медленнее, 1.0 для нормальной, 2.0 для быстрее) |
Выходные данные
| Параметр | Тип | Описание |
|---|---|---|
audioUrl | string | URL к сгенерированному аудиофайлу |
audioFile | file | Объект сгенерированного аудиофайла |
duration | number | Длительность аудио в секундах |
characterCount | number | Количество обработанных символов |
format | string | Аудиоформат |
provider | string | Используемый провайдер TTS |
tts_deepgram
Преобразовать текст в речь с использованием Deepgram Aura
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
text | string | Да | Текстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!") |
apiKey | string | Да | API-ключ Deepgram |
model | string | Нет | Идентификатор модели/голоса Deepgram (например, "aura-asteria-en", "aura-luna-en", "aura-2-luna-en") |
voice | string | Нет | Идентификатор голоса Deepgram, альтернатива параметру model (например, "aura-asteria-en", "aura-orion-en") |
encoding | string | Нет | Кодирование аудио (linear16, mp3, opus, aac, flac) |
sampleRate | number | Нет | Частота дискретизации (8000, 16000, 24000, 48000) |
bitRate | number | Нет | Битрейт для сжатых форматов |
container | string | Нет | Формат контейнера (none, wav, ogg) |
Выходные данные
| Параметр | Тип | Описание |
|---|---|---|
audioUrl | string | URL к сгенерированному аудиофайлу |
audioFile | file | Объект сгенерированного аудиофайла |
duration | number | Длительность аудио в секундах |
characterCount | number | Количество обработанных символов |
format | string | Аудиоформат |
provider | string | Используемый провайдер TTS |
tts_elevenlabs
Преобразовать текст в речь с использованием голосов ElevenLabs
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
text | string | Да | Текстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!") |
voiceId | string | Да | Идентификатор голоса ElevenLabs (например, "21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld") |
apiKey | string | Да | API-ключ ElevenLabs |
modelId | string | Нет | Идентификатор модели ElevenLabs (например, "eleven_turbo_v2_5", "eleven_flash_v2_5", "eleven_multilingual_v2") |
stability | number | Нет | Стабильность голоса (0.0 до 1.0, по умолчанию: 0.5) |
similarityBoost | number | Нет | Усиление схожести (0.0 до 1.0, по умолчанию: 0.8) |
style | number | Нет | Преувеличение стиля (0.0 до 1.0) |
useSpeakerBoost | boolean | Нет | Использовать усиление говорящего (по умолчанию: true) |
Выходные данные
| Параметр | Тип | Описание |
|---|---|---|
audioUrl | string | URL к сгенерированному аудиофайлу |
audioFile | file | Объект сгенерированного аудиофайла |
duration | number | Длительность аудио в секундах |
characterCount | number | Количество обработанных символов |
format | string | Аудиоформат |
provider | string | Используемый провайдер TTS |
tts_cartesia
Преобразовать текст в речь с использованием Cartesia Sonic (ультранизкая задержка)
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
text | string | Да | Текстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!") |
apiKey | string | Да | API-ключ Cartesia |
modelId | string | Нет | Идентификатор модели Cartesia (например, "sonic", "sonic-2", "sonic-3", "sonic-multilingual") |
voice | string | Нет | Идентификатор голоса или эмбеддинг Cartesia (например, "a0e99841-438c-4a64-b679-ae501e7d6091") |
language | string | Нет | Код языка для синтеза речи (например, "en", "es", "fr", "de", "it", "pt") |
outputFormat | json | Нет | Конфигурация выходного формата (container, encoding, sampleRate) |
speed | number | Нет | Множитель скорости речи (например, 0.5 для медленнее, 1.0 для нормальной, 2.0 для быстрее) |
emotion | array | Нет | Теги эмоций для Sonic-3 (например, ['positivity:high']) |
Выходные данные
| Параметр | Тип | Описание |
|---|---|---|
audioUrl | string | URL к сгенерированному аудиофайлу |
audioFile | file | Объект сгенерированного аудиофайла |
duration | number | Длительность аудио в секундах |
characterCount | number | Количество обработанных символов |
format | string | Аудиоформат |
provider | string | Используемый провайдер TTS |
tts_google
Преобразовать текст в речь с использованием Google Cloud Text-to-Speech
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
text | string | Да | Текстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!") |
apiKey | string | Да | API-ключ Google Cloud |
voiceId | string | Нет | Идентификатор голоса Google Cloud (например, "en-US-Neural2-A", "en-US-Wavenet-D", "en-GB-Neural2-B") |
languageCode | string | Да | Код языка BCP-47 для синтеза речи (например, "en-US", "es-ES", "fr-FR", "de-DE") |
gender | string | Нет | Пол голоса (MALE, FEMALE, NEUTRAL) |
audioEncoding | string | Нет | Кодирование аудио (LINEAR16, MP3, OGG_OPUS, MULAW, ALAW) |
speakingRate | number | Нет | Множитель скорости речи от 0.25 до 2.0 (например, 0.5 для медленнее, 1.0 для нормальной, 1.5 для быстрее) |
pitch | number | Нет | Высота голоса (-20.0 до 20.0, по умолчанию: 0.0) |
volumeGainDb | number | Нет | Усиление громкости в дБ (-96.0 до 16.0) |
sampleRateHertz | number | Нет | Частота дискретизации в Гц |
effectsProfileId | array | Нет | Профиль эффектов (например, ['headphone-class-device']) |
Выходные данные
| Параметр | Тип | Описание |
|---|---|---|
audioUrl | string | URL к сгенерированному аудиофайлу |
audioFile | file | Объект сгенерированного аудиофайла |
duration | number | Длительность аудио в секундах |
characterCount | number | Количество обработанных символов |
format | string | Аудиоформат |
provider | string | Используемый провайдер TTS |
tts_azure
Преобразовать текст в речь с использованием Azure Cognitive Services
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
text | string | Да | Текстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!") |
apiKey | string | Да | API-ключ Azure Speech Services |
voiceId | string | Нет | Идентификатор голоса Azure (например, "en-US-JennyNeural", "en-US-GuyNeural", "en-GB-SoniaNeural") |
region | string | Нет | Регион Azure (например, eastus, westus, westeurope) |
outputFormat | string | Нет | Выходной аудиоформат |
rate | string | Нет | Скорость речи (например, +10%, -20%, 1.5) |
pitch | string | Нет | Высота голоса (например, +5Hz, -2st, low) |
style | string | Нет | Стиль речи (например, cheerful, sad, angry - только нейронные голоса) |
styleDegree | number | Нет | Интенсивность стиля (0.01 до 2.0) |
role | string | Нет | Роль (например, Girl, Boy, YoungAdultFemale) |
Выходные данные
| Параметр | Тип | Описание |
|---|---|---|
audioUrl | string | URL к сгенерированному аудиофайлу |
audioFile | file | Объект сгенерированного аудиофайла |
duration | number | Длительность аудио в секундах |
characterCount | number | Количество обработанных символов |
format | string | Аудиоформат |
provider | string | Используемый провайдер TTS |
tts_playht
Преобразовать текст в речь с использованием PlayHT (клонирование голоса)
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
text | string | Да | Текстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!") |
apiKey | string | Да | API-ключ PlayHT (заголовок AUTHORIZATION) |
userId | string | Да | ID пользователя PlayHT (заголовок X-USER-ID) |
voice | string | Нет | Идентификатор голоса PlayHT или URL манифеста (например, "s3://voice-cloning-zero-shot/...") |
quality | string | Нет | Уровень качества (draft, standard, premium) |
outputFormat | string | Нет | Выходной формат (mp3, wav, ogg, flac, mulaw) |
speed | number | Нет | Множитель скорости речи от 0.5 до 2.0 (например, 0.5 для медленнее, 1.0 для нормальной, 1.5 для быстрее) |
temperature | number | Нет | Креативность/случайность (0.0 до 2.0) |
voiceGuidance | number | Нет | Стабильность голоса (1.0 до 6.0) |
textGuidance | number | Нет | Следование тексту (1.0 до 6.0) |
sampleRate | number | Нет | Частота дискретизации (8000, 16000, 22050, 24000, 44100, 48000) |
Выходные данные
| Параметр | Тип | Описание |
|---|---|---|
audioUrl | string | URL к сгенерированному аудиофайлу |
audioFile | file | Объект сгенерированного аудиофайла |
duration | number | Длительность аудио в секундах |
characterCount | number | Количество обработанных символов |
format | string | Аудиоформат |
provider | string | Используемый провайдер TTS |

