Text-to-Speech

Преобразуйте текст в естественно звучащую речь с использованием новейших AI-голосов. Инструменты Text-to-Speech (TTS) в AACFlow позволяют генерировать аудио из письменного текста на десятках языков с выбором выразительных голосов, форматов и расширенными настройками, такими как скорость, стиль, эмоции и многое другое.

Поддерживаемые провайдеры и модели:

OpenAI Text-to-Speech (OpenAI):
TTS API от OpenAI предлагает сверхреалистичные голоса с использованием продвинутых AI-моделей, таких как tts-1, tts-1-hd и gpt-4o-mini-tts. Голоса включают как мужские, так и женские, с такими вариантами, как alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage и verse. Поддерживает несколько аудиоформатов (mp3, opus, aac, flac, wav, pcm), регулируемую скорость и потоковый синтез.
Deepgram Aura (Deepgram Inc.):
Aura от Deepgram предоставляет выразительные английские и многоязычные AI-голоса, оптимизированные для разборчивости в разговорах, низкой задержки и кастомизации. Доступны модели, такие как aura-asteria-en, aura-luna-en и другие. Поддерживает несколько форматов кодирования (linear16, mp3, opus, aac, flac) и тонкую настройку скорости, частоты дискретизации и стиля.
ElevenLabs Text-to-Speech (ElevenLabs):
ElevenLabs лидирует в создании реалистичного, эмоционально насыщенного TTS, предлагая десятки голосов на 29+ языках и возможность клонирования пользовательских голосов. Модели поддерживают дизайн голоса, синтез речи и прямой доступ к API с расширенными настройками стиля, эмоций, стабильности и схожести. Подходит для аудиокниг, создания контента, доступности и многого другого.
Cartesia TTS (Cartesia):
Cartesia предлагает высококачественный, быстрый и безопасный text-to-speech с акцентом на приватность и гибкое развёртывание. Предоставляет мгновенную потоковую передачу, синтез в реальном времени и поддерживает множество международных голосов и акцентов, доступных через простой API.
Google Cloud Text-to-Speech (Google Cloud):
Google использует модели DeepMind WaveNet и Neural2 для обеспечения высококачественных голосов на 50+ языках и вариантах. Функции включают выбор голоса, высоту тона, скорость речи, контроль громкости, теги SSML и доступ как к стандартным, так и к студийным премиум-голосам. Широко используется для доступности, IVR и медиа.
Microsoft Azure Speech (Microsoft Azure):
Azure предоставляет более 400 нейронных голосов на 140+ языках и локалях с уникальной кастомизацией голоса, стилем, эмоциями, ролью и контролем в реальном времени. Предлагает поддержку SSML для произношения, интонации и многого другого. Идеально подходит для глобальных, корпоративных или творческих потребностей TTS.
PlayHT (PlayHT):
PlayHT специализируется на реалистичном синтезе голоса, клонировании голоса и мгновенном потоковом воспроизведении с 800+ голосами на более чем 100 языках. Функции включают эмоции, контроль высоты тона и скорости, многоголосое аудио и создание пользовательских голосов через API или онлайн-студию.

Как выбрать:
Выберите вашего провайдера и модель, отдавая приоритет языкам, поддерживаемым типам голосов, желаемым форматам (mp3, wav и т.д.), детализации контроля (скорость, эмоции и т.д.) и специализированным функциям (клонирование голоса, акцент, потоковая передача). Для творческих, доступных или разработческих случаев использования убедитесь в совместимости с требованиями вашего приложения и сравните стоимость.

Посетите официальный сайт каждого провайдера для получения актуальных возможностей, цен и деталей документации!

Параметр	Тип	Обязательный	Описание
`text`	string	Да	Текстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!")
`apiKey`	string	Да	API-ключ OpenAI
`model`	string	Нет	Идентификатор модели TTS OpenAI (например, "tts-1", "tts-1-hd", "gpt-4o-mini-tts")
`voice`	string	Нет	Идентификатор голоса OpenAI (например, "alloy", "ash", "ballad", "coral", "echo", "sage", "shimmer")
`responseFormat`	string	Нет	Аудиоформат (mp3, opus, aac, flac, wav, pcm)
`speed`	number	Нет	Множитель скорости речи от 0.25 до 4.0 (например, 0.5 для медленнее, 1.0 для нормальной, 2.0 для быстрее)

Выходные данные

Параметр	Тип	Описание
`audioUrl`	string	URL к сгенерированному аудиофайлу
`audioFile`	file	Объект сгенерированного аудиофайла
`duration`	number	Длительность аудио в секундах
`characterCount`	number	Количество обработанных символов
`format`	string	Аудиоформат
`provider`	string	Используемый провайдер TTS

`tts_deepgram`

Преобразовать текст в речь с использованием Deepgram Aura

Входные параметры

Параметр	Тип	Обязательный	Описание
`text`	string	Да	Текстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!")
`apiKey`	string	Да	API-ключ Deepgram
`model`	string	Нет	Идентификатор модели/голоса Deepgram (например, "aura-asteria-en", "aura-luna-en", "aura-2-luna-en")
`voice`	string	Нет	Идентификатор голоса Deepgram, альтернатива параметру model (например, "aura-asteria-en", "aura-orion-en")
`encoding`	string	Нет	Кодирование аудио (linear16, mp3, opus, aac, flac)
`sampleRate`	number	Нет	Частота дискретизации (8000, 16000, 24000, 48000)
`bitRate`	number	Нет	Битрейт для сжатых форматов
`container`	string	Нет	Формат контейнера (none, wav, ogg)

Выходные данные

Параметр	Тип	Описание
`audioUrl`	string	URL к сгенерированному аудиофайлу
`audioFile`	file	Объект сгенерированного аудиофайла
`duration`	number	Длительность аудио в секундах
`characterCount`	number	Количество обработанных символов
`format`	string	Аудиоформат
`provider`	string	Используемый провайдер TTS

`tts_elevenlabs`

Преобразовать текст в речь с использованием голосов ElevenLabs

Входные параметры

Параметр	Тип	Обязательный	Описание
`text`	string	Да	Текстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!")
`voiceId`	string	Да	Идентификатор голоса ElevenLabs (например, "21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld")
`apiKey`	string	Да	API-ключ ElevenLabs
`modelId`	string	Нет	Идентификатор модели ElevenLabs (например, "eleven_turbo_v2_5", "eleven_flash_v2_5", "eleven_multilingual_v2")
`stability`	number	Нет	Стабильность голоса (0.0 до 1.0, по умолчанию: 0.5)
`similarityBoost`	number	Нет	Усиление схожести (0.0 до 1.0, по умолчанию: 0.8)
`style`	number	Нет	Преувеличение стиля (0.0 до 1.0)
`useSpeakerBoost`	boolean	Нет	Использовать усиление говорящего (по умолчанию: true)

Выходные данные

Параметр	Тип	Описание
`audioUrl`	string	URL к сгенерированному аудиофайлу
`audioFile`	file	Объект сгенерированного аудиофайла
`duration`	number	Длительность аудио в секундах
`characterCount`	number	Количество обработанных символов
`format`	string	Аудиоформат
`provider`	string	Используемый провайдер TTS

`tts_cartesia`

Преобразовать текст в речь с использованием Cartesia Sonic (ультранизкая задержка)

Входные параметры

Параметр	Тип	Обязательный	Описание
`text`	string	Да	Текстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!")
`apiKey`	string	Да	API-ключ Cartesia
`modelId`	string	Нет	Идентификатор модели Cartesia (например, "sonic", "sonic-2", "sonic-3", "sonic-multilingual")
`voice`	string	Нет	Идентификатор голоса или эмбеддинг Cartesia (например, "a0e99841-438c-4a64-b679-ae501e7d6091")
`language`	string	Нет	Код языка для синтеза речи (например, "en", "es", "fr", "de", "it", "pt")
`outputFormat`	json	Нет	Конфигурация выходного формата (container, encoding, sampleRate)
`speed`	number	Нет	Множитель скорости речи (например, 0.5 для медленнее, 1.0 для нормальной, 2.0 для быстрее)
`emotion`	array	Нет	Теги эмоций для Sonic-3 (например, ['positivity:high'])

Выходные данные

Параметр	Тип	Описание
`audioUrl`	string	URL к сгенерированному аудиофайлу
`audioFile`	file	Объект сгенерированного аудиофайла
`duration`	number	Длительность аудио в секундах
`characterCount`	number	Количество обработанных символов
`format`	string	Аудиоформат
`provider`	string	Используемый провайдер TTS

`tts_google`

Преобразовать текст в речь с использованием Google Cloud Text-to-Speech

Входные параметры

Параметр	Тип	Обязательный	Описание
`text`	string	Да	Текстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!")
`apiKey`	string	Да	API-ключ Google Cloud
`voiceId`	string	Нет	Идентификатор голоса Google Cloud (например, "en-US-Neural2-A", "en-US-Wavenet-D", "en-GB-Neural2-B")
`languageCode`	string	Да	Код языка BCP-47 для синтеза речи (например, "en-US", "es-ES", "fr-FR", "de-DE")
`gender`	string	Нет	Пол голоса (MALE, FEMALE, NEUTRAL)
`audioEncoding`	string	Нет	Кодирование аудио (LINEAR16, MP3, OGG_OPUS, MULAW, ALAW)
`speakingRate`	number	Нет	Множитель скорости речи от 0.25 до 2.0 (например, 0.5 для медленнее, 1.0 для нормальной, 1.5 для быстрее)
`pitch`	number	Нет	Высота голоса (-20.0 до 20.0, по умолчанию: 0.0)
`volumeGainDb`	number	Нет	Усиление громкости в дБ (-96.0 до 16.0)
`sampleRateHertz`	number	Нет	Частота дискретизации в Гц
`effectsProfileId`	array	Нет	Профиль эффектов (например, ['headphone-class-device'])

Выходные данные

Параметр	Тип	Описание
`audioUrl`	string	URL к сгенерированному аудиофайлу
`audioFile`	file	Объект сгенерированного аудиофайла
`duration`	number	Длительность аудио в секундах
`characterCount`	number	Количество обработанных символов
`format`	string	Аудиоформат
`provider`	string	Используемый провайдер TTS

`tts_azure`

Преобразовать текст в речь с использованием Azure Cognitive Services

Входные параметры

Параметр	Тип	Обязательный	Описание
`text`	string	Да	Текстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!")
`apiKey`	string	Да	API-ключ Azure Speech Services
`voiceId`	string	Нет	Идентификатор голоса Azure (например, "en-US-JennyNeural", "en-US-GuyNeural", "en-GB-SoniaNeural")
`region`	string	Нет	Регион Azure (например, eastus, westus, westeurope)
`outputFormat`	string	Нет	Выходной аудиоформат
`rate`	string	Нет	Скорость речи (например, +10%, -20%, 1.5)
`pitch`	string	Нет	Высота голоса (например, +5Hz, -2st, low)
`style`	string	Нет	Стиль речи (например, cheerful, sad, angry - только нейронные голоса)
`styleDegree`	number	Нет	Интенсивность стиля (0.01 до 2.0)
`role`	string	Нет	Роль (например, Girl, Boy, YoungAdultFemale)

Выходные данные

Параметр	Тип	Описание
`audioUrl`	string	URL к сгенерированному аудиофайлу
`audioFile`	file	Объект сгенерированного аудиофайла
`duration`	number	Длительность аудио в секундах
`characterCount`	number	Количество обработанных символов
`format`	string	Аудиоформат
`provider`	string	Используемый провайдер TTS

`tts_playht`

Преобразовать текст в речь с использованием PlayHT (клонирование голоса)

Входные параметры

Параметр	Тип	Обязательный	Описание
`text`	string	Да	Текстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!")
`apiKey`	string	Да	API-ключ PlayHT (заголовок AUTHORIZATION)
`userId`	string	Да	ID пользователя PlayHT (заголовок X-USER-ID)
`voice`	string	Нет	Идентификатор голоса PlayHT или URL манифеста (например, "s3://voice-cloning-zero-shot/...")
`quality`	string	Нет	Уровень качества (draft, standard, premium)
`outputFormat`	string	Нет	Выходной формат (mp3, wav, ogg, flac, mulaw)
`speed`	number	Нет	Множитель скорости речи от 0.5 до 2.0 (например, 0.5 для медленнее, 1.0 для нормальной, 1.5 для быстрее)
`temperature`	number	Нет	Креативность/случайность (0.0 до 2.0)
`voiceGuidance`	number	Нет	Стабильность голоса (1.0 до 6.0)
`textGuidance`	number	Нет	Следование тексту (1.0 до 6.0)
`sampleRate`	number	Нет	Частота дискретизации (8000, 16000, 22050, 24000, 44100, 48000)

Выходные данные

Параметр	Тип	Описание
`audioUrl`	string	URL к сгенерированному аудиофайлу
`audioFile`	file	Объект сгенерированного аудиофайла
`duration`	number	Длительность аудио в секундах
`characterCount`	number	Количество обработанных символов
`format`	string	Аудиоформат
`provider`	string	Используемый провайдер TTS

Text-to-Speech

Инструкции по использованию

Инструменты

`tts_openai`

Входные параметры

Выходные данные

`tts_deepgram`

Входные параметры

Выходные данные

`tts_elevenlabs`

Входные параметры

Выходные данные

`tts_cartesia`

Входные параметры

Выходные данные

`tts_google`

Входные параметры

Выходные данные

`tts_azure`

Входные параметры

Выходные данные

`tts_playht`

Входные параметры

Выходные данные

On this page