AACFlow

Text-to-Speech

Преобразование текста в речь с использованием AI-голосов

Преобразуйте текст в естественно звучащую речь с использованием новейших AI-голосов. Инструменты Text-to-Speech (TTS) в AACFlow позволяют генерировать аудио из письменного текста на десятках языков с выбором выразительных голосов, форматов и расширенными настройками, такими как скорость, стиль, эмоции и многое другое.

Поддерживаемые провайдеры и модели:

  • OpenAI Text-to-Speech (OpenAI):
    TTS API от OpenAI предлагает сверхреалистичные голоса с использованием продвинутых AI-моделей, таких как tts-1, tts-1-hd и gpt-4o-mini-tts. Голоса включают как мужские, так и женские, с такими вариантами, как alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage и verse. Поддерживает несколько аудиоформатов (mp3, opus, aac, flac, wav, pcm), регулируемую скорость и потоковый синтез.

  • Deepgram Aura (Deepgram Inc.):
    Aura от Deepgram предоставляет выразительные английские и многоязычные AI-голоса, оптимизированные для разборчивости в разговорах, низкой задержки и кастомизации. Доступны модели, такие как aura-asteria-en, aura-luna-en и другие. Поддерживает несколько форматов кодирования (linear16, mp3, opus, aac, flac) и тонкую настройку скорости, частоты дискретизации и стиля.

  • ElevenLabs Text-to-Speech (ElevenLabs):
    ElevenLabs лидирует в создании реалистичного, эмоционально насыщенного TTS, предлагая десятки голосов на 29+ языках и возможность клонирования пользовательских голосов. Модели поддерживают дизайн голоса, синтез речи и прямой доступ к API с расширенными настройками стиля, эмоций, стабильности и схожести. Подходит для аудиокниг, создания контента, доступности и многого другого.

  • Cartesia TTS (Cartesia):
    Cartesia предлагает высококачественный, быстрый и безопасный text-to-speech с акцентом на приватность и гибкое развёртывание. Предоставляет мгновенную потоковую передачу, синтез в реальном времени и поддерживает множество международных голосов и акцентов, доступных через простой API.

  • Google Cloud Text-to-Speech (Google Cloud):
    Google использует модели DeepMind WaveNet и Neural2 для обеспечения высококачественных голосов на 50+ языках и вариантах. Функции включают выбор голоса, высоту тона, скорость речи, контроль громкости, теги SSML и доступ как к стандартным, так и к студийным премиум-голосам. Широко используется для доступности, IVR и медиа.

  • Microsoft Azure Speech (Microsoft Azure):
    Azure предоставляет более 400 нейронных голосов на 140+ языках и локалях с уникальной кастомизацией голоса, стилем, эмоциями, ролью и контролем в реальном времени. Предлагает поддержку SSML для произношения, интонации и многого другого. Идеально подходит для глобальных, корпоративных или творческих потребностей TTS.

  • PlayHT (PlayHT):
    PlayHT специализируется на реалистичном синтезе голоса, клонировании голоса и мгновенном потоковом воспроизведении с 800+ голосами на более чем 100 языках. Функции включают эмоции, контроль высоты тона и скорости, многоголосое аудио и создание пользовательских голосов через API или онлайн-студию.

Как выбрать:
Выберите вашего провайдера и модель, отдавая приоритет языкам, поддерживаемым типам голосов, желаемым форматам (mp3, wav и т.д.), детализации контроля (скорость, эмоции и т.д.) и специализированным функциям (клонирование голоса, акцент, потоковая передача). Для творческих, доступных или разработческих случаев использования убедитесь в совместимости с требованиями вашего приложения и сравните стоимость.

Посетите официальный сайт каждого провайдера для получения актуальных возможностей, цен и деталей документации!

Инструкции по использованию

Генерируйте естественно звучащую речь из текста с использованием современных AI-голосов от OpenAI, Deepgram, ElevenLabs, Cartesia, Google Cloud, Azure и PlayHT. Поддерживает множество голосов, языков и аудиоформатов.

Инструменты

tts_openai

Преобразовать текст в речь с использованием моделей TTS от OpenAI

Входные параметры

ПараметрТипОбязательныйОписание
textstringДаТекстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!")
apiKeystringДаAPI-ключ OpenAI
modelstringНетИдентификатор модели TTS OpenAI (например, "tts-1", "tts-1-hd", "gpt-4o-mini-tts")
voicestringНетИдентификатор голоса OpenAI (например, "alloy", "ash", "ballad", "coral", "echo", "sage", "shimmer")
responseFormatstringНетАудиоформат (mp3, opus, aac, flac, wav, pcm)
speednumberНетМножитель скорости речи от 0.25 до 4.0 (например, 0.5 для медленнее, 1.0 для нормальной, 2.0 для быстрее)

Выходные данные

ПараметрТипОписание
audioUrlstringURL к сгенерированному аудиофайлу
audioFilefileОбъект сгенерированного аудиофайла
durationnumberДлительность аудио в секундах
characterCountnumberКоличество обработанных символов
formatstringАудиоформат
providerstringИспользуемый провайдер TTS

tts_deepgram

Преобразовать текст в речь с использованием Deepgram Aura

Входные параметры

ПараметрТипОбязательныйОписание
textstringДаТекстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!")
apiKeystringДаAPI-ключ Deepgram
modelstringНетИдентификатор модели/голоса Deepgram (например, "aura-asteria-en", "aura-luna-en", "aura-2-luna-en")
voicestringНетИдентификатор голоса Deepgram, альтернатива параметру model (например, "aura-asteria-en", "aura-orion-en")
encodingstringНетКодирование аудио (linear16, mp3, opus, aac, flac)
sampleRatenumberНетЧастота дискретизации (8000, 16000, 24000, 48000)
bitRatenumberНетБитрейт для сжатых форматов
containerstringНетФормат контейнера (none, wav, ogg)

Выходные данные

ПараметрТипОписание
audioUrlstringURL к сгенерированному аудиофайлу
audioFilefileОбъект сгенерированного аудиофайла
durationnumberДлительность аудио в секундах
characterCountnumberКоличество обработанных символов
formatstringАудиоформат
providerstringИспользуемый провайдер TTS

tts_elevenlabs

Преобразовать текст в речь с использованием голосов ElevenLabs

Входные параметры

ПараметрТипОбязательныйОписание
textstringДаТекстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!")
voiceIdstringДаИдентификатор голоса ElevenLabs (например, "21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld")
apiKeystringДаAPI-ключ ElevenLabs
modelIdstringНетИдентификатор модели ElevenLabs (например, "eleven_turbo_v2_5", "eleven_flash_v2_5", "eleven_multilingual_v2")
stabilitynumberНетСтабильность голоса (0.0 до 1.0, по умолчанию: 0.5)
similarityBoostnumberНетУсиление схожести (0.0 до 1.0, по умолчанию: 0.8)
stylenumberНетПреувеличение стиля (0.0 до 1.0)
useSpeakerBoostbooleanНетИспользовать усиление говорящего (по умолчанию: true)

Выходные данные

ПараметрТипОписание
audioUrlstringURL к сгенерированному аудиофайлу
audioFilefileОбъект сгенерированного аудиофайла
durationnumberДлительность аудио в секундах
characterCountnumberКоличество обработанных символов
formatstringАудиоформат
providerstringИспользуемый провайдер TTS

tts_cartesia

Преобразовать текст в речь с использованием Cartesia Sonic (ультранизкая задержка)

Входные параметры

ПараметрТипОбязательныйОписание
textstringДаТекстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!")
apiKeystringДаAPI-ключ Cartesia
modelIdstringНетИдентификатор модели Cartesia (например, "sonic", "sonic-2", "sonic-3", "sonic-multilingual")
voicestringНетИдентификатор голоса или эмбеддинг Cartesia (например, "a0e99841-438c-4a64-b679-ae501e7d6091")
languagestringНетКод языка для синтеза речи (например, "en", "es", "fr", "de", "it", "pt")
outputFormatjsonНетКонфигурация выходного формата (container, encoding, sampleRate)
speednumberНетМножитель скорости речи (например, 0.5 для медленнее, 1.0 для нормальной, 2.0 для быстрее)
emotionarrayНетТеги эмоций для Sonic-3 (например, ['positivity:high'])

Выходные данные

ПараметрТипОписание
audioUrlstringURL к сгенерированному аудиофайлу
audioFilefileОбъект сгенерированного аудиофайла
durationnumberДлительность аудио в секундах
characterCountnumberКоличество обработанных символов
formatstringАудиоформат
providerstringИспользуемый провайдер TTS

tts_google

Преобразовать текст в речь с использованием Google Cloud Text-to-Speech

Входные параметры

ПараметрТипОбязательныйОписание
textstringДаТекстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!")
apiKeystringДаAPI-ключ Google Cloud
voiceIdstringНетИдентификатор голоса Google Cloud (например, "en-US-Neural2-A", "en-US-Wavenet-D", "en-GB-Neural2-B")
languageCodestringДаКод языка BCP-47 для синтеза речи (например, "en-US", "es-ES", "fr-FR", "de-DE")
genderstringНетПол голоса (MALE, FEMALE, NEUTRAL)
audioEncodingstringНетКодирование аудио (LINEAR16, MP3, OGG_OPUS, MULAW, ALAW)
speakingRatenumberНетМножитель скорости речи от 0.25 до 2.0 (например, 0.5 для медленнее, 1.0 для нормальной, 1.5 для быстрее)
pitchnumberНетВысота голоса (-20.0 до 20.0, по умолчанию: 0.0)
volumeGainDbnumberНетУсиление громкости в дБ (-96.0 до 16.0)
sampleRateHertznumberНетЧастота дискретизации в Гц
effectsProfileIdarrayНетПрофиль эффектов (например, ['headphone-class-device'])

Выходные данные

ПараметрТипОписание
audioUrlstringURL к сгенерированному аудиофайлу
audioFilefileОбъект сгенерированного аудиофайла
durationnumberДлительность аудио в секундах
characterCountnumberКоличество обработанных символов
formatstringАудиоформат
providerstringИспользуемый провайдер TTS

tts_azure

Преобразовать текст в речь с использованием Azure Cognitive Services

Входные параметры

ПараметрТипОбязательныйОписание
textstringДаТекстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!")
apiKeystringДаAPI-ключ Azure Speech Services
voiceIdstringНетИдентификатор голоса Azure (например, "en-US-JennyNeural", "en-US-GuyNeural", "en-GB-SoniaNeural")
regionstringНетРегион Azure (например, eastus, westus, westeurope)
outputFormatstringНетВыходной аудиоформат
ratestringНетСкорость речи (например, +10%, -20%, 1.5)
pitchstringНетВысота голоса (например, +5Hz, -2st, low)
stylestringНетСтиль речи (например, cheerful, sad, angry - только нейронные голоса)
styleDegreenumberНетИнтенсивность стиля (0.01 до 2.0)
rolestringНетРоль (например, Girl, Boy, YoungAdultFemale)

Выходные данные

ПараметрТипОписание
audioUrlstringURL к сгенерированному аудиофайлу
audioFilefileОбъект сгенерированного аудиофайла
durationnumberДлительность аудио в секундах
characterCountnumberКоличество обработанных символов
formatstringАудиоформат
providerstringИспользуемый провайдер TTS

tts_playht

Преобразовать текст в речь с использованием PlayHT (клонирование голоса)

Входные параметры

ПараметрТипОбязательныйОписание
textstringДаТекстовое содержимое для преобразования в речь (например, "Hello, welcome to our service!")
apiKeystringДаAPI-ключ PlayHT (заголовок AUTHORIZATION)
userIdstringДаID пользователя PlayHT (заголовок X-USER-ID)
voicestringНетИдентификатор голоса PlayHT или URL манифеста (например, "s3://voice-cloning-zero-shot/...")
qualitystringНетУровень качества (draft, standard, premium)
outputFormatstringНетВыходной формат (mp3, wav, ogg, flac, mulaw)
speednumberНетМножитель скорости речи от 0.5 до 2.0 (например, 0.5 для медленнее, 1.0 для нормальной, 1.5 для быстрее)
temperaturenumberНетКреативность/случайность (0.0 до 2.0)
voiceGuidancenumberНетСтабильность голоса (1.0 до 6.0)
textGuidancenumberНетСледование тексту (1.0 до 6.0)
sampleRatenumberНетЧастота дискретизации (8000, 16000, 22050, 24000, 44100, 48000)

Выходные данные

ПараметрТипОписание
audioUrlstringURL к сгенерированному аудиофайлу
audioFilefileОбъект сгенерированного аудиофайла
durationnumberДлительность аудио в секундах
characterCountnumberКоличество обработанных символов
formatstringАудиоформат
providerstringИспользуемый провайдер TTS

On this page

Начните создавать сегодня
Нам доверяют более 100 000 разработчиков.
SaaS-платформа для создания AI-агентов и управления агентным workforce.
Начать