ElevenLabs: как создавать реалистичные голоса с помощью ИИ

Как создавать реалистичные голоса с помощью ElevenLabs: преобразовывать текст в речь, клонировать голоса и настраивать эмоции на 32 языках.

ElevenLabs: как создавать реалистичные голоса с помощью ИИ
/
Создание
/
ИИ
Иконка: Время чтения
Время чтения:
7 минут
Иконка: Обновлено
Обновлено:
7.1.2025

Что такое ElevenLabs?

ElevenLabs — это ИИ–инструмент, который помогает создавать голоса, практически неотличимые от настоящих.

Его главная особенность — естественное и эмоциональное звучание, а также возможность настроить тон, стиль и язык.

Что можно делать с ElevenLabs?

  1. Text To Speech: преобразует текст в речь для подкастов или видеороликов. Вы можете выбрать стандартный голос или создать копию своего. Озвучка доступна на 32 языках.
  2. Voice Changer: позволяет изменять тональность готовых записей. Можно сделать голос мягче или добавить больше эмоций.
  3. Text To Sound Effects: превращает текст в звуковые эффекты, например, можно создать шум ветра или воды. 
  4. Voice Cloning: создание копий настоящих голосов с максимальной точностью. Для создания копии нужно будет записать пример вашего голоса, а затем  его можно будет использовать для озвучки текстов на любом языке.
  5. Voice Isolator: удаляет фоновые шумы, оставляя только чистый голос без искажений.
  6. Voice Design: на основе текстового описания можно создать уникальный голос под ваши задачи, например, «взрослый мужчина с легким хрипом для аудиокниг».
Я использую ElevenLabs для создания видео на английском. Записав 30 минут аудио на украинском, я могу озвучивать тексты на любом языке своим голосом без акцента.

Качество мне нравится — примеры можно найти на странице с видео.

Какие языки доступны в ElevenLabs?

ElevenLabs поддерживает генерацию речи на 32 языках, включая английский, испанский, китайский (мандаринский), французский и арабский.

Список поддерживаемых языков в ElevenLabs для текстов и озвучки

Вам не нужно отдельно выбирать язык в настройках ElevenLabs — просто вставьте текст на нужном языке в текстовое поле и нажмите «Generate speech».

Интерфейс генерации речи из текста в ElevenLabs

Как начать использовать ElevenLabs?

Чтобы начать, создайте аккаунт.

Вы можете выбрать бесплатный план, а потом перейти на платный для доступа к дополнительным функциям.

Сколько стоит ElevenLabs?

  1. Free (Бесплатный): 10,000 кредитов (≈10 минут аудио в месяц). Подходит для тестирования.
  2. Starter ($4.17/мес): 30,000 кредитов (≈30 минут). Добавляет возможность клонировать голос и коммерческую лицензию.
  3. Creator ($18.33/мес): 100,000 кредитов (≈100 минут). Включает улучшенное качество звука и профессиональное клонирование.
  4. Pro ($82.5/мес): 500,000 кредитов (≈500 минут). Максимальное качество (44.1 kHz PCM) и расширенные функции.

Есть более дорогие тарифы для тех, кто планирует генерировать большое количество аудио.

Тарифные планы ElevenLabs: бесплатный, Starter, Creator, Pro и их особенности

Что такое кредиты и как они расходуются?

Кредиты — это внутренняя единица, используемая в ElevenLabs для расчета стоимости генерации речи.

Расход кредитов зависит от выбранного инструмента и модели.

Система расчета кредитов и доступные символы для генерации речи в ElevenLabs

Обычно 1 кредит соответствует 1 символу текста.

Пример:

  1. Короткий текст (300 символов): ≈ 2 минуты аудио, расход — 300 кредитов.
  2. Длинный текст (10,000 символов): ≈ 10 минут аудио, расход — 10,000 кредитов.

Как отменить подписку на ElevenLabs?

Вы можете легко обновить, понизить или отменить подписку через настройки аккаунта.

Начните с бесплатного плана, чтобы понять, подходит ли вам этот сервис.

После создания аккаунта вы сможете выбрать нужный инструмент, настроить голос и сгенерировать речь.

Как добавить голос в ElevenLabs?

Перейдите в «Voices → Add new voice» и выберите подходящий вариант:

  1. Voice Design: создайте уникальный голос, описав его текстовым запросом. Подходит для персонажей или брендов.
  2. Instant Voice Clone: быстрое клонирование вашего голоса с помощью записи на несколько минут. Удобно для личных проектов и простых задач.
  3. Professional Voice Clone: высокоточное клонирование, для которого нужно минимум 30 минут аудио с вашим голосом. Идеально для коммерческих и профессиональных проектов, где требуется реалистичность и стабильность.
  4. Voice Library: выберите готовый голос из библиотеки. Доступны варианты с разными акцентами, возрастами и стилями для любых задач.
Опции добавления нового голоса в ElevenLabs: Voice Design, Instant Voice Clone, Professional Voice Clone, Voice Library

С Voice Design и Voice Library все максимально просто — процесс интуитивно понятен.

Давайте поговорим подробнее про клонирование голоса.

Я использую Professional Voice Clone так как с ним получается лучшее качество.

Как сделать Professional Voice Clone?

Чтобы сделать профессиональную копию своего голоса, вам потребуется загрузить аудио, где вы говорите не менее 30 минут.

Говорить вы можете на любом удобном языке.

Во время записи я использовал текст, созданный ChatGPT. Я объяснил задачу, и он сгенерировал текст, который помог передать разные эмоции. 

У меня есть отдельная статья о том, как начать работу с ChatGPT.

Перед использованием клонированного голоса необходимо подтвердить, что он принадлежит вам. Для этого ElevenLabs предложит вам озвучить текст через браузер.

На текущем этапе профессиональное клонирование доступно только для вашего собственного голоса.

Рекомендации:

  1. Качественное оборудование: используйте хороший микрофон и записывайте в тихом месте. Чем чище запись, тем точнее будет результат. Я использовал Zoom H5.
  2. Непрерывность записи: старайтесь записывать длинное аудио без частых пауз, чтобы сохранить естественность.
  3. Разнообразие фраз: включите в запись повседневные, эмоциональные и информативные фразы. Это сделает клон голоса более живым и универсальным.
  4. Темп речи: говорите плавно, избегая слишком быстрого или медленного темпа. Это улучшит качество клонирования.
  5. Проверка качества: убедитесь, что на записи нет шумов, эха или других помех, которые могут ухудшить точность.
  6. Повторные попытки: если результат вас не устроит, попробуйте записать голос еще раз. Несколько дублей помогут достичь нужного качества. Вы можете удалить клон и создать новый.

Для создания профессионального клона можно загрузить несколько отдельных аудиозаписей.

После загрузки обработка займет несколько часов, прежде чем голос станет доступен для использования.

Теперь давайте рассмотрим настройки голоса.

Как настроить голос в ElevenLabs?

Главное — не бойтесь экспериментов.

Напишите короткий текст из пары предложений и протестируйте разные параметры, чтобы подобрать подходящее звучание.

Настройки голосов ElevenLabs: выбор модели, параметры стабильности и стиля

Как выбрать модель в ElevenLabs?

В ElevenLabs доступны разные модели для разных задач.

Обычно я выбираю самую новую, чтобы получить максимальное качество.

Иногда система может порекомендовать более дешевую модель в зависимости от выбранного голоса.

У меня есть видео на английском, в котором я разобрал основные настройки голоса и модели ElevenLabs.

Голос в самом видео также был сгенерирован с помощью ElevenLabs.

Что такое Stability?

Этот параметр регулирует стабильность и эмоциональный диапазон голоса.

Как это работает?

  1. Низкие значения Stability: добавляют вариативность и выразительность, делая речь более живой и динамичной.
  2. Высокие значения Stability: создают ровный, монотонный голос, который подходит для формального контента.

Как использовать?

  • Для эмоциональных рассказов или диалогов персонажей выбирайте низкие значения Stability, чтобы передать яркие эмоции.
  • Для инструкций или официальных материалов увеличивайте Stability, чтобы голос звучал четко и последовательно.
  • Избегайте слишком низких значений Stability, чтобы не допустить неестественного звучания.

Что такое Similarity?

Параметр Similarity регулирует степень соответствия AI-генерируемого голоса оригинальному образцу.

Как это работает?

  1. Высокие значения Similarity: заставляют AI точно воспроизводить оригинальный голос, включая нюансы и возможные артефакты записи.
  2. Низкие значения Similarity: позволяют отойти от оригинала, уменьшая артефакты, но снижая сходство с исходным голосом.

Как использовать?

  • Если у вас качественный образец, выбирайте высокие значения Similarity для максимальной точности.
  • Для образцов с фоновым шумом или другими дефектами снижайте Similarity, чтобы избежать их воспроизведения.
  • Используйте Similarity в сочетании с параметром Stability, чтобы достичь оптимального баланса между аутентичностью и четкостью.

Что такое Style Exaggeration?

Этот параметр усиливает характерный стиль речи оригинального голоса, делая его более выразительным.

Как это работает?

  1. Высокие значения подчеркивают уникальные интонации и особенности оригинального голоса, создавая яркий и эмоциональный результат.
  2. Нулевое значение сохраняет нейтральный стиль, максимально точно отражая оригинал без дополнительных акцентов.

Как использовать?

  • Используйте высокие значения для творческих проектов, где требуется выразительная и эмоциональная подача.
  • Для профессиональных или повествовательных задач оставьте параметр на нуле для стабильности и естественности.
  • Увеличение Style Exaggeration может потребовать больше ресурсов и снизить стабильность речи.
Обычно я ставлю Stability на 30%, а остальные параметры оставляю на нуле.

Как добавить паузы и эмоции в ElevenLabs?

Эмоциональность зависит от выбранного голоса.

Если вы используете копию своего голоса, важно, чтобы в тестовой записи присутствовали различные эмоции, интонации и паузы.

Для примеров я использую свою копию голоса.

Как добавить паузы?

Паузы можно вставить с помощью тега <break time="1s" />, переносов строки или знаков пунктуации.

Пример:

"What’s this?" he wondered, tail flicking with excitement. <break time="1s" /> He ran to Bella, the wise owl – "Bella! I found this key!"

В этом примере <break time="1s" /> добавляет паузу длительностью 1 секунды, что делает речь более естественной.

Советы:

  • Для короткой паузы используйте перенос фразы на новую строку или многоточие.
  • Регулируйте длину паузы в зависимости от контекста — это особенно важно для эмоциональных или сложных текстов.
  • Если нужные паузы сложно настроить в большом тексте, разбейте его на части и озвучьте по отдельности.

Как добавить эмоции?

Хотя ElevenLabs не поддерживает команды для эмоций, их можно имитировать через контекст, пунктуацию и словесные конструкции.

Описание эмоций через текст

Пример:

"What’s this?" he wondered, tail flicking with excitement.

Используйте описания действий и эмоций, таких как «he wondered, tail flicking with excitement», чтобы подсказать системе нужный эмоциональный тон.

Еще примеры промптов для разных эмоций:

"Come closer," she whispered, her voice laced with temptation.

"Why did this happen?" he muttered, his voice thick with sorrow.

"I can’t take this anymore!" she yelled, her face contorted with anger.

"It’s too late now," he whispered, regret hanging in every word.

"I knew this would happen!" she shouted, her voice filled with frustration.

"I’m not sure I can do this," he sighed, uncertainty in his tone.

"You have no idea how much I wanted this," she murmured, a soft yearning in her voice.

"Don’t you dare!" he growled, his voice low and threatening.

"I’m so sorry," she said, almost a whisper, her voice trembling with guilt.

"This is exactly what I needed," he said, a satisfied grin on his face.

Учтите, что описание эмоций, например «he whispered», также будет озвучено.

Это не очень удобно, но такие фрагменты можно потом вырезать.

Было бы классно, если бы текст можно было размечать эмоциями, как выделяют курсивом или жирным. Возможно, такая функция появится в будущем.

Пунктуация для интонации

  1. Точки «.»: добавляют сдержанность и финальность.
  2. Многоточие «...»: передает задумчивость или нерешительность.
  3. Восклицательные знаки «!»: добавляют энергию или возбуждение.

Практические советы

  1. Короткие фразы для акцентов: «I’m in! – he shouted».
  2. Чередование длинных и коротких предложений: создает ритм и добавляет динамику.
  3. Использование капса для акцентов: «I FOUND THE KEY! – he exclaimed». Это помогает передать эмоции, такие как удивление или возбуждение.

Структура текста, правильный выбор слов и настройки в ElevenLabs помогают сделать речь выразительной и эмоциональной.

Как автоматизировать работу с ElevenLabs?

ElevenLabs легко интегрируется с разными сервисами, что позволяет автоматизировать процессы и расширить возможности.

ChatGPT

ChatGPT отлично подходит для генерации сценариев, которые можно озвучивать через ElevenLabs.

Например, я использую ElevenLabs для озвучки коротких видео на YouTube.

С помощью кастомного ChatGPT я генерирую идеи для контента, пишу тексты для озвучки и создаю промпты для MidJourney — все это в один клик.

Примеры я показывал в статье о том, что такое искусственный интеллект.

Make

Make.com позволяет настроить автоматизации, которые упрощают создание и управление контентом.

Вот несколько примеров:

  1. Создание аудио из текстов в один клик: вы пишете текст в Google Docs или загружаете файл. Make отправляет его в ElevenLabs, где текст превращается в аудио, а готовый файл сохраняется в Google Drive или отправляется на почту.
  2. Генерация контента для социальных сетей: Make берет данные из таблицы, например заголовки и описания, и генерирует аудиофайлы через ElevenLabs. Затем аудио автоматически объединяется с видео и публикуется на YouTube, TikTok или Instagram с помощью Canva или других инструментов.
  3. Перевод и озвучка на нескольких языках: Make отправляет текст в переводчик, например Google Translate или ChatGPT, переводит его на нужный язык и передает в ElevenLabs для создания аудио. Готовые файлы загружаются в облако или отправляются клиентам.

Подробнее о том, как создавать автоматизации в Make.

API

API ElevenLabs позволяет интегрировать генерацию речи в ваше приложение или сайт.

Возможности API:

  1. Преобразование текста в речь.
  2. Настройка голоса, стиля и параметров.
  3. Загрузка пользовательских голосов.

Какие альтернативы ElevenLabs?

Среди популярных генераторов голосов можно выделить Speechify и Play.ht.

Speechify неплохо справляется с естественной озвучкой текстов, а Play.ht выделяется простотой использования и гибкими тарифами.

Почему ElevenLabs лучше?

  1. Эмоциональная гибкость: позволяет настроить голос под нужное настроение.
  2. Клонирование голосов: помогает создавать уникальное и реалистичное звучание.
  3. Тонкая настройка стиля: дает возможность добиться персонализированного и высокого качества.

Благодаря своим функциям ElevenLabs отлично подходит для самых разных задач — от создания подкастов и видео до профессионального аудиоконтента.

Я активно исследую возможности ElevenLabs для работы над подкастами и развития своего Patreon.

Как только разберусь со всеми нюансами, обязательно обновлю статью новыми деталями.

Заключение

ElevenLabs делает создание озвучки простым и интересным.

Попробуйте его в деле: настройте голос, добавьте эмоции и оцените возможности. Это поможет понять, подходит ли ElevenLabs для ваших задач.
Логотип: Patreon

На Patreon я рассказываю о своих экспериментах, идеях и закулисных процессах. Исследую новые подходы в разных медиа и языках, активно работаю с AI-инструментами и делюсь полезными советами и находками (контент на английском).

7 дней бесплатно →
Еще
Иконка: Подробнее