ElevenLabs: як створювати реалістичні голоси за допомогою ШІ
Як створювати реалістичні голоси за допомогою ElevenLabs: озвучуйте текст, клонуйте голоси та налаштовуйте емоції 32 мовами.
Що таке ElevenLabs?
ElevenLabs — це інструмент на основі штучного інтелекту, який допомагає створювати голоси, що майже не відрізняються від реальних.
Його головна особливість — природне та емоційне звучання, а також можливість налаштувати тон, стиль і мову.
Що можна робити з ElevenLabs?
- Text To Speech: перетворює текст на мову для подкастів або відеороликів. Ви можете обрати стандартний голос або створити копію свого. Озвучення доступне 32 мовами.
- Voice Changer: дозволяє змінювати тональність готових записів. Можна зробити голос м’якшим або додати більше емоцій.
- Text To Sound Effects: перетворює текст на звукові ефекти, наприклад, створення шуму вітру чи води.
- Voice Cloning: створення копій реальних голосів із максимальною точністю. Для цього потрібен приклад вашого голосу, який потім можна використовувати для озвучення текстів будь-якою мовою.
- Voice Isolator: видаляє фонові шуми, залишаючи лише чистий голос без спотворень.
- Voice Design: створює унікальний голос на основі текстового опису, наприклад, «дорослий чоловік із легким хрипом для аудіокниг».
Я використовую ElevenLabs для створення відео англійською мовою. Записавши 30 хвилин аудіо українською, я можу озвучувати тексти будь-якою мовою своїм голосом без акценту.
Якість мені подобається — приклади можна знайти на сторінці з відео.
Які мови доступні в ElevenLabs?
ElevenLabs підтримує генерацію мовлення 32 мовами, зокрема англійською, іспанською, китайською (мандаринською), французькою та арабською.
Не потрібно окремо обирати мову в налаштуваннях ElevenLabs — просто вставте текст потрібною мовою в текстове поле і натисніть «Generate speech».
Як почати використовувати ElevenLabs?
Щоб почати, створіть акаунт.
Ви можете вибрати безкоштовний план, а потім перейти на платний для доступу до додаткових функцій.
Скільки коштує ElevenLabs?
- Free (Безкоштовний): 10,000 кредитів (≈10 хвилин аудіо на місяць). Підходить для тестування.
- Starter ($4.17/міс): 30,000 кредитів (≈30 хвилин). Додає можливість клонувати голос і комерційну ліцензію.
- Creator ($18.33/міс): 100,000 кредитів (≈100 хвилин). Включає покращену якість звуку і професійне клонування.
- Pro ($82.5/міс): 500,000 кредитів (≈500 хвилин). Максимальна якість (44.1 kHz PCM) і розширені функції.
Є дорожчі тарифи для тих, хто планує генерувати велику кількість аудіо.
Що таке кредити і як вони витрачаються?
Кредити — це внутрішня одиниця, яка використовується в ElevenLabs для розрахунку вартості генерації мовлення.
Витрати кредитів залежать від обраного інструменту і моделі.
Зазвичай 1 кредит відповідає 1 символу тексту.
Приклад:
- Короткий текст (300 символів): ≈ 2 хвилини аудіо, витрата — 300 кредитів.
- Довгий текст (10,000 символів): ≈ 10 хвилин аудіо, витрата — 10,000 кредитів.
Як скасувати підписку на ElevenLabs?
Ви можете легко оновити, знизити або скасувати підписку через налаштування акаунту.
Почніть із безкоштовного плану, щоб зрозуміти, чи підходить вам цей сервіс.
Як додати голос у ElevenLabs?
Перейдіть у «Voices → Add new voice» і виберіть відповідний варіант:
- Voice Design: створіть унікальний голос, описавши його текстовим запитом. Підходить для персонажів або брендів.
- Instant Voice Clone: швидке клонування вашого голосу за допомогою запису на кілька хвилин. Зручно для особистих проєктів і простих завдань.
- Professional Voice Clone: високоточне клонування, для якого потрібно мінімум 30 хвилин аудіо з вашим голосом. Ідеально для комерційних і професійних проєктів.
- Voice Library: виберіть готовий голос із бібліотеки. Доступні варіанти з різними акцентами, віком і стилями для будь-яких завдань.
C Voice Design і Voice Library: усе максимально просто — процес інтуїтивно зрозумілий.
Давайте поговоримо детальніше про клонування голосу.
Я використовую Professional Voice Clone, адже з ним виходить найкраща якість.
Як створити Professional Voice Clone?
Щоб створити професійну копію свого голосу, вам потрібно завантажити аудіозапис, де ви говорите щонайменше 30 хвилин.
Говорити можна будь-якою зручною мовою.
Під час запису я використовував текст, створений ChatGPT. Я пояснив завдання, і він згенерував текст, який допоміг передати різні емоції.
У мене є окрема стаття про те, як почати роботу з ChatGPT.
Перед використанням клонованого голосу необхідно підтвердити, що він належить вам. Для цього ElevenLabs запропонує озвучити текст через браузер.
На поточному етапі професійне клонування доступне лише для вашого власного голосу.
Рекомендації:
- Якісне обладнання: використовуйте хороший мікрофон і записуйте у тихому місці. Чим чистіший запис, тим точніший буде результат. Я використовував Zoom H5.
- Неперервність запису: намагайтеся записувати довгий аудіозапис без частих пауз, щоб зберегти природність.
- Різноманітність фраз: включіть у запис повсякденні, емоційні та інформативні фрази. Це зробить клон голосу більш живим і універсальним.
- Темп мовлення: говоріть плавно, уникаючи занадто швидкого чи повільного темпу. Це покращить якість клонування.
- Перевірка якості: переконайтеся, що у записі немає шумів, еха чи інших перешкод, які можуть погіршити точність.
- Повторні спроби: якщо результат вас не влаштує, спробуйте записати голос ще раз. Кілька дублів допоможуть досягти потрібної якості. Ви можете видалити клон і створити новий.
Для створення професійного клону можна завантажити кілька окремих аудіозаписів.
Після завантаження обробка займе кілька годин, перш ніж голос стане доступним для використання.
Тепер давайте розглянемо налаштування голосу.
Як налаштувати голос в ElevenLabs?
Головне — не бійтеся експериментів.
Напишіть короткий текст із кількох речень і протестуйте різні параметри, щоб обрати оптимальне звучання.
Як обрати модель в ElevenLabs?
В ElevenLabs доступні різні моделі для різних завдань.
Зазвичай я обираю найновішу модель, щоб отримати максимальну якість.
Іноді система може запропонувати дешевшу модель залежно від вибраного голосу.
У мене є відео англійською, в якому я розібрав основні налаштування голосу та моделі ElevenLabs.
Голос у самому відео також було згенеровано за допомогою ElevenLabs.
Що таке Stability?
Цей параметр регулює стабільність і емоційний діапазон голосу.
Як це працює?
- Низькі значення Stability: додають варіативність і виразність, роблячи мову живою та динамічною.
- Високі значення Stability: створюють рівний, монотонний голос, що підходить для формального контенту.
Як використовувати?
- Для емоційних розповідей або діалогів персонажів обирайте низькі значення Stability, щоб передати яскраві емоції.
- Для інструкцій або офіційних матеріалів збільшуйте Stability, щоб голос звучав чітко та послідовно.
- Уникайте занадто низьких значень Stability, щоб запобігти неприродному звучанню.
Що таке Similarity?
Параметр Similarity визначає, наскільки штучно створений голос відповідає оригінальному зразку.
Як це працює?
- Високі значення Similarity: дозволяють AI точно відтворювати оригінальний голос, включаючи нюанси та можливі артефакти запису.
- Низькі значення Similarity: зменшують схожість із оригіналом, але також знижують імовірність артефактів.
Як використовувати?
- Якщо у вас якісний зразок, обирайте високі значення Similarity для максимальної точності.
- Для зразків із фоновим шумом або дефектами знижуйте Similarity, щоб уникнути їх відтворення.
- Використовуйте Similarity разом із параметром Stability для досягнення балансу між автентичністю та якістю.
Що таке Style Exaggeration?
Цей параметр підсилює характерний стиль оригінального голосу, роблячи його більш виразним.
Як це працює?
- Високі значення: підкреслюють унікальні інтонації та особливості голосу, створюючи яскравий і емоційний результат.
- Нульове значення: зберігає нейтральний стиль, точно відображаючи оригінал без акцентів.
Як використовувати?
- Використовуйте високі значення для творчих проєктів, які потребують виразності та емоційності.
- Для професійних завдань залиште параметр на нульовому рівні для стабільності та природності.
- Підвищення Style Exaggeration може вимагати більше ресурсів і вплинути на стабільність мови.
Я зазвичай виставляю Stability на 30%, залишаючи інші параметри на нулі.
Як додати паузи та емоції в ElevenLabs?
Емоційність залежить від обраного голосу.
Якщо ви використовуєте копію власного голосу, важливо, щоб у тестовому записі були різні емоції, інтонації та паузи.
Для прикладів я використовую свою копію голосу.
Як додати паузи?
Паузи можна вставляти за допомогою тега <break time="1s" />, перенесень рядків або знаків пунктуації.
Приклад:
"What’s this?" he wondered, tail flicking with excitement. <break time="1s" /> He ran to Bella, the wise owl – "Bella! I found this key!"
У цьому прикладі <break time="1s" /> додає паузу тривалістю 1 секунду, роблячи мову більш природною.
Поради:
- Для короткої паузи використовуйте перенос фрази на новий рядок або багатокрапку.
- Регулюйте довжину пауз залежно від контексту — це особливо важливо для емоційних або складних текстів.
- Якщо важко налаштувати паузи у великому тексті, розбийте його на частини й озвучуйте окремо.
Як додати емоції?
Хоча ElevenLabs не підтримує команди для емоцій, їх можна імітувати через контекст, пунктуацію та словесні конструкції.
Опис емоцій через текст
Приклад:
"What’s this?" he wondered, tail flicking with excitement.
Використовуйте описові дії та емоції, такі як «he wondered, tail flicking with excitement», щоб допомогти системі передати потрібний тон.
Ще приклади:
"Come closer," she whispered, her voice laced with temptation.
"Why did this happen?" he muttered, his voice thick with sorrow.
"I can’t take this anymore!" she yelled, her face contorted with anger.
"It’s too late now," he whispered, regret hanging in every word.
"I knew this would happen!" she shouted, her voice filled with frustration.
"I’m not sure I can do this," he sighed, uncertainty in his tone.
"You have no idea how much I wanted this," she murmured, a soft yearning in her voice.
"Don’t you dare!" he growled, his voice low and threatening.
"I’m so sorry," she said, almost a whisper, her voice trembling with guilt.
"This is exactly what I needed," he said, a satisfied grin on his face.
Пам'ятайте, що опис, наприклад, «he wondered, tail flicking with excitement», також буде озвучений.
Такі фрагменти можна вирізати згодом.
Було б чудово, якби текст можна було позначати емоціями так само, як виділяють курсивом або жирним. Можливо, така функція з'явиться в майбутньому.
Пунктуація для інтонації
- Крапки «.»: додають стриманості й завершеності.
- Багатокрапка «...»: передає задумливість або невпевненість.
- Знаки оклику «!»: додають енергії чи хвилювання.
Практичні поради
- Короткі фрази для акцентів: «I'm in! - he shouted».
- Чергування довгих і коротких речень: створює ритм і додає динаміки.
- Використання капса для акцентів: «I FOUND THE KEY! - he exclaimed». Це допомагає передати емоції, такі як здивування або збудження.
Структура тексту, правильний вибір слів і налаштування в ElevenLabs допомагають зробити мову виразною й емоційною.
Як автоматизувати роботу з ElevenLabs?
ElevenLabs легко інтегрується з різними сервісами, що дозволяє автоматизувати процеси та розширити можливості.
ChatGPT
ChatGPT ідеально підходить для генерації сценаріїв, які можна озвучувати через ElevenLabs.
Наприклад, я використовую ElevenLabs для озвучки коротких відео на YouTube.
Завдяки ChatGPT я генерую ідеї для контенту, пишу тексти для озвучення та створюю промпти для MidJourney — усе це в один клік.
Приклади я показував у статті про те, що таке штучний інтелект.
Make
Make.com дозволяє автоматизувати створення та управління контентом.
Приклади:
- Перетворення тексту в аудіо: ви пишете текст у Google Docs або завантажуєте файл. Make відправляє його в ElevenLabs, а готовий файл зберігає у Google Drive або надсилає на пошту.
- Генерація контенту для соцмереж: Make бере дані з таблиці та створює аудіо, яке автоматично публікується на YouTube, TikTok або Instagram.
- Переклад і озвучка: Make перекладає текст потрібною мовою, після чого ElevenLabs створює аудіо.
Детальніше про те, як створювати автоматизації в Make.
API
API ElevenLabs дозволяє інтегрувати генерацію мови у ваш додаток або сайт.
Можливості API:
- Перетворення тексту на мову.
- Налаштування голосу, стилю та параметрів.
- Завантаження користувацьких голосів.
Які альтернативи ElevenLabs?
Серед популярних генераторів голосу є ще Speechify та Play.ht.
- Speechify: може підійти для природного озвучення текстів.
- Play.ht: вирізняється простотою використання та гнучкими тарифами.
Чому ElevenLabs краще?
- Емоційна гнучкість: дозволяє налаштувати голос під будь-який настрій.
- Клонування голосів: створює унікальне й реалістичне звучання.
- Тонке налаштування стилю: забезпечує персоналізацію й високу якість.
Завдяки своїм функціям ElevenLabs чудово підходить для різноманітних завдань — від створення подкастів і відео до професійного аудіоконтенту.
Я активно досліджую можливості ElevenLabs для роботи над подкастами та розвитку свого Patreon.
Як тільки розберуся з усіма нюансами, обов’язково оновлю статтю з новими деталями.
Висновок
ElevenLabs робить створення озвучення простим і захопливим.
Спробуйте: налаштуйте голос, додайте емоції й оцініть можливості. Ви зрозумієте, чи підходить ElevenLabs для ваших завдань.
На Patreon я розповідаю про свої експерименти, ідеї та закулісні процеси. Досліджую нові підходи в різних медіа та мовах, занурююся в AI-інструменти й ділюся корисними порадами та знахідками (контент англійською).