Top.Mail.Ru

Эмулятор голоса, как часть искусственного интеллекта

Эмулятор голоса – это когда человеческая речь воспроизводится с помощью специализированной программы. Как правило такие программы для синтезирования речи используют нейронные сети, обучаемые в процессе программирования.

Имитация человеческого голоса с одной стороны требует не сильно сложного программное обеспечение, но это не убавляет значимости и вариаций использования имитатора голоса. Приведем лишь несколько примеров, где может использоваться синтезированная человеческая речь:

  • можно озвучить любимую аудио книгу голосом любимого актера;
  • можно «читать» книги своему ребенку, когда вас нет рядом;
  • эмулятор голоса может быть использован, чтобы воспроизводить речь инвалидов, которые самостоятельно этого не могут сделать.
  • и др.

Когда-то, лет 25 назад имитация голоса — казалась неведомой игрушкой и мечтой, которая на тот момент была неосуществимой. Ведь как хотелось говорить другими голосами. Теперь же нас сплошь и рядом окружают синтезаторы человеческой речи. На данный момент самым ярким представителем является разработка компании Lyrebird. Этот эмулятор голоса генерирует больше 1000 предложений в секунду, а это на порядок выше чем существующую аналоги. Плюс это позволяет сымитировать практически любой голос.

Искусственный интеллект — технология имитации голоса

Развитие искусственного интеллекта идет очень стремительно. Рано или поздно ИИ проникнет во многие сферы человеческой деятельности. Первыми в имитации человеческой речи его начали использовать разработчики Lyrebird. Именно они стали применять нейронную сеть, которая обучаясь, стала более точно имитировать речь людей, анализируя саму речь и представленные записи речи как в аудио, так и в виде текста.

Там где искусственный интеллект слабо используется в синтезе речи, возникает ощущение именно компьютерного голоса, а не человеческого. Яркими представителями являются голосовые помощники:

  • Siri у Apple;
  • Alexa у Amazon;
  • Алиса у Яндекса;
  • Google Assistant;
  • и др.

У вышеупомянутых систем, хоть они и используют искусственный интеллект для имитации голоса, принцип воспроизведения речи построен на том, что в программе есть только один или максимум несколько голосов. То есть эти голосовые помощники собирают слова и фразы для воспроизведения из ранее уже записанных файлов одного или нескольких конкретных голосов. Они не могут зазвучать любым голосом. А для того, чтобы все-таки зазвучал другой голос, нужно будет записывать новые аудио файлы, которые должны содержать все возможные слова для поддержки общения.

Почитать как Искусственный интеллект от Гугл угадывает рисунок

Эмулятор голоса Lyrebird

Имитация голоса в системе Lyrebird происходит несколько по-другому сценарию, чем у других. Здесь искусственный интеллект обучен таким образом, что он может воспроизводить речь практически любым голосом. Достигается это путем многочасового прослушивания огромного количества аудиозаписей. Именно «оттуда» имитатор голоса черпает новые предложения, новые слова, интонации, эмоции и т.д. И из полученных данных генерирует речь. Данная нейронная сеть постоянно глубоко обучается, а из прослушиваемых файлов она генерирует закономерности построения речи, достигая совершенства. По своему принципу работы у нее есть схожесть с функционированием человеческого мозга.

Потом, после обучения, имитатор голоса Lyrebird, понимает как генерируется речь и ищет возможность адаптироваться под любой голос. Для адаптации ей достаточно прослушать минутный аудио фрагмент желанного голоса. Этого достаточно, чтобы «уловить» основу и алгоритмы построения любого голоса.

Разработчики Lyrebird заметили интересную вещь, что с каждой новой речью система «изучает» и начинает говорить новым голосом быстрее. Это происходит потому, что в большинстве своем алгоритмы построения разных голосов схожи. Все как у людей, выучив один иностранный язык, следующий дается быстрее, а третий еще быстрее и т.д.

Конечно говорить о полной естественности речи системы Lyrebird еще рано. Хоть она и способна имитировать разные человеческие голоса, но от наличия «роботизированности» речи полностью уйти не удалось. Есть ряд недочетов, над которыми нужно еще поработать, например это:

  • использование звуков дыхания человека(вдох/выдох);
  • использование движения человеческого рта(чмоканье, прикус и т.д).

Это все естественно для обычной человеческой речи, поэтому мы «на слух» этого не замечаем. Однако отсутствие этих «мелочей» в синтезированной речи сразу становится заметным. По словам разработчиков Lyrebird эти недостатки удастся исправить в ближайшие несколько лет, и только потом можно будет с точностью имитировать человеческую речь.

Эмулятор голоса — это все-таки не просто игрушка

Имитатор голоса — это безусловно полезное программное обеспечение, если его использовать правильно. Однако имитация голоса может принести определенные проблемы в некоторых моментах. Потому что, даже имея недостатки упомянутые выше, в большинстве своем неподготовленные и не подозревающие «человеческие» уши не способны различить разницу в аудио или видео записи человеческого голоса и имитирующего его машинного. Это может принести ряд проблем:

  • может быть сбита с толку система голосовой проверки;
  • может быть сбита с толку судебная система, в делах где применяется в качестве доказательства аудио или видео записи;
  • личная безопасность может быть нарушена, ведь практически в записи можно «заговорить» голосом любого человека;
  • данная технология позволяет управлять звуком в режиме реального времени, поэтому можно ставить под сомнения достоверность даже «прямых»» новостных эфиров.

Определить, что звук подделан возможно. Но учитывая возможный объем и важность информации это не всегда будет возможным.

Менее глобальной проблемой, но тоже может быть то, что некоторые люди, использующие имитацию голоса например в своем смартфоне могут «сдружиться» с таким помощником и принимать от него советы. Это возможно, потому что в принципе, люди больше доверяют «знакомому» голосу, чем написанному тексту.

Заключение

В заключение хочется сказать, что эмулятор голоса — это не игрушка. При добрых намерениях он может приносить огромную пользу. В недобрых — большой вред. Но в целом к существованию технологии для имитации голоса нужно просто привыкнуть. Ведь ели чуток углубиться в историю, раньше мы доверяли фотографиям. Но в эпоху Фотошопа, мы привыкли к тому, что не всем фото можно доверять. Так будет и с синтезированной речью. Со временем привыкнем, что любой голос в принципе может быть подделан. И это наша новая реальность, которая уже наступила, но привыкнем к ней только спустя время.

Поделись статьей с друзьями!

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *