DeepMind представил новый ИИ для синтеза речи

Татьяна Новак

DeepMind, британское подразделение корпорации Google, представило новый искусственный интеллект WaveNet для синтеза человеческой речи. Об этом пишет Business Insider.

В своём блоге DeepMind опубликовал примеры аудиозаписей, где WaveNet «говорит» на английском и китайском языках. По словам разработчиков, 50% прослушавших аудиозаписи добровольцев не догадались, что их сгенерировала машина. Таким образом, WaveNet «сократил разрыв между уровнем техники и человеческим уровнем более чем на 50%».

В отличии от популярных TTS-программ, которые синтезируют речь из фрагментов записей человеческого голоса, программа WaveNet воспроизводит непосредственно звуковые волны, анализируя их с помощью нейронных сетей. Эта технология позволяет программе имитировать не только речь, но и музыку. DeepMind опубликовал в блоге музыкальные отрывки, которые WaveNet смогла воспроизвести после изучения сольной фортепианной музыки на YouTube.

«Это серьёзный прорыв для систем преобразования текста в речь, который можно потенциально использовать везде — от смартфонов до большого экрана», — говорит разработчик DeepMind Аарон ван ден Ооорд. В систему уже загрузили более 44 часов речи на английском языке. В записи примеров для обучения поучаствовали 109 добровольцев-носителей английского языка. Каждую секунду WaveNet обрабатывает 16000 образцов аудио.

Подробно о технологии можно прочитать тут.

Недавно специалисты из Стэнфордского университета, Университета штата Вашингтон и сотрудники Baidu протестировали алгоритм распознавания речи Deep Speech 2. Оказалось, что он распознаёт и преобразует голосовые сообщения в текст в три раза быстрее, чем люди.

Загрузить еще