Google научил синтезатор речи воспроизводить человеческие интонации

Татьяна Новак

Компания Google представила синтезатор речи Tacotron 2, который умеет имитировать интонации человеческого голоса. Об этом сообщается в блоге компании.

Новая технология базируется на предыдущей разработке компании — речевом синтезаторе WaveNet, который, если верить Google, «сократил разрыв между уровнем техники и человеческим уровнем более чем на 50%». В отличии от популярных TTS-программ, которые синтезируют речь из фрагментов записей человеческого голоса, программа WaveNet воспроизводит непосредственно звуковые волны, анализируя их с помощью нейронных сетей.

Tacotron 2 состоит из двух рекуррентных нейронных сетей. Первая разбивает текст на отдельные фрагменты, такие как буквы, паузы и знаки препинания и визуализирует их в виде спектрограмм. Вторая нейросеть — это модифицированная версия WaveNet, которая синтезирует спектограммы в звук на 24 кГц. Обучается Tacotron 2 самостоятельно, изучая аудиозаписи человеческой речи и текстовые расшифровки.

По словам разработчиков, Tacotron 2 — лучший синтезатор речи из всех существующих. Он умеет воспроизводить основные элементы интонации — логические ударения, паузы, повышение и понижение голоса. Тестирование показало, что добровольцы оценивают реалистичность фраз, сгенерированных программой, в среднем на 4,53 балла из 5.

Загрузить еще