В Microsoft научили программу распознавать речь не хуже человека

Татьяна Новак

Исследователям из компании Microsoft удалось повысить точность программы распознавания речи до человеческого уровня, сообщает блог компании. По результатам последних испытаний, количество неправильно определённых слов составляет всего 5,9% — результат сравним с уровнем профессионального наборщика, который вводит текст под диктовку.

«Это достижение — кульминация более чем двадцати лет усилий», — сказал руководитель исследовательской группы Microsoft Speech & Dialog Джеффри Цвейг. Исследователи побили собственный рекорд — месяц назад они сообщали о 6,3% неправильно определённых слов в метрике Word Error Rate.

Команда использовала программное обеспечение Microsoft’s Computational Network Toolkit — собственную систему для глубокого обучения. Исходный код проекта доступен на GitHub. Система распознавания речи Microsoft задействует нейролингвистические модели, которые группируют слова по общности словообразовательных признаков.

В дальнейшем Microsoft собирается использовать эту технологию в голосовом помощнике Cortana, игровой приставке Xbox One, а также в других программах с функцией распознавания речи.

Китайская компания Baidu Research в начале октября запустила приложение для голосового набора TalkType на основе программы распознавания речи Deep Speech 2. Она значительно превышает скорость человеческого набора: с сообщениями на английском языке программа справляется в 3 раза быстрее, а на китайском — в 2,8 раз быстрее, чем люди. Кроме того, печатая фразы на английском языке, программа допускает на 20,4% меньше ошибок, чем люди, а на китайском — на 63,4% меньше.

Загрузить еще