Алгоритм распознавания речи набирает сообщения в 3 раза быстрее людей

Татьяна Новак

Алгоритм распознавания речи Deep Speech 2 от компании Baidu распознаёт и преобразует голосовые сообщения в текст в три раза быстрее, чем люди. Испытание системы провели специалисты из Стэнфордского университета, Университета штата Вашингтон и сотрудники Baidu, пишет NPR.

«Каждый день пользователи тратят кучу времени на текстинг, потому что маленькая сенсорная клавиатура смартфона неспособна работать достаточно быстро, особенно если речь идёт о больших сообщениях. Мы хотим исследовать потенциал систем ввода текста на основе распознавания речи, в частности, для использования их на смартфонах и других мобильных устройствах», — пишут учёные. Они протестировали алгоритм Deep Speech 2, который распознаёт устную речь на двух языках: английском и севернокитайском (мандаринском). Deep Speech 2 — разработка Лаборатории искусственного интеллекта SVAIL китайской компании Baidu.

Во время теста программа соревновалась с 32 людьми, из которых 16 — носители английского, и 16 — китайского языков. Участники должны были воспринять на слух, а затем набрать на клавиатуре iPhone короткие фразы без контекста, например «пристегнуть ремень безопасности» или «носить корону с множеством драгоценных камней». Для текстинга на английском люди использовали сенсорную стандартную QWERTY-клавиатуру, а на китайском — клавиатуру пиньинь для iOS. По словам исследователей, эти раскладки являются наиболее популярными и участники эксперимента привыкли на них печатать.

Оказалось, что скорость Deep Speech 2 значительно превышает скорость человеческого набора: с сообщениями на английском языке программа справляется в 3 раза быстрее, а на китайском — в 2,8 раз быстрее, чем люди. Кроме того, печатая фразы на английском языке, программа допускает на 20,4% меньше ошибок, чем люди, а на китайском — на 63,4% меньше.

«Речь всегда была гораздо более естественным способом общения между людьми», — говорит главный научный консультант Baidu Эндрю Ын. Он надеется, что результаты исследования привлекут внимание пользователей к различным голосовым сервисам. Согласно опросу, в 2015 году только 65% владельцев смартфонов в США пользовались голосовыми помощниками.

В конце 2015 года Baidu усовершенствовала распознавание английского в шумных местах, а также создала новую аппаратную платформу на видеокартах, в семь раз увеличив производительность по сравнению с предыдущей версией сервера для Deep Speech.

Загрузить еще