Учёные из Оксфорда и DeepMind научили нейросеть читать по губам речь телеведущих BBC

Татьяна Новак

Учёные из Университета Оксфорда и подразделения Alphabet DeepMind обучили нейросеть читать по губам речь телеведущих BBC с точностью 46,8%, сообщает New Scientist.

Искусственный интеллект изучил 5 000 часов разных телепрограмм компании BBC, включая Newsnight, BBC Breakfast и Question Time, которые выходили в эфир в период с января 2010 года по декабрь 2015 года. В общей сложности эти видеозаписи содержат 118 116 предложений слитной человеческой речи. Чтобы нейросеть смогла найти соответствие между словами и движением губ, учёным пришлось предварительно синхронизировать звук и видео в каждом видеоролике, а также разработать модуль для распознавания речи WLAS (Watch, Listen, Attend and Spell).

Сверху: Кадры из четырёх телепередач BBC, по которым обучалась программа: News, Question Time, Breakfast, Newsnight. Снизу: Движения губ двух разных дикторов, произносящих слово "afternoon".

После обучения учёные протестировали нейросеть на незнакомых ей программах, которые выходили в эфир с марта по сентябрь 2016 года. Программа смогла верно аннотировать 46,8% слов из 200 клипов, выбранных из этой базы данных случайным образом. При этом многие его ошибки были незначительными, вроде пропущенной буквы «s» в конце слова. Для сравнения такое же задание дали профессионалу по чтению по губам — он смог верно расшифровать только 12,4% слов.

Кадры из видео без субтитров:

Те же кадры из видео с субтитрами, добавленными нейросетью:

Недавно исследователи из Оксфордского университета протестировали ещё один машинный алгоритм чтения по губам LipNet. Он показал результат выше — 93% правильных слов. Однако его испытали на корпусе GRID — ограниченной базе данных: она содержит всего 51 уникальное слово, из которых можно составить только 33000 предложений по определённой грамматической схеме.

База BBC, которую использовали разработчики из DeepMind для испытания нового алгоритма, представляет собой разнообразные конструкции естественной речи и содержит 17500 уникальных слов. Авторы исследования пообещали вскоре выложить базу в открытый доступ, чтобы другие разработчики смогли её использовать для обучения ИИ.

Загрузить еще