В Оксфорде научили нейросеть читать по губам с точностью 93%

Татьяна Новак

Исследователи из Оксфордского университета при поддержке DeepMind и NVIDIA разработали машинный алгоритм чтения по губам LipNet, который распознаёт текст с точностью 93%.

В отличие от существующих алгоритмов чтения по губам, LipNet распознаёт не слова по отдельности, а фразы и предложения целиком. Как показали испытания программы на базе данных GRID, её точность достигает 93,4%. По данным разработчиков, это на 40% превышает средний результат людей с нарушениями слуха, которые используют чтение по губам в повседневной жизни как метод коммуникации (52,3% точности).

«Машинное чтение по губам имеет огромный потенциал для использования в приложениях усовершенствованных слуховых аппаратов, а также для бесшумной диктовки в общественных местах, тайных переговоров, распознавания речи в шумной обстановке, биометрической идентификации и реставрации немого кино», — пишут авторы.

Модель LipNet работает на символьном уровне, используя пространственно-временные сверточные нейронные сети (STCNNs), LSTM-сети и нейросетевую темпоральную классификацию (Connectionist Temporal Classification, CTC). Доклад о разработке авторы представят на конференции ICLR 2017.

Загрузить еще