Университет Вашингтона создаёт крупнейшую открытую базу для алгоритмов распознавания лиц

Татьяна Новак

Исследователи Университета Вашингтона начали разработку многомиллионной базы изображений, которая будет доступна всем разработчикам алгоритмов распознавания лиц. Об этом пишет сайт университета.

«Уровень нейросетей зависит от миллионов параметров, поэтому для обучения им требуется множество примеров. В отличие от человеческого мозга, изначально нейросеть — это чистый лист», — объяснил разработчик базы Аарон Нех. Учёные планируют внести в базу фотографии 500 000 разных людей. На каждого человека в базе будет набор фото, где он изображён в разных ракурсах и в разном возрасте. По словам учёных, именно возрастные изменения и неудачный ракурс — главные проблемы для уже существующих алгоритмов.

Самые сложные "помехи" для алгоритма распознавания лиц: возраст и ракурс. Иллюстрация:University of Washington

Это подтверждают и результаты конкурса The MegaFace Benchmark, который Университет Вашингтона начал в прошлом году. Для него учёные впервые собрали базу данных, в которой содержится 1 000 000 фотографий, на которых изображены 690 572 разных людей. Все фото они взяли из фотохостинга Flickr.

В конкурсе поучаствовали около 100 разработчиков. Каждая команда могла участвовать в двух категориях: без ограничений на количество фотографий для обучения алгоритма и с ограничением в 500 000 фотографий. Также для проверки алгоритмов предлагали две коллекции изображений: в первой коллекции было 100 000 изображений людей примерно одного возраста, во второй — 900 человек разных возрастов. В «возрастном» тесте победил алгоритм от Google FaceNet, продемонстрировавший совпадения в 75% случаев. В другом тесте лучшей стала команда из России N-Tech.Lab с результатом 73%.

График результатов Megaface. Иллюстрация: University of Washington

Все алгоритмы, которые неплохо себя показали в работе с 10 000 изображений, существенно снизили эффективность при столкновении с базой из 1 000 000 фото. В среднем количество совпадений упало на 33%.

«Мы первыми предположили, что тестирование должно проводиться на базе «планетарного масштаба», только так мы сможем выявить недостатки в существующих алгоритмах распознавания и сделать их лучше. Мы не имеем права проверять программы на небольшой базе данных и заявлять, что они отлично работают», — объясняет Ира Кемельмахер-Шлизерман, один из руководителей UW Graphics and Imaging Laboratory (GRAIL).

Она полагает, что у технологий распознавания большое будущее, но только когда она научится работать с большими базами. Например, распознаванием лиц можно будет заменить пароли и даже отпечатки пальцев. «Что произойдёт, если вы потеряете свой телефон на вокзале в Амстердаме и кто-то попытается украсть его? Я бы хотела быть уверена, что мой телефон узнает меня из 7 миллиардов человек, а не только из 1000 или вроде того», — говорит Кемельмахер-Шлизерман. Она добавляет, что сложно добиться прогресса и честной конкуренции, когда молодые стартапы не имеют доступа к тем данным, которые есть у Facebook и Google. Именно поэтому Университет Вашингтона взялся за создание базы для обучения, которую выложат в общий доступ уже к концу лета.

О предварительных результатах исследователи расскажут на конференции, посвящённой компьютерному зрению и распознаванию паттернов (CVPR 2016) в Лас-Вегасе. Конкурс ещё продолжается, текущие данные обновляются на сайте проекта. Сейчас над MegaFace работают более 300 исследовательских групп.

Загрузить еще