Американские учёные выяснили, что искусственный интеллект не понимает комиксы

Татьяна Новак

Исследователи из Университета штата Мэриленд выяснили, что искусственный интеллект пока не способен понять смысл комикса и прогнозировать, что в нём произойдёт дальше, анализируя предшествующую последовательность кадров. Об этом пишет MIT Technology Review.

Учёные считают, что ключевым для понимания комиксов является «closure» — способность читателя «закрывать» смысловые пробелы между панелями комикса, преобразовывая отдельные кадры в единую последовательность. «Именно то, что автор не договаривает на страницах, делает комиксы такими интересными», — пишут исследователи.

Откуда появилась змея на последней панели? Почему она укусила мужчину? Является ли мужчина на второй панели тем же, что и на первой? Чтобы ответить на эти вопросы, читатель должен мысленно "закрыть" смысловые пробелы между панелями комикса. Иллюстрация University of Maryland

Для глубокого обучения искусственного интеллекта они использовали большую базу комиксов, выпущенных в период «золотого века» комиксов в США — с начала 30-х до конца 50-х годов прошлого века. Срок авторских прав на эти публикации уже истёк и они находятся в свободном доступе на сайте Digital Comics Museum. Учёные выбрали 4000 самых рейтинговых комиксов, состоящих из 1,2 миллионов панелей. Для оцифровки текста на каждой панели они использовали программу для оптического распознавания символов.

Чтобы проверить, насколько машина способна понять суть комиксов после обучения, авторы исследования показали ей 250 пар последовательных панелей, а затем дали задание выбрать вероятное развитие событий из нескольких вариантов. В то время как люди могут предсказать следующий фрагмент текста или изображения правильно в более чем 80% случаев, машины оказались очень далеки от такого уровня точности.

«Ни одна из нейросетевых архитектур не превосходит начальный уровень человека, что говорит о трудности понимания комиксов», — говорят авторы. Системы компьютерного зрения, тренированные на естественных изображениях, не могут интерпретировать разнообразные художественные стили, а также текстовые модели, смысл которых в значительной степени зависит от визуального контекста.

Визуализация работы LSTM-сети. University of Maryland

Ранее в Нью-Йорке впервые состоялся Winograd Schema Challenge — новый тест для искусственного интеллекта. Результаты конкурса показали, что искусственный интеллект, хотя и достиг большого прогресса в понимании естественного языка, по-прежнему не может получить навыки понимания контекста и осмысленного рассуждения (сommon-sense reasoning).

Загрузить еще