Итальянские исследователи научили нейросеть находить сарказм в соцсетях

Татьяна Новак

Учёные из Университета Турина создали нейросеть, которая определяет, стоит ли понимать буквально смысл постов в Twitter, Instagram и Tumblr. Для этого программа анализирует не только текст, но и изображение в публикации, пишет Scientific American.

Ранее для обнаружения в публикации сарказма исследователи обращали внимание только на текстовую составляющую. Например, нейросеть, созданная учёными из Лиссабонского университета, анализирует лексические индикаторы (например, междометия), языковые маркеры и информацию о контексте — все предыдущие твиты и действия пользователя в соцсети. Авторы исследования считают, что такой метод оставляет за рамками всю визуальную информацию, а потому часто допускает ошибки. «Мы поняли, что изучить только текст недостаточно. Важный контекст обеспечивают изображения», — говорит Россано Шифанелла, доцент в области компьютерных наук в Университете Турина. По его словам, это особенно актуально для таких соцсетей, как Twitter, Instagram и Tumblr, в которых изображения изначально несут более важную смысловую нагрузку, чем текст.

Примеры саркастичных постов

Шиванелле помогали коллеги — Палома де Хуан, Джоал Тетраулт и Льянльян Као из компании Yahoo!, которая и профинансировала исследование. Он считает, что эта технология станет полезным инструментом для бизнеса, социологических исследований и защиты безопасности. Например, автоматизированные системы обслуживания смогут определить, доволен ли на самом деле уровнем сервиса клиент, оставивший в соцсети хвалебный отзыв, а спецслужбы научатся отличать настоящие призывы к насилию от саркастичных постов, авторы которых просто иронизируют.

Для обнаружения сарказма в Twitter, Instagram и Tumblr учёные предложили две различные вычислительные структуры, которые объединяют анализ текствовой и визуальной информации. Первый подход основан на методе опорных векторов, как и в большинстве подобных исследований. Этот метод был дополнен для работы не только с текстовой, но и с визуальной информацией. Второй подход основан на глубинном обучении нейросети на базе изображений ImageNet. По словам учёных, лучшие результаты (80-88% распознавания) позволяет получить сочетание двух методов. При анализе только визуальной семантики точность определения сарказма снижается до 61%. Подробно прочитать о методике исследования можно тут.

Джоал Тетраулт считает, что нейросеть со временем научится определять сарказм точнее, тренируясь на больших базах данных, которые предоставляют соцсети. Тетраулт сравнивает обучение нейросети с обучением ребёнка игре в бейсбол. «Ребенок, наблюдая за игрой, может не знать правил, но, понаблюдав за ней достаточно долго, он поймёт, как надо бить по мячу», — говорит он.

В июле специалисты из Yahooo разработали нейросеть, которая умеет находить в комментариях язык вражды и в 90% случаев верно определяет сообщения с оскорбительными коннотациями.

Загрузить еще