Искусственный интеллект не справился с тестом на здравый смысл

Татьяна Новак

В Нью-Йорке впервые состоялся Winograd Schema Challenge — новый тест для искусственного интеллекта. Результаты конкурса показали, что искусственному интеллекту всё еще не хватает того, что исследователи называют здравым смыслом, пишет IEEE Spectrum.

Тест придумал в 2011 году профессор информатики в Университете Торонто Гектор Левески. Он основан на идеях Терри Винограда, разработавшего принципы построения системы искусственного интеллекта для распознавания естественной речи. В 2014 году учёные предложили его как альтернативу тесту Тьюринга, в эффективности которого всё чаще сомневаются разработчики искусственного интеллекта.

Вместо свободного обмена короткими фразами, характерного для теста Тьюринга, схема Винограда использует вопросы с двумя вариантами ответа, один из которых — правильный. Например: «Мужчина не мог поднять своего сына, потому что он был слишком слаб. Кто был слаб, мужчина или его сын?» Местоимение «он» грамматически может относиться и к тому, и к другому слову. Люди по смыслу понимают, что «он» в данном случае заменяет слово «мужчина», но для компьютера это не очевидно.

В целом схема строится так: в предложении есть два имени существительных. Они могут быть женского, мужского или среднего рода, а также могут обозначать группу объектов. Местоимение или притяжательное прилагательное относится только к одному из них, но грамматически подходит и к другому.

Вот примеры заданий:

1. Адвокат задал свидетелю вопрос, но он не хочет отвечать.

Вопрос: Кто не хочет отвечать на этот вопрос?

Ответы: Свидетель/Адвокат

2. Фрэнк обиделся на Тома, потому что тостер, который он у него купил, не работает.

Вопрос: Кто купил тостер?

Ответы: Фрэнк/Том

3. Пит завидует Мартину, потому что он очень успешен.

Вопрос: Кто очень успешен?

Ответы: Мартин/Пит

4. В середине концерта под открытым небом начался дождь, и он продолжался до 10.

Вопрос: Что продолжалось до 10?

Ответы: Концерт/Дождь

5. Боб заплатил за учёбу Чарли в коллеже. Он очень щедр.

Вопрос: Кто очень щедр?

Ответы: Боб/Чарли

6. Если бы мошеннику удалось одурачить Сэма, он потерял бы много денег.

Вопрос: Кто потерял бы много денег?

Ответ: Сэм/Мошенник

7. Лисицы охотятся по ночам и нападают на кур. Я должен охранять их.

Вопрос: Кого я должен охранять?

Ответы: Лисиц/Кур

8. Элизабет перевела свою компанию из Спарты в Трою, чтобы платить меньше налогов; там налоги значительно ниже.

Вопрос: Где налоги ниже?

Ответы: В Спарте/В Трое.

9. Сэм сломал обе ноги и ходит на костылях. Но через месяц или около того они станут ему не нужны.

Вопрос: Что станет не нужно Сэму?

Ответы: Ноги/Костыли

В конкурсе участвовали шесть программ от независимых исследователей. Лучший результат показали алгоритмы, разработанные Цюанем Лю из Научно-технического университета Китая и Никосом Иссаком из Открытого университета Кипра. «Поразительно, но результат машины ненамного выше, чем при случайном выборе ответов», — говорит Гэри Маркус, научный психолог в Университете Нью-Йорка и член жюри. Так, они набрали 48% совпадений, тогда как показатель программы, случайно выбирающей варианты — 45%. Денежный приз не достался никому: чтобы выиграть 25 000 $, разработчики должны были достичь хотя бы 90% совпадений. Хотя в конкурсе не участвовали гиганты вроде Google и Facebook, Маркус сомневается, что они смогли бы преодолеть этот барьер.

Конкурс спонсирует Лаборатория искусственного интеллекта и обработки естественного языка в Nuance Communications. По словам директора Лаборатории Чарли Ортиса, Winograd Schema Challenge обнажил важные проблемы в искусственного интеллекта и показал, в каких направлениях стоит работать учёным. Например, важно, чтобы голосовые ассистенты нового поколения могли не просто отвечать на вопросы пользователя, но и вести осмысленный диалог. Для этого они должны владеть пониманием контекста и осмысленным рассуждением (сommon-sense reasoning).

Следующий конкурс Winograd Schema Challenge состоится в ноябре 2018 года на конференции AAAI в Нью-Орлеане.

Загрузить еще