Искусственный интеллект научили писать речи для политиков

Андрей Бродецкий

Валентин Кассарниг из Массачусетского университета Амхерста создал алгоритм, генерирующий тексты для политических выступлений. Об этом пишет MIT Technology Review.

Кассарниг собрал базу из 4000 фрагментов выступлений в американском Конгрессе и использовал алгоритм машинного обучения для создания новых выступлений.

Всего в базу попало 50 000 предложений, каждое из которых в среднем содержало 23 слова. Выступления были отсортированы по партийной принадлежности спикера (демократ или республиканец) и по тому, направлены ли они за или против обсуждаемого вопроса.

При анализе базы Кассарниг использовал метод, основанный на N-граммах — последовательностях слов или фраз из N элементов. Он проанализировал тексты, присвоив каждому слову или фразе метку с его грамматической ролью — существительное, глагол и так далее. Затем алгоритм проанализировал 6-граммы и подсчитал, насколько часто одни слова или фразы следуют за пятью заданными.

Дальше начинается процесс генерирования речи. Сначала надо указать, за какую партию будет выступать спикер — за демократов или республиканцев. Алгоритм просматривает базу 6-грамм в заданной категории и ищет 5-граммы, с которых чаще начинаются выступления. Затем выбирает первую 5-грамму случайно и добавляет к ней по слову, пока не закончит строить предложение.

Алгоритм учитывает и другие факторы. Например, он различает, какие темы уже затронуты в выступлении, и упоминает в речи связанные темы.

Результаты выглядят неплохо. Вот пример автоматически сгенерированного выступления для демократа:

«Господин Спикер, годами честные, но несчастные потребители имели возможность просить защиты от банкротства и разумного списания их долгов. Как должна работать система: суд, принимающий решение о банкротстве, оценивает разные факторы, включая доход, имущество и долг, чтобы определить, какие долги могуть быть оплачены и как потребители могут снова встать на ноги. Встать для роста и возможностей. Давайте примем эту поправку.»

Кассарниг отмечает, что с точки зрения связности и грамматической корректности большинство текстов выглядят очень неплохо. Но вряд ли найдется политик, который захочет использовать алгоритм для написания реальных выступлений.

Программу можно использовать и для генерирования других типов текста. Например, с ее помощью можно писать новости или кратко пересказывать препринты научных публикаций, основываясь на других публикациях по теме.

Программный код доступен на GitHub. Автор приветствует любые изменения и дополнения алгоритма.

Ранее Apparat писал, как нейросеть научили писать новые серии для сериала «Друзья».

Загрузить еще