Microsoft создал бота-художника, который рисует картинки по текстовому описанию

Татьяна Новак

Разработчики из компании Microsoft создали алгоритм, который рисует изображения по текстовому описанию. Об этом сообщается в блоге компании.

В этом исследовании исследователям удалось объединить разработки из двух сфер искусственного интеллекта: компьютерного зрения и обработки искусственного языка. В 2016 году компания создала инструмент CaptionBot, который сочиняет подписи к фотографиям. Новая программа действует наоборот: рисует картинки по подписям. Однако, по словам учёных, принцип её действия гораздо сложнее.

Чтобы нарисовать картинку, программа должна не только понять общий смысл описания, но и обратить внимание на отдельные детали. «Внимание — это человеческая концепция; но мы построили её математическую модель», — говорит автор проект Пенчван Чжан. Нейросеть разбивает текст на отдельные слова и сопоставляет их с конкретными областями изображения.

Создание изображения по описанию: "эта птица красно-белая с очень коротким клювом".

Нейросеть также воспроизводит то, что люди называют здравым смыслом: например, опираясь на изученные ранее картинки, она по умолчанию изображает птиц сидящими на ветках, если в тексте описания не указано другое.

В основе алгоритма — генеративная состязательная сеть (GAN). Она состоит из двух моделей машинного обучения. Первая (генератор) создает изображения на основе текстовых описаний, а другая (дискриминатор) проверяет «подлинность» картинок, сравнивая их с описанием. В процессе обучения генератор старается повысить реалистичность изображений, чтобы обмануть дискриминатор, а дискриминатор тренируется в распознавании подделок. Таким образом, алгоритм непрерывно совершенствуется. Программу обучали на базах данных, в которых содержатся изображения (например, птиц) и их краткие описания.

Загрузить еще