Виртуальные роботы освоили бег и ходьбу благодаря обучению с подкреплением

Татьяна Новак

Исследователи из Канады и Сингапура на конференции по компьютерной анимации Siggraph 2017 представили алгоритм глубокого обучения с подкреплением, позволяющий двуногим виртуальным роботам методом проб и ошибок научиться ходить, бегать и вести мяч. Впоследствии этот алгоритм можно будет использовать для обучения реальных роботов, пишет Motherboard.

При обучении с подкреплением виртуальный персонаж не получал конкретные задачи (например, научиться ходить) и инструкции для их выполнения, только глобальную цель — добраться из одного пункта в другой. В случае успеха его вознаграждали, а за ошибки — столкновения с препятствиями и падения — штрафовали. В процессе достижения глобальной цели персонаж вынужден был научиться ходить, бегать, уклоняться от предметов и т.д. «Это немного похоже на то, учится ходить ребёнок», — говорит Михель ван де Панна, профессор компьютерных наук в Университете Британской Колумбии.

По его словам, виртуальным роботам потребовалось около двух дней, чтобы научиться ходить, и около пяти дней, чтобы научиться удерживать равновесие и избегать столкновений с неподвижными препятствиями и движущимися предметами. Также «игроки» научились быстро реагировать на изменения условий в виртуальном пространстве, где плоские ровные поверхности чередуются с эскалаторами и горными серпантинами.

Алгоритм DeepLoco работает параллельно на двух уровнях: низком и высоком. На низком уровне он планирует конкретные шаги персонажа, а на высоком строит долгосрочную стратегию, как ему добраться из одного пункта в другой.

Загрузить еще