
DeepMind и другие исследователи часто используют игры, чтобы продемонстрировать прогресс в развитии ИИ. Подразделение Alphabet недавно провело демонстрацию StarCraft II, где ее ИИ-агент AlphaStar успешно победил профессиональных игроков со счетом 10:1.
В конце 2017 года DeepMind поставила себе цель освоить StarCraft II после победы в Го. Blizzard создала StarCraft II Learning Environment (SC2LE) со специальными инструментами для исследователей и разработчиков. Видеоигра является «величайшим испытанием» для ИИ, проверяя его способность выполнять множество задач, которые необходимо балансировать в реальном времени. Навыки, необходимые для победы, включают: теория игр, неполная информация, долгосрочное планирование, реальное время и большое пространство действий.
Например, хотя цель игры — победить противника, игрок также должен выполнять и балансировать ряд подцелей, таких как сбор ресурсов или строительство зданий. Кроме того, игра может длиться от нескольких минут до одного часа, что означает, что действия, предпринятые в начале игры, могут принести плоды нескоро. Наконец, карта наблюдается только частично, что означает, что агенты должны использовать комбинацию памяти и планирования для достижения успеха.
В ноябре прошлого года DeepMind продемонстрировала свой прогресс на BlizzCon, но сегодняшняя демонстрация показала AlphaStar, соревнующегося и побеждающего двух профессиональных игроков. Каждый сыграл серию из пяти игр, причем ИИ DeepMind выиграл все 10 раундов.
Во время этих матчей AlphaStar имел преимущество в возможности видеть всю карту одновременно, но DeepMind работала с игроками, чтобы уравнять шансы. Главное, AlphaStar не мог реагировать быстрее человека, ни выполнять больше действий в минуту.
Эти игры проходили в декабре, а DeepMind сегодня выпустила записи в рамках прямой трансляции. Однако в последовавшем за этим живом выставочном матче человек смог победить AlphaStar, имея больше времени для анализа ИИ-агента.
Трансляция велась на YouTube и Twitch, примерно 34 000 зрителей смотрели в прямом эфире более чем двухчасовую демонстрацию, в ходе которой комментаторы, ответственная команда DeepMind и игроки обсуждали прогресс. Полные записи матчей от DeepMind теперь доступны для анализа игрокам.
В начале 2018 года DeepMind поставила себе цель «масштабировать и ускорить» свой проект StarCraft. Это было достигнуто за счет того, что различные версии AlphaStar соревновались друг с другом в лиге AlphaStar. Тренировки заняли две недели и проводились с использованием тензорных процессоров Google третьего поколения.
Агенты научились побеждать друг друга и быстро совершенствовались. Обнаруживая новые стратегии в процессе, DeepMind сообщила о примерно 200 годах обучения для AlphaStar.
Агенты изначально обучаются на основе записей человеческих игр, а затем соревнуются с другими участниками лиги. На каждой итерации создаются новые конкуренты, существующие остаются неизменными, а вероятности подбора игроков и гиперпараметры, определяющие цель обучения для каждого агента, могут быть адаптированы, увеличивая сложность при сохранении разнообразия. Параметры агента обновляются с помощью обучения с подкреплением на основе результатов игр против конкурентов. Финальный агент выборкой (без замены) из распределения Нэша лиги.
Смотрите 9to5Google на YouTube для получения дополнительных новостей: