OpenAI Пять

OpenAI Five — это компьютерная программа OpenAI , которая играет в видеоигру Dota 2 пять на пять . Её первое публичное появление состоялось в 2017 году, где она была продемонстрирована в игре один на один против профессионального игрока Dendi , который проиграл ей. В следующем году система продвинулась до точки, когда она выступала как полная команда из пяти человек, и начала играть против профессиональных команд и демонстрировать способность побеждать их.

Выбрав такую сложную игру, как Dota 2, для изучения машинного обучения , OpenAI посчитала, что сможет точнее уловить непредсказуемость и непрерывность, наблюдаемые в реальном мире, тем самым построив более общие системы решения проблем. Алгоритмы и код, используемые OpenAI Five, в конечном итоге были заимствованы другой нейронной сетью , разрабатываемой компанией, которая управляла физической роботизированной рукой. OpenAI Five сравнивали с другими похожими случаями игры искусственного интеллекта (ИИ) против людей и их победы над ними, такими как AlphaStar в видеоигре StarCraft II , AlphaGo в настольной игре Go , Deep Blue в шахматах и Watson в телевизионном игровом шоу Jeopardy !.

История

Разработка алгоритмов, используемых для ботов, началась в ноябре 2016 года. OpenAI решила использовать Dota 2 , соревновательную видеоигру пять на пять, в качестве основы из-за ее популярности на платформе потокового вещания Twitch , имеющей встроенную поддержку Linux и доступный интерфейс прикладного программирования (API). ^[1] Прежде чем стать командой из пяти человек, первая публичная демонстрация состоялась на The International 2017 в августе, ежегодном премьерном чемпионате по игре, где Dendi , украинский профессиональный игрок, проиграл боту OpenAI в живом матче один на один. ^[2]^[3] После матча технический директор Грег Брокман объяснил, что бот учился, играя сам с собой в течение двух недель в реальном времени , и что обучающее программное обеспечение стало шагом в направлении создания программного обеспечения, которое может выполнять сложные задачи, «например, быть хирургом». ^[4]^[5] OpenAI использовала методологию, называемую обучением с подкреплением , когда боты обучаются с течением времени, играя против самих себя сотни раз в день в течение месяцев, в ходе чего они получают вознаграждение за такие действия, как убийство врага и разрушение башен. ^[6]^[7]^[8]

К июню 2018 года возможности ботов расширились, и они смогли играть вместе как полноценная команда из пяти человек и победить команды любителей и полупрофессиональных игроков. ^[9]^[6]^[10]^[11] На The International 2018 OpenAI Five сыграли в двух играх против профессиональных команд, одну против бразильской paiN Gaming, а другую против звездной команды бывших китайских игроков. ^[12]^[13] Хотя боты проиграли оба матча, OpenAI все равно посчитала это успешным начинанием, заявив, что игра против некоторых из лучших игроков в Dota 2 позволила им проанализировать и скорректировать свои алгоритмы для будущих игр. ^[14] Последняя публичная демонстрация ботов состоялась в апреле 2019 года, где они выиграли серию из трех матчей против чемпионов The International 2018 OG на живом мероприятии в Сан-Франциско . ^[15] Четырехдневное онлайн-мероприятие для игры против ботов, открытое для публики, состоялось в том же месяце. ^[16] Там боты сыграли в 42 729 публичных играх, выиграв 99,4% из этих игр. ^[17]

Архитектура

Каждый бот OpenAI Five представляет собой нейронную сеть, содержащую один слой с 4096-юнитовой ^[18] LSTM , которая отслеживает текущее состояние игры, извлеченное из API разработчика Dota. Нейронная сеть выполняет действия с помощью множества возможных головок действий (без участия человека), и каждая головка имеет значение. Например, количество тиков для задержки действия, какое действие выбрать — координата X или Y этого действия в сетке вокруг единицы. Кроме того, головки действий вычисляются независимо. Система ИИ наблюдает за миром как за списком из 20 000 чисел и выполняет действие, проводя список из восьми значений перечисления. Кроме того, она выбирает различные действия и цели, чтобы понять, как кодировать каждое действие и наблюдать за миром. ^[19]

OpenAI Five была разработана как универсальная система обучения с подкреплением на инфраструктуре «Rapid». Rapid состоит из двух слоев: он запускает тысячи машин и помогает им «общаться» друг с другом, а второй слой запускает программное обеспечение. К 2018 году OpenAI Five отыграла около 180 лет игр в обучение с подкреплением, запущенных на 256 графических процессорах и 128 000 ядрах ЦП , ^[20] используя Proximal Policy Optimization , метод градиента политики . ^[19]^[21]

Сравнение с другими игровыми системами искусственного интеллекта

До OpenAI Five успешно применялись и другие эксперименты и системы ИИ против людей, такие как Jeopardy! с Watson , шахматы с Deep Blue и го с AlphaGo . ^[22]^[23]^[24] По сравнению с другими играми, в которых системы ИИ использовались для игры против людей, Dota 2 отличается, как описано ниже: ^[19]

Долгосрочный обзор : боты работают со скоростью 30 кадров в секунду при среднем времени матча 45 минут, что дает 80 000 тиков за игру. OpenAI Five наблюдает за каждым четвертым кадром, генерируя 20 000 ходов. Для сравнения, шахматы обычно заканчиваются до 40 ходов, а го заканчивается до 150 ходов.

Частично наблюдаемое состояние игры : игроки и их союзники могут видеть только карту непосредственно вокруг себя. Остальная ее часть покрыта туманом войны , который скрывает вражеские юниты и их движения. Таким образом, игра в Dota 2 требует делать выводы на основе этих неполных данных, а также предсказывать, что их противник может делать в то же время. Для сравнения, шахматы и го являются «играми с полной информацией», поскольку они не скрывают элементы от игрока противника. ^[25]

Пространство непрерывного действия : каждый игровой персонаж в игре Dota 2 , известный как герой, может совершать десятки действий, нацеленных либо на другого юнита, либо на позицию. Разработчики OpenAI Five выделяют пространство в 170 000 возможных действий на героя. Не считая вечных аспектов игры, в среднем на каждый тик приходится ~1000 допустимых действий. Для сравнения, среднее количество действий в шахматах составляет 35, а в го — 250.

Непрерывное пространство наблюдения : Dota 2 играется на большой карте с десятью героями, по пять в каждой команде, а также десятками зданий и неигровых персонажей (NPC). Система OpenAI наблюдает за состоянием игры через API бота разработчиков, как 20 000 чисел, которые составляют всю информацию, к которой человеку разрешено получить доступ. Шахматная доска представлена примерно в виде 70 списков, тогда как доска для го имеет около 400 перечислений.

Прием

OpenAI Five получили признание со стороны сообщества ИИ, технологий и видеоигр в целом. Основатель Microsoft Билл Гейтс назвал это «большим делом», поскольку их победы «требовали командной работы и сотрудничества». ^[8]^[26] Шахматист Гарри Каспаров , проигравший Deep Blue AI в 1997 году, заявил, что, несмотря на их проигрышное выступление на The International 2018, боты в конечном итоге «достигнут цели, и раньше, чем ожидалось». ^[27]

В разговоре с MIT Technology Review эксперты по ИИ также считали систему OpenAI Five значительным достижением, поскольку они отметили, что Dota 2 была «чрезвычайно сложной игрой», поэтому даже победа над непрофессиональными игроками была впечатляющей. ^[25] PC Gamer написал, что их победы над профессиональными игроками были значительным событием в машинном обучении. ^[28] Напротив, Motherboard написал, что победа была «по сути мошенничеством» из-за упрощенных пулов героев с обеих сторон, а также того факта, что ботам был предоставлен прямой доступ к API, в отличие от использования компьютерного зрения для интерпретации пикселей на экране. ^[29] The Verge написал, что боты были доказательством того, что подход компании к обучению с подкреплением и ее общая философия в отношении ИИ «приносят вехи». ^[16]

В 2019 году DeepMind представила похожего бота для Starcraft II , AlphaStar . Как и OpenAI Five, AlphaStar использовал обучение с подкреплением и самостоятельную игру. The Verge сообщила, что «цель этого типа исследований ИИ — не просто сокрушить людей в различных играх, просто чтобы доказать, что это возможно. Вместо этого она заключается в том, чтобы доказать, что — при наличии достаточного количества времени, усилий и ресурсов — сложное программное обеспечение ИИ может превзойти людей практически в любой конкурентной когнитивной задаче, будь то настольная игра или современная видеоигра». Они добавили, что победы DeepMind и OpenAI также являются свидетельством силы определенных применений обучения с подкреплением. ^[30]

OpenAI надеялась, что технология сможет найти применение за пределами цифровой сферы. В 2018 году им удалось повторно использовать те же алгоритмы обучения с подкреплением и обучающий код из OpenAI Five для Dactyl , человекоподобной роботизированной руки с нейронной сетью, созданной для манипулирования физическими объектами. ^[31] В 2019 году Dactyl решил кубик Рубика . ^[32]

Ссылки

^ OpenAI. "OpenAI Five". openai.com/five . Архивировано из оригинала 1 сентября 2018 года . Получено 10 октября 2018 года .
^ Савов, Влад (14 августа 2017 г.). «Моя любимая игра подверглась вторжению убийственных ИИ-ботов и шумихи вокруг Илона Маска». The Verge . Архивировано из оригинала 26 июня 2018 г. Получено 25 июня 2018 г.
^ Фрэнк, Блэр Хэнли. «Бот OpenAI так сильно обыгрывает топового игрока Dota 2, что он уходит». Venture Beat . Архивировано из оригинала 12 августа 2017 г. Получено 12 августа 2017 г.
↑ OpenAI (11 августа 2017 г.). "Dota 2". blog.openai.com . Архивировано из оригинала 11 августа 2017 г. . Получено 12 августа 2017 г. .
↑ OpenAI (16 августа 2017 г.). «Подробнее о Dota 2». blog.openai.com . Архивировано из оригинала 16 августа 2017 г. . Получено 16 августа 2017 г. .
^ ab Simonite, Tom (25 июня 2018 г.). «Могут ли боты перехитрить людей в одной из крупнейших киберспортивных игр?». Wired . Архивировано из оригинала 25 июня 2018 г. Получено 25 июня 2018 г.
^ Кан, Джереми (25 июня 2018 г.). «Бот, поддерживаемый Илоном Маском, совершил прорыв в области искусственного интеллекта в мире видеоигр». Bloomberg.com . Архивировано из оригинала 27 июня 2018 г. Получено 27 июня 2018 г.
^ ab "Билл Гейтс говорит, что игровые боты от некоммерческой организации, поддерживаемой Илоном Маском, являются "огромной вехой" в области искусственного интеллекта" CNBC . 28 июня 2018 г. Архивировано из оригинала 28 июня 2018 г. Получено 28 июня 2018 г.
^ OpenAI (18 июля 2018 г.). "OpenAI Five Benchmark". blog.openai.com . Архивировано из оригинала 26 августа 2018 г. . Получено 25 августа 2018 г. .
^ Винсент, Джеймс (25 июня 2018 г.). «ИИ-боты тренировались по 180 лет в день, чтобы победить людей в Dota 2». The Verge . Архивировано из оригинала 25 июня 2018 г. . Получено 25 июня 2018 г. .
^ Савов, Влад (6 августа 2018 г.). «Боты OpenAI Dota 2 только что победили команду бывших профессионалов». The Verge . Архивировано из оригинала 7 августа 2018 г. . Получено 7 августа 2018 г. .
^ Simonite, Tom. «Pro Gamers Fend off Elon Musk-Backed AI Bots—for Now». Wired . Архивировано из оригинала 24 августа 2018 г. Получено 25 августа 2018 г.
^ Куах, Катянна. «Игра окончена, машины: люди снова побеждают ботов OpenAI на Олимпиаде по видеоиграм». The Register . Архивировано из оригинала 25 августа 2018 г. Получено 25 августа 2018 г.
^ OpenAI (24 августа 2018 г.). «The International 2018: Results». blog.openai.com . Архивировано из оригинала 24 августа 2018 г. . Получено 25 августа 2018 г. .
↑ Wiggers, Kyle (13 апреля 2019 г.). «OpenAI Five дважды побеждает профессиональную команду Dota 2». Venture Beat . Архивировано из оригинала 13 апреля 2019 г. Получено 13 апреля 2019 г.
^ ab Statt, Nick (13 апреля 2019 г.). «Искусственный интеллект Dota 2 от OpenAI разгромил чемпионскую команду по киберспорту, одержав две победы подряд». The Verge . Vox Media. Архивировано из оригинала 15 апреля 2019 г. . Получено 15 апреля 2019 г. .
↑ Wiggers, Kyle (22 апреля 2019 г.). «Бот Dota 2 от OpenAI победил 99,4% игроков в публичных матчах». Venture Beat . Получено 22 апреля 2019 г.
^ "Dota 2 с крупномасштабным глубоким обучением с подкреплением" (PDF) . OpenAI . Архивировано (PDF) из оригинала 26 сентября 2024 г. . Получено 29 сентября 2024 г. .
^ abc OpenAI (25 июня 2018 г.). "OpenAI Five". blog.openai.com . Архивировано из оригинала 25 июня 2018 г. . Получено 25 июня 2018 г. .
^ «Почему исследователи ИИ так одержимы играми?». QUARTZ . 4 августа 2018 г. Архивировано из оригинала 4 августа 2018 г. Получено 4 августа 2018 г.
^ Шульман, Джон; Вольски, Филипп; Дхаривал, Прафулла; Рэдфорд, Алек; Климов, Олег (2017). «Алгоритмы оптимизации проксимальной политики». arXiv : 1707.06347 [cs.LG].
^ Gabbatt, Adam (17 февраля 2011 г.). «IBM computer Watson побеждает в Jeopardy clash». The Guardian . Архивировано из оригинала 21 сентября 2013 г. Получено 17 февраля 2011 г.
^ "Шахматный гроссмейстер Гарри Каспаров о том, что происходит, когда машины "достигают уровня, с которым люди не могут конкурировать"". Business Insider . Архивировано из оригинала 29 декабря 2017 г. Получено 29 декабря 2017 г.
^ «Играющий в Го ИИ DeepMind больше не нуждается в помощи человека, чтобы победить нас». Verge . 18 октября 2017 г. Архивировано из оригинала 18 октября 2017 г. Получено 18 октября 2017 г.
^ ab Knight, Will (25 июня 2018 г.). «Команда алгоритмов ИИ только что разгромила людей в сложной компьютерной игре». MIT Tech Review . Получено 25 июня 2018 г.
^ "Билл Гейтс приветствует "огромную веху" для ИИ, поскольку боты работают в команде, чтобы уничтожить людей в видеоигре "Dota 2"". Business Insider . Архивировано из оригинала 27 июня 2018 года . Получено 27 июня 2018 года .
^ "Твиттер Гарри Каспарова". 24 августа 2018 г. Получено 24 августа 2018 г.
↑ Парк, Морган (11 августа 2018 г.). «Как OpenAI Five разорвала команду профессионалов Dota 2». PC Gamer . Получено 25 мая 2020 г.
^ Голт, Мэтью (17 августа 2018 г.). «OpenAI побеждает людей в «Dota 2», потому что это, по сути, мошенничество». Vice . Получено 25 мая 2020 г.
^ Статт, Ник (30 октября 2019 г.). «ИИ StarCraft 2 от DeepMind теперь лучше, чем 99,8 процентов всех игроков-людей». The Verge . Получено 25 мая 2020 г. .
^ ОпенАИ; Андрыхович, Марцин; Бейкер, Боуэн; Чосей, Мацек; Юзефович, Рафал; МакГрю, Боб; Пачоцкий, Якуб; Петрон, Артур; Плапперт, Матиас; Пауэлл, Гленн; Рэй, Алекс; Шнайдер, Йонас; Сидор, Шимон; Тобин, Джош; Велиндер, Питер; Венг, Лилиан; Заремба, Войцех (2019). «Обучение ловкому манипулированию руками». arXiv : 1808.00177v5 [cs.LG].
^ OpenAI; Аккая, Илге; Андрыхович, Марчин; Хоцей, Мацек; Литвин, Матеуш; МакГрю, Боб; Петрон, Артур; Пайно, Алекс; Плапперт, Маттиас; Пауэлл, Гленн; Рибас, Рафаэль (2019). «Сборка кубика Рубика с помощью руки робота». arXiv : 1910.07113v1 [cs.LG].

Внешние ссылки

Официальный сайт
Официальный блог