Лига AlphaStar. Агенты сначала обучаются на повторах игр людей, а затем в игре против других соперников в лиге. На каждой итерации “отпочковываются” новые соперники, изначальные соперники “замораживаются”, а также могут быть адаптированы вероятности подбора соперников (matchmaking) и гиперпараметры, которые определяют цель обучения каждого агента, что увеличивает сложность при сохранении разнообразия. Параметры агента обновляются c помощью обучения с подкреплением на основе результатов игр. Конечный агент собирается (без замен) из распределения Нэша [агентов] лиги.
Читайте также
Сергей Марков: Искусственный интеллект и машинное обучение — итоги 2023 года
Робомобили учатся принимать моральные решения без использования «трамвайной дилеммы»
Роботы из МФТИ выиграли открытый чемпионат Бразилии по робофутболу
Робот-химик с искусственным интеллектом изготовил «марсианский» катализатор для производства кислорода
Комментарии