为什么《王者荣耀》是理想的人工智能强化学习竞赛场

2022.08.09
最近,不少玩家在YouTube等平台围观Honor of Kings的首测。这款备受期待的手游计划于今年底在全球逐步上线。

由腾讯游戏天美工作室群研发的手游《王者荣耀》2015年发布以来,常年跻身最受欢迎的多人在线战术竞技游戏(MOBA)之列。

少有人知的是,《王者荣耀》不仅是一款现象级手游,还是进行AI研究的试金石。

在今年4月落幕的第二届开悟多智能体强化学习大赛中,充满活力的学生开发团队构建了基于强化学习(RL)的AI算法,可用于《王者荣耀》中自主攻防对抗。

由清华大学五名学生组成的团队最终获胜,他们表示,RL模型的理论能力在实际应用中并不像想象的那么容易。

组长陈华玉同学表示,尽管自己和其他团队成员都是《王者荣耀》的忠实玩家,但一开始,我们甚至无法创建游戏环境,更不用说训练智能体玩游戏了。

他们用了五个月时间处理源代码,慢慢探索游戏架构,与来自全国其他19所顶尖高校的团队展开激烈角逐,最终摘得桂冠。

深度学习迎接挑战

过去,国际象棋和围棋等棋盘类游戏曾为深度RL算法提供了理想的试验环境。Google旗下DeepMind开发的计算机程序AlphaGo堪称最为破圈的案例之一。2016年,AlphaGo4-1击败18次国际赛冠军、传奇人物李世乭。

六年时光飞逝,游戏AI研究的焦点已经从棋盘类游戏转移到更复杂、非完美的信息游戏和策略类电子游戏。

《王者荣耀》作为一款5V5 MOBA类游戏,具有高复杂度、高挑战性、强协作性的特点,正是AI研发所需要的理想环境。

随着大赛赛程过半,其他团队后来居上,而清华大学团队的排名却不断下滑。有时,他们投入几天的时间和精力训练模型但改善甚微,而更糟糕的是模型会突然崩溃,团队不得不重新开始。

陈华玉说:这是个艰难、缓慢且枯燥的过程,起初令人沮丧。但终于,情况有了转机

我们仔细思考了可能导致错误的原因,然后一点点地对算法进行调整。突然之间,柳暗花明。陈华玉设计的AI智能体在无数次迭代中不断学习。对某一场景进行上千次训练后,智能体可以计算出各个选项的胜率,最终选用最优解。

解决实际问题

环境越复杂,训练出的AI就越聪明。腾讯AI实验室总经理杨巍解释道,游戏提供了一个最优的研发环境,拥有明确的目标和指标,更容易进行测试和迭代。

无论是由人类测试员提供还是由AI在对战中生成,数据都是直接在虚拟世界中获取,不需要额外的传感器和处理器,杨巍表示,这类范式同样可以更有效地解决现实问题。

杨巍补充道,如果AI可以像人类那样,在《王者荣耀》等复杂游戏中学会实时感知、分析、理解、推理、决策和行动,那就预示着它具有更大的潜力解决广泛领域的问题,例如机器人、农业、交通和能源等。

腾讯开悟平台的综合实力让这项比赛成为一个汇聚行业、学术界和研究机构的平台。

游戏环境可以不断提升AI能力,沉淀创新算法,打造更通用的AI工具。可以想象,下一个AI里程碑可能会诞生在策略游戏中,并逐步应用于推动教育和医疗等更多实用性领域的发展。

                                                                                                       腾讯AI实验室总经理杨巍

获胜秘诀

陈华玉认为,团队分工明确、队员工程能力强和实现完全自动化的代理部署是他们此次比赛RL开发成功的关键。

智能体发生错误时,我们知道算法的哪个部分出了问题,而且我们团队拥有丰富的工程经验,可以帮助我们更快地找到并解决问题。

在比赛的最后两个月时间里,他们已经可以完全自动化地部署智能体,甚至可以用AI选出最好的智能体。这样一来,他们比其他团队效率更高,便能够进行更多实验。

此外,每名成员被分配了明确具体的任务。陈华玉负责设计算法,一名队员负责记录和跟踪实验,一人管理神经网络模型,另一人负责工程、测试和优化。

培养下一代AI先行者

在第二届开悟多智能体强化学习大赛一举夺魁后,今年3月陈华玉带领新团队报名参加了第31届世界大学生夏季运动会的数智竞技邀请赛。由腾讯举办的开悟AI多智能体博弈赛道是邀请赛项目之一。

陈华玉表示,数智竞技邀请赛具有若干优势,对学生和研究人员很有吸引力。

使用先进的智能算法需要大量的算力,这超出了学生个人甚至许多大学实验室的能力。

《王者荣耀》的世界规模庞大,如果研究人员单靠自己来进行那些测试,可能会耗时数年,成本亦令人望而却步。而参赛团队可以获得腾讯开悟平台提供的强大算力和云服务。

因此,数智竞技邀请赛成为推动建立新生态的助推器,将产学研相结合,实现学生和机构之间的研究合作。参赛团队来自加拿大、荷兰、澳大利亚、美国和中国(包括香港)。借此机会,参赛者不仅可以与世界各地其他顶尖高校进行比拼,展开交流,而且可以在团队内部和团队之间建立联系。

腾讯天美L1工作室总经理、《王者荣耀》项目执行制作人黄蓝枭表示:我们依托《王者荣耀》AI和电竞领域的沉淀,搭建充满青春活力的世界大学生数智竞技交流平台。来自不同国家和地区的青年学子在赛事中跨越语言与地域的差异,进一步加深国际青年群体间的相互尊重和友谊。

黄蓝枭说:《王者荣耀》希望以教育、竞赛和科研的共生发展模式推动AI产业生态的建设,从而成为AI产业发展的三条新纽带。