腾讯发明的对战格斗类AI游戏模型生成以及训练方法,该方案无需人工设计特定的对战格斗类AI游戏模型,只需要AI游戏角色自对弈即可生成该对战格斗类AI游戏模型,从而降低了人工维护的成本。
前不久,在2021世界人工智能大会开幕式上,腾讯带来了王者荣耀的AI电竞赛,腾讯公司董事会主席兼首席执行官马化腾表示,“希望以此激发青年人对通用AI的研究兴趣”。
将AI应用在游戏领域,早有研究人员对此进行尝试,例如使用强化学习对于赛车类游戏进行控制,但是面对对战格斗类游戏时,由于格斗游戏有决策时间短、决策空间大、策略变化丰富等特点,因此对于普通AI模型来说具有非常大的挑战。
在对战游戏的过程中,受限于游戏限定的对抗时间和范围,玩家需要通过合理的位移来规避风险并且尽可能对对方角色造成伤害。由于对手的行为策略丰富多变,面对如此巨大的决策空间和决策的实时需求,制定、选择和执行策略是游戏智能系统至关重要的环节。
目前,现有方案主要利用行为树用来实现制定、选择和执行策略,这种行为树也被称为对战格斗类AI游戏模型。然而,这种对战格斗类AI游戏模型存在大量的判断分支描述,需要人工反复调整,人工工作量很大且效率非常低。
为此,腾讯在2021年3月11日申请了一项名为“对战格斗类AI游戏模型的生成方法、装置、设备及介质”的发明专利(申请号:202110265501.2),申请人为腾讯科技(深圳)有限公司。
根据该专利目前公开的相关资料,让我们一起来看看这项对战格斗类AI游戏模型的生成方法吧。
为该专利中发明的对战格斗类AI游戏模型的生成方法的流程图,该方法通常部署在服务器集群或者分布式系统中。首先,系统获取第一对战格斗类AI游戏模型,通过格斗模型中两个AI游戏角色的对弈来生成多个训练样本。
第一对战格斗模型可以输出每个动作的概率分布,例如游戏人物向左移动、向右移动、向上移动、攻击、跳跃以及进行格挡的概率。接着,根据这多个训练样本训练第一对战格斗类AI游戏模型,以得到第二对战格斗类AI游戏模型,该模型相比于第一对战模型更具智能性,可完成更加复杂的游戏人物操作。
其中,生成训练样本的方法流程图如上图所示,首先,初始化第一对战格斗类AI游戏模型中的参数,以得到第三对战格斗类AI游戏模型。其次,在两个AI游戏角色的每轮对弈过程中,将当前游戏局面对应的游戏局面信息输入第三对战格斗类AI游戏模型,以得到两个AI游戏角色各自的动作概率分布,并控制两个AI游戏角色根据各自的动作概率分布执行对应的动作,以进入下一个游戏局面,将下一个游戏局面作为新的当前游戏局面,直至两个AI游戏角色决出胜负。
最后,即可生成两个AI游戏角色中胜利方对应的多个第一训练样本和失败方对应的多个第二训练样本。训练样本包括:第一游戏局面信息和第一动作概率分布,第一游戏局面信息是每轮对弈过程中胜利方所获取到的任一游戏局面信息。
最后,我们再来看看执行上述方法的生成训练样本的示意图,服务器可以在多个第二训练样本中选择一个第二训练样本进行变异,例如:服务器在多个第二训练样本中随机选择50%进行变异。其中,服务器会根据第二游戏局面信息对第二动作概率分布进行调整,以得到第三动作概率分布。
例如:当游戏角色被攻击的时候,服务器会操作该游戏角色选择跳跃或者格挡,如果根据当前局面下的动作概率分布得到的跳跃和格挡的概率并不高,服务器则会对跳跃和格挡的概率进行变异调整,比如增加跳跃或者格挡的概率。
这些变异之后的样本虽然不能保证游戏角色一定会胜利,但是能够取得比失败更好的结果,因此服务器可以将该游戏角色的获胜率标记为胜利与失败之间,从而不断提高AI游戏模型获胜的概率。
以上就是腾讯发明的对战格斗类AI游戏模型生成以及训练方法,该方案无需人工设计特定的对战格斗类AI游戏模型,只需要AI游戏角色自对弈即可生成该对战格斗类AI游戏模型,从而降低了人工维护的成本。此外,这种方案采用变异的训练方式,可以产生丰富的策略变化,以满足高水平玩家的竞技陪玩需求。