用飞桨深度强化学习框架PARL来深度强化学习《明日方舟》

来源：天极下载时间：2021-04-21 14:09:17 作者： MM

每个游戏玩家都有一个梦，希望自己在虚拟世界中成为万众瞩目、无所不能的英雄。然后…然后…闹钟响了梦醒了，又到了挤地铁上班的时间。

不过，在这个项目中，我将带大家暂时忘却现实的烦恼，用飞桨深度强化学习框架PARL来实现这个“英雄梦”!先放效果图：

知识回顾

大家是不是迫不及待了呢？且慢，要实现《明日方舟》游戏的深度强化学习，还是先让我带大家回顾一下深度强化学习算法历史。DQN是深度强化学习算法开山之作，在经典街机游戏上取得了非常好的效果。它使用了ReplyMemory来存储和回放经验，这是Off-policy类型算法的常用技巧。但是，DQN在应对手机游戏时，能力就不够看了。于是我把目光投向了更为强大的算法--- A3C。

A3C算法与DQN不同，它设计了异步多线程的Actor-Critic，每个Agent在自己的线程中运行，然后全局共享学习到的网络参数。这样，每时每刻都能有大量的交互数据，并且这些多线程采集到的数据没有关联性(关联性问题：请参考DDQN算法原理)。因此，A3C算法通过“异步多线程+共享全局参数”达到了和ReplyMemory类似的效果。而且，它既有大量数据可以解决训练过程不稳定问题，同时又解决了参数关联性的问题。

在经典算法PG中，我们的Agent又被称为Actor，Actor对于一个特定的任务，都有自己的一个策略π。策略π通常用一个神经网络表示，其参数为θ。从一个特定的状态State出发，一直到任务的结束，被称为一个完整的Episode。在每一步，我们都能获得一个奖励r，一个完整的任务所获得的最终奖励被称为R。

如果我们用Q函数来预估未来的累积奖励，同时创建一个Critic网络来计算Q函数值，那么我们就得到了Actor-Critic方法。

Q函数在A3C里的主要作用是增加一个基线，使得反馈有正有负，这里的基线通常用状态价值函数V来表示。但是，当我们应用这样的方法，则需要同时计算Q函数和V函数，这并不容易。Q函数可以用“Step t+1的V函数”加上“从Step t到Step t+1的r”来代替。这样，我们就可以得到用V来表示的Q值计算，我们一般称为Advantage(优势函数)，此时的Critic网络变为计算优势函数A的网络。

A3C是Asynchronous Advantage Actor-Critic的缩写，中文翻译为异步的优势动作评价算法。其中，Advantage就是指优势函数A。因此，从名字这里我们可以解读出来A3C实质就是求解πθ网络和Aπ(s, a)网络。

在A3C算法论文中，论文作者对比了四种算法——异步Sarsa、异步Q-Learning、DQN和A3C。论文发表后，各路算法大神验证一个问题——是异步更新让算法表现优于其他算法？。结果非常有趣：多线程是A3C算法快的原因，但是”异步更新“反而是它的缺点。于是，科学家提出同步更新算法A2C(Advantage Actor-Critic)，让它可以更有效利用CPU资源。

PS：算法大神照样被打脸，啪啪啪!

在下面部分，我会先对PARL库内置的A2C算法进行简单解读，这样大家在看项目实践部分时，就能少阅读一些代码。

Learner

这个类有意思的地方是，PARL库用了A3C的名字。原因是A2C和A3C是同源算法。它们实现上的主要区别是step函数(后面会讲到)。

env = gym.make(config[ 'env_name'])

env = wrap_deepmind(env, dim=config[ 'env_dim'], obs_format= 'NCHW')

obs_shape = env.observation_space.shape

act_dim = env.action_space.n

self.config[ 'obs_shape'] = obs_shape

self.config[ 'act_dim'] = act_dim

model = AtariModel(act_dim)

algorithm = parl.algorithms.A3C(

model, vf_loss_coeff=config[ 'vf_loss_coeff'])

self.agent = AtariAgent(algorithm, config)

create_actors

这段代码有意思的地方是，它把自己连接到了XPARL集群，然后去执行run_remote_sample。阅读过DQN源码的同学应该很好理解，它的意思就是在独立进程运行“取样”。

defcreate_actors(self):

# 先把自己连接到XPARL集群上去

parl.connect(self.config[ 'master_address'])

fori insix.moves.range(self.config[ 'actor_num']):

...

remote_thread = threading.Thread(

# 在工作线程中运行run_remote_sample函数

# 通过params_queue传递模型的参数

target=self.run_remote_sample, args=(params_queue, ))

remote_thread.setDaemon( True)

remote_thread.start

...

step函数

step函数是A2C算法中最重要、独特的函数，作用是同步等待更新操作。因为A2C算法会同步等待所有Agent(Actor)完成一轮训练后，把π网络的参数θ同步上来，更新全局的π网络参数。

Actor函数

注解@parl.remote_class表明Actor类是在独立的本机进程中执行(因为A2C是利用本机多CPU)。通过两行命令部署了PARL分布式集群，Actor实际是在远程server中运行了。

注意，Actor的init方法中保存了env数组，用同样的参数实例化了模型，用同样的模型实例化了算法并作为参数传入到了Agent中。

@parl.remote_class

classActor(object):

def__init__(self, config):

...

# Actor保存了env数组

self.envs = []

for_ inrange(config[ 'env_num']):

env = gym.make(config[ 'env_name'])

env = wrap_deepmind(env, dim=config[ 'env_dim'], obs_format= 'NCHW')

self.envs.append(env)

...

model = AtariModel(act_dim)

algorithm = parl.algorithms.A3C(

model, vf_loss_coeff=config[ 'vf_loss_coeff'])

self.agent = AtariAgent(algorithm, config)

大家还要关注的点是，每个Actor对应一个Agent。

sample函数

Actor中的sample函数会调用Agent的sample函数和Agent的value函数来分别更新本地的π网络和v网络，最终返回sample_data给中心节点。

...

actions_batch, values_batch = self.agent.sample(np.stack(self.obs_batch))

...

next_value = self.agent.value(next_obs)

...

sample_data的数据结构：

sample_data[ 'obs'].extend(env_sample_data[env_id][ 'obs'])

sample_data[ 'actions'].extend(env_sample_data[env_id][ 'actions'])

sample_data[ 'advantages'].extend(advantages)

sample_data[ 'target_values'].extend(target_values)

其中，优势函数的的计算如下：

# gae：generalized advantage estimator

advantages = calc_gae(rewards, values, next_value,

self.config[ 'gamma'],

self.config[ 'lambda'])

target_values = advantages + values

VectorEnv函数

这个类是PARL对env环境的封装。我们的模拟真机环境，也采用了同样的定义，主要是为了同时跑多个环境，增加并行计算的效率，如下所示：

classVectorEnv(object):

def__init__(self, envs):

defreset(self):

...

defstep(self, actions):

# env需要实现step方法

obs, reward, done, info = self.envs[env_id].step(actions[env_id])

...

ifdone:

# env需要实现reset方法

obs = self.envs[env_id].reset

...

returnobs_batch, reward_batch, done_batch, info_batch

模拟器的源数据是由此类中的step方法批量返回。

实战编程

1.游戏模拟器编写&训练

新建《明日方舟》模拟器项目：

ArKnight_A2C_Simulator

因为《明日方舟》是手机网络游戏，数据生产速度实在太慢了!!!为了提高训练速度，需要自己开发模拟器。用模拟器后速度可提升50-100倍。

修改Learner的初始化方法：

#=========== Create Agent ==========

game = ArKnights

env = PMGE(game)

obs_shape = ( 3, 108, 192)

act_dim = 650

定义新的env.py：

classPMGE(object):

def__init__(self, game):

self.game = game

defstep(self, action):

# 模拟器简化了状态判断

# 实际项目应该实时生成：当前屏幕--> stateCode 的关系

s1 = [ self.game.stateCode ]

# 产生状态变化

self.game.act(action, s1)

reward = self.game.getScore(s1)

isOver = self.game.gameOver

next_obs = self.game.render

# 为了匹配标准的API

returnnext_obs, reward, isOver, 0

defreset(self):

returnself.game.reset

修改Actor：

classActor(object):

def__init__(self, config):

self.config = config

self.envs = []

for_ inrange(config[ 'env_num']):

game = ArKnights

env = PMGE(game)

self.envs.append(env)

self.vector_env = VectorEnv(self.envs)

self.obs_batch = self.vector_env.reset

model = Model(config[ 'act_dim'])

algorithm = parl.algorithms.A3C(

model, vf_loss_coeff=config[ 'vf_loss_coeff'])

self.agent = Agent(algorithm, config)

定义训练用的模拟环境：

classArKnights(object):

def__init__(self):

"""

游戏《明日方舟》智能体定义

"""

self.stateCode = 990

# 1920x1080 ----- 1920/80 x 1080/40 = 24x27

self.tap_dim = 24* 27

self.swipe_dim = 4# 上下左右

defrender(self):

imgDir = IMAGE_DIR + str(self.stateCode) + '/'

filenames = os.listdir(imgDir)

# 在stateCode目录下随机取一张图片

filename = random.choice(filenames)

returnself.transform_img(imgDir + filename)

defact(self, action, stateCode):

ifstateCode[ 0] == 990:

ifaction in[ 442, 443, 444, 445, 466, 467, 468, 469]:

self.stateCode = 970

ifstateCode[ 0] == 970:

ifaction in[ 111, 112, 113, 114, 115,

135, 136, 137, 138, 139,

159, 160, 161, 162, 163,

183, 184, 185, 186, 187,

207, 208, 209, 210, 211]:

self.stateCode = 965

defgetScore(self, s1):

# 状态没变扣一分

ifs1[ 0] == self.stateCode:

return-1

return1

defgameOver(self):

code = self.stateCode

# if (code == 910 or code == 1010):

# for debug 让算法快速收敛

if(code == 965):

returnTrue

returnFalse

defreset(self):

self.stateCode = 990

imgDir = IMAGE_DIR + str(self.stateCode) + '/'

filenames = os.listdir(imgDir)

# 在990目录下随机取一张图片

filename = random.choice(filenames)

returnself.transform_img(imgDir + filename)

deftransform_img(self, filepath):

# 直接读取 (h,w)

img = cv2.imread(filepath, cv2.IMREAD_COLOR)

# 将图片尺寸缩放道 (image, (w,h)) 192x108

img = cv2.resize(img, ( 192, 108))

# 因为cv2的数组长宽是反的，所以用numpy转置一下 (C,H,W)

img = np.transpose(img, ( 2, 0, 1))

obs = img.astype( 'float32')

returnobs

在模拟器中经过大约10万个steps，模型的loss就收敛了。

2.编写状态推理引擎

新建项目ARKNIGHT_CLASSIFY，使用残差神经网络对《明日方舟》中的主要游戏界面做了预定义。利用这个引擎，在真机部署的时候可以推断出当前游戏的state，用于计算reward和game over这两个重要参数。

3.评估强化学习模型

在深度强化学习中，效果评估非常重要，因为我们要知道算法从数据中学到了什么？

我们在第一步中得到了模型，在第二步中得到了真机环境下的reward和game over函数。

那么我们就要在真机环境中去测试。

deftest:

game = ArKnights

env = PMGE(game)

obs_shape = ( 3, 108, 192)

act_dim = 650

config[ 'obs_shape'] = obs_shape

config[ 'act_dim'] = act_dim

model = Model(act_dim)

algorithm = parl.algorithms.A3C(model, vf_loss_coeff=config[ 'vf_loss_coeff'])

agent = Agent(algorithm, config)

agent.restore( "./model_dir")

# 初始状态

obs = env.reset

MAX_STEP = 20

step = 0

whileTrue:

state_code = env.game.stateCode

action = agent.predict(obs)

obs, reward, isOver, _ = env.step(action)

next_state_code = env.game.stateCode

step += 1

logger.info( "evaluate state_code:{}, action:{} next_state_code:{}, reward:{}, isOver:{}".format(state_code, action, next_state_code, reward, isOver))

ifisOver orstep >MAX_STEP:

logger.info( "GameOver, state:{}".format(next_state_code))

break;

可以看到，我只用了2步，算法就成功达到了设定的终止状态[965]。新建部署项目ArKnight_A2C，把模型导入，效果如下：

4.模型和状态推理引擎部署到真机

定义真机环境：

importtime

importcv2

fromPIL importImage

importnumpy asnp

fromadbutil importAdbUtil

fromresnet importResNet

importpaddle

importpaddle.fluid asfluid

classArKnights(object):

def__init__(self):

self.adbutil = AdbUtil

# 加载推理模型

withfluid.dygraph.guard:

# 加载状态推断引擎

self.model = ResNet( 'resnet', 50)

#加载模型参数

model_state_dict, _ = fluid.load_dygraph( "arknights")

self.model.load_dict(model_state_dict)

self.model.eval

def_restart(self):

"""

打开游戏进程

如果已经打开，先关闭再重新打开

"""

self.adbutil.stopArKnights

self.adbutil.startArKnights

# 每隔1秒在屏幕中心点击1下，持续20秒

self.adbutil.taptap( 960, 540, 20, 1)

def_stop(self):

"""

关闭游戏进程

"""

self.adbutil.stopArKnights

defact(self, action):

# 点击动作code映射成动作

ifaction < 648:

x = (action % 24) * 80+ 40# 取余

y = (action // 24) * 40+ 20# 取商

self.adbutil.taptap(x,y, 1, 0.01) # x,y,count,frequency

elifaction == 648:

self.adbutil.rightswipeswipe( 2, 0.5)

elifaction == 649:

self.adbutil.leftswipeswipe( 2, 0.5)

else:

raise( "No such action error!"+ str(action))

time.sleep( 2) # 等动作执行完

defrender(self):

# TODO check shape

img = self.adbutil.screencap

img = img.resize(( 192, 108), Image.ANTIALIAS)

# 因为图片的数组长宽是反的，所以用numpy转置一下 (C,H,W)

img = np.transpose(img, ( 2, 0, 1))

obs = img.astype( 'float32')

returnobs

defreset(self):

self._restart

returnself.render

defgameOver(self):

state = self.inferState

print( "state"+str(state))

ifstate[ 0] == 965:

returnTrue

else:

returnFalse

definferState(self):

"""

图片推断

"""

...

这里的游戏状态推断引擎，就是ARKNIGHT_CLASSIFY项目输出的推理模型。有了状态的推理值，代码中的reward和game over就可以和真机环境匹配上。同时，用AdbUtil类来执行真实动作，就可以操作真机执行算法动作。最终真机运行效果如下(手机屏幕的变化请看视频)：

在这个文章中，我给大家展示了如何构建明日方舟的交互环境，以及如何通过PARL快速调用A3C算法实现并行训练，整体实现起来简单易懂。

看到这儿，大家是不是迫不及待地想要自己动手尝试!

“英雄们”，快用飞桨去实现你们的美梦吧，yyds(永远滴神)!

相关推荐

腾讯音乐旗下有哪些音乐软件_腾讯音乐娱乐介绍

腾讯音乐娱乐集团(TME)旗下涵盖多款音乐类软件及服务，核心软件包括QQ音乐、酷狗音乐、酷我音乐、全民K歌四大主流应用，以及酷狗直播、懒人听书、5sing等衍生…

更新时间：2025-06-12 | 作者：zmj | 已阅读：21次
金舟打字通VS金山打字通：多维度专业对比解析

金舟打字通VS金山打字通打字模式对比；金舟打字通VS金山打字通优势对比；金舟打字通和金山打字通软件对比分析。

更新时间：2025-04-03 | 作者：DQ | 已阅读：85次 | 标签：金山打字通
突发！BOSS直聘又崩了？这些应急策略助你求职不 “断档”

利用其他招聘平台：1.注册并使用其他主流招聘平台：市面上有许多优秀的招聘平台可供选择，如智联招聘、前程无忧、脉脉等。可以在本站搜索查询招聘软件哦。2.挖掘小众招…

更新时间：2025-03-19 | 作者：软件分析员 | 已阅读：87次
于和伟新剧《我是刑警》在哪在线看_《我是刑警》剧情解析

于和伟新剧《我是刑警》是由爱奇艺独播的一部电视剧。爱奇艺作为中国领先的视频平台之一，将为观众提供这部剧的全网观看通道。如果你是刑侦剧的爱好者，或者喜欢看紧张刺激…

更新时间：2024-11-28 | 作者：ZJL | 已阅读：688次 | 标签：爱奇艺视频
《柳舟记》在什么地方能一次性看完全集_是不是会员才能下载

柳舟记电视剧在腾讯视频平台能一次性看完全集，目前该剧已经更新至第10集，VIP会员可以观看至第9集，SVIP会员可以观看至第10集，非VIP会员可以免费观看与下…

更新时间：2024-08-16 | 作者：rw | 已阅读：202次 | 标签：视频播放器腾讯软件
《九部的检察官》在哪个平台能一口气看完_免费还是付费收看

九部的检察官电视剧目前在爱奇艺这个平台能一口气看完全集，目前该剧已经更新至第6集，VIP会员用户可以观看至第6集，非VIP会员不付钱可以观看缓存至第3集，因为目…

更新时间：2024-08-16 | 作者：rw | 已阅读：310次 | 标签：视频播放器视频软件
《四海重明》完整版在线观看平台_是不是会员才能看

四海重明电视剧完整版不付费的观看平台是爱奇艺和芒果TV，这部剧在双平台播出，即便2个平台都没有开通会员前期也都可以一口气看完全集。

更新时间：2024-08-08 | 作者：rw | 已阅读：158次 | 标签：视频播放器视频软件
不是芒果会员能看披荆斩棘4吗_是否可以免费下载

通过调查发现，不是芒果TV会员能观看披荆斩棘第四季全集，只不过需要等待节目播出一个星期后转免了才能观看。同时，芒果TV不支持免费下载披荆斩棘4。

更新时间：2024-08-02 | 作者：rw | 已阅读：213次 | 标签：视频播放器视频软件
连夜整理！2024年4大平台暑期定档电视剧排行榜！

目前2024年暑期定档待播电视剧有《你比星光美丽》、《长相思第二季》、《颜心记》、《度华年》、《柳舟记》以及《少年白马醉春风》、《乌云之上》、《错位(原名交错的…

更新时间：2024-06-21 | 作者：rw | 已阅读：458次 | 标签：视频播放器视频软件
2024奥运会直播观看入口在哪里_在线观看平台汇总

2024巴黎奥运会直播在腾讯视频这个播放器上可以看，因为就在昨天晚上，腾讯宣布，中央广播电视总台与腾讯就 2024 巴黎奥运会视频点播及短视频版权达成合作意向，…

更新时间：2024-06-20 | 作者：rw | 已阅读：4441次 | 标签：视频播放器腾讯软件
《维和防暴队》下载平台推荐_免费还是付费下载

目前并没有找到维和防暴队完整版的免费下载观看平台，虽然这部电影在爱奇艺、腾讯视频、优酷以及芒果TV这4个视频平台都可以在线进行观看，但是完整版的观看和下载都是需…

更新时间：2024-06-17 | 作者：rw | 已阅读：173次 | 标签：视频播放器视频软件
《看不见影子的少年》全集下载平台分享_不付费能不能下载

看不见影子的少年全集在爱奇艺平台可以观看下载，但是目前该剧只支持前2集的免费下载与观看，后面16集都是需要付费开通会员后才能够观看和缓存的。

更新时间：2024-06-11 | 作者：rw | 已阅读：195次 | 标签：视频播放器视频软件
世预赛中国队直播回放观看入口在哪_在线观看平台推荐

世界杯亚洲区预选赛中国队的比赛直播在央视影音这个平台可以看，在软件的【体育】频道中，找到【赛事中心】中6月11日中国队和韩国队的世预赛亚洲C组第6轮比赛，然后点…

更新时间：2024-06-07 | 作者：rw | 已阅读：57次 | 标签：视频软件央视影音CBox
熬夜整理！2024年6月即将上映电视剧大全！

根据查找到的资料来看，目前2024年6月即将上映的电视剧有13部，分别是《玫瑰的故事》、《度华年》、《颜心记》、《交错的场景》、《小夫妻》、《锦绣安宁》、《爱情…

更新时间：2024-06-03 | 作者：rw | 已阅读：386次 | 标签：视频播放器腾讯软件
《狐妖小红娘月红篇》观看入口在哪_在线播放平台分享

狐妖小红娘月红篇在爱奇艺这个网络平台能预约观看下载，启动电脑端的爱奇艺，然后软件就会弹出这部最新电视剧的预约提醒，直接点击【立即预约】按钮即可完成预约。而如果没…

更新时间：2024-05-23 | 作者：rw | 已阅读：71次 | 标签：视频播放器视频软件
2024年5月定档待播新剧有几部_即将上映影视剧大盘点

目前2024年5月国内已经定档的待播电视剧有《庆余年第二季》，《狐妖小红娘月红篇》，《看不见影子的少年》，《孤舟》，《墨雨云间》以及《半熟男女》共6部。

更新时间：2024-05-11 | 作者：rw | 已阅读：240次 | 标签：视频播放器腾讯软件
我的阿勒泰完整版在什么地方下载_全集缓存平台揭晓

于适马伊琍新剧我的阿勒泰免费完整版在爱奇艺平台可以下载并观看，目前该剧已经更新至第7集，VIP用户可以观看与下载至第7集，非VIP用户可以免费观看和下载至第3集…

更新时间：2024-05-10 | 作者：rw | 已阅读：124次 | 标签：视频播放器视频软件
井柏然新剧新生不付钱去哪里下载_新生全集缓存平台解析

井柏然新剧新生是网剧但其实也算电视剧，因为网剧也属于电视剧的一种，但它不在电视台频道播出，在互联网视频平台播出。

更新时间：2024-05-07 | 作者：rw | 已阅读：193次 | 标签：视频播放器视频软件
乘风2024在什么地方可以下载_不付钱的下载平台汇总

根据查找到的资料来看，乘风2024就是乘风破浪的姐姐第5季，而在去年的乘风破浪的姐姐第4季的时候，其实它就改名为乘风2023了，而今年的其实就是第五季。

更新时间：2024-04-22 | 作者：rw | 已阅读：76次 | 标签：视频播放器视频软件
谍战剧哈尔滨一九四四在什么地方能一口气看完_不花钱的观看平台整理

2024杨幂秦昊最新谍战大剧哈尔滨一九四四在爱奇艺这个网络视频平台可以不付钱一口气看完合集，该剧将于4月21日晚19:30分上线播出。

更新时间：2024-04-19 | 作者：rw | 已阅读：154次 | 标签：视频播放器视频软件