当前位置：首页 > 综合 > 正文

强化学习从基础到进阶-常见问题和面试必知必答[7]：深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解

时间：2023-06-28 06:13:19 来源：博客园

强化学习从基础到进阶-常见问题和面试必知必答[7]：深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解

1.核心词汇

深度确定性策略梯度（deep deterministic policy gradient，DDPG）：在连续控制领域经典的强化学习算法，是深度Q网络在处定性”表示其输出的是一个确定的动作，可以用于连续动作环境；“策略梯度”代表的是它用到的是策略网络，并且每步都会更新一次，其是一个单步更新的策略网络。其与深度Q网络都有目标网络和经验回放的技巧，在经验回放部分是一致的，在目标网络的更新上有些许不同。

2.常见问题汇总

2.1 请解释随机性策略和确定性策略，两者有什么区别？

（1）对于随机性策略 $\pi_\theta(a_t|s_t)$ ，我们输入某一个状态 $s$，采取某一个动作 $a$ 的可能性并不是百分之百的，而是有一个概率的，就好像抽奖一样，根据概率随机抽取一个动作。

(资料图)

（2）对于确定性策略 $\mu_{\theta}(s_t)$ ，其没有概率的影响。当神经网络的参数固定之后，输入同样的状态，必然输出同样的动作，这就是确定性策略。

2.2 对于连续动作的控制空间和离散动作的控制空间，如果我们都采取策略网络，应该分别如何操作？

首先需要说明的是，对于连续动作的控制空间，Q学习、深度Q网络等算法是没有办法处理的，所以我们需要使用神经网络进行处理，因为其可以既输出概率值，也可以输出确定的策略 $\mu_{\theta}(s_t)$ 。

（1）要输出离散动作，最后输出的激活函数使用 Softmax 即可。其可以保证输出的是动作概率，而且所有的动作概率加和为1。

（2）要输出连续的动作，可以在输出层中加一层tanh激活函数，其可以把输出限制到 $[-1,1]$ 。我们得到这个输出后，就可以根据实际动作的一个范围再做缩放，然后将其输出给环境。比如神经网络输出一个浮点数2.8，经过tanh激活函数之后，它就可以被限制在 $[-1,1]$ ，输出0.99。假设小车的速度的动作范围是 $[-2,2]$ ，那我们就按比例将之从 $[-1,1]$ 扩大到 $[-2,2]$ ，0.99乘2，最终输出的就是1.98，将其作为小车的速度或者推小车的力输出给环境。

3.面试必知必答

3.1 友善的面试官：请简述一下深度确定性策略梯度算法。

深度确定性策略梯度算法使用演员-评论员结构，但是输出的不是动作的概率，而是具体动作，其可以用于连续动作的预测。优化的目的是将深度Q网络扩展到连续的动作空间。另外，其含义如其名：

（1）深度是因为用了深度神经网络；

（2）确定性表示其输出的是一个确定的动作，可以用于连续动作的环境；

（3）策略梯度代表的是它用到的是策略网络。强化算法每个回合就会更新一次网络，但是深度确定性策略梯度算法每个步骤都会更新一次策略网络，它是一个单步更新的策略网络。

3.2 友善的面试官：请问深度确定性策略梯度算法是同策略算法还是异策略算法？请说明具体原因并分析。

异策略算法。（1）深度确定性策略梯度算法是优化的深度Q网络，其使用了经验回放，所以为异策略算法。（2）因为深度确定性策略梯度算法为了保证一定的探索，对输出动作加了一定的噪声，行为策略不再是优化的策略。

3.3友善的面试官：你是否了解过分布的分布式深度确定性策略梯度算法（distributed distributional deep deterministic policy gradient，D4PG）呢？请描述一下吧。

分布的分布式深度确定性策略梯度算法（distributed distributional deep deterministic policy gradient，D4PG)，相对于深度确定性策略梯度算法，其优化部分如下。

（1）分布式评论员：不再只估计Q值的期望值，而是估计期望Q值的分布，即将期望Q值作为一个随机变量来估计。

（2）$N$步累计回报：计算时序差分误差时，D4PG计算的是$N$步的时序差分目标值而不仅仅只有一步，这样就可以考虑未来更多步骤的回报。

（3）多个分布式并行演员：D4PG使用$K$个独立的演员并行收集训练数据并存储到同一个回放缓冲区中。

（4）优先经验回放（prioritized experience replay，PER）：使用一个非均匀概率从回放缓冲区中进行数据采样。

更多优质内容请关注公号：汀丶人工智能

X 关闭

最新推荐

强化学习从基础到进阶-常见问题和面试必知必答[7]：深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解

2023-06-28
宁波培训机构（宁波靠谱的高级催乳师培训排行榜机构推荐）天天快资讯

2023-06-28
南宁市长湖路一餐厅火灾已被扑灭，无人员伤亡

2023-06-28
望谟县平绕村：清理卫生死角净化村域环境_实时焦点

2023-06-28
【透视】美国财政部前高官：维系美国经济强韧的四大支柱，三根已动摇|全球观天下

2023-06-27
【环球报资讯】sin30和cos30的关系_cos30 等于多少

2023-06-27
杭州又有重磅展览来了！百余件敦煌文物即将登陆中国丝绸博物馆

2023-06-27
全球百事通！隆下巴可以改善凸嘴吗_隆下巴多少钱

2023-06-27
打印机维修教程网（打印机维修教程）热文

2023-06-27
世界热门:每体：因未能迎回梅西并且签下京多安，巴萨放弃阿姆拉巴特

2023-06-27
卢卡申科说瓦格纳事件后白俄罗斯军队全面战备

2023-06-27
天天微资讯！中国矿业大学2023年全国优秀大学生夏令营专栏

2023-06-27
环球播报:韶关学院韶州师范分院官网_韶关学院韶州师范分院

2023-06-27
吉林·靖宇首届松花江音乐节公布，许巍、赵传、二手玫瑰等领衔开唱

2023-06-27
徐州大学是什么大学（徐州大学是几本）|全球热门

2023-06-27
全球动态:三星Galaxy A14将采用InfinityU屏幕

2023-06-27
第十三届喀交会新疆岳普湖县交易成果丰硕

2023-06-27
苏州幼儿高等师范学校分数线2021_苏州幼儿高等师范学校_微头条

2023-06-27
2-0！维拉5分钟2球赢下关键战，爱尔兰国脚滑跪庆祝，4万球迷欢呼|环球最新

2023-06-27
事实证明，成为“中国女婿”的矢野浩二，已经走上另一条人生大道

2023-06-27
工业母机板块异动拉升要闻速递

2023-06-27
青平：“敬礼娃娃”高分刷屏，前行是对伤痛最好的纪念

2023-06-27
天天新消息丨7月1日起，佛山机场新航线＋2！

2023-06-27
世界速讯：明朝时期，朱元璋为何对云南地区如此执着？

2023-06-27
北向资金抄底AI方向机构青睐机器人概念股丨龙虎榜

2023-06-27
遏制来自中国进口！美国拟取消800美元进口免税政策

2023-06-27
天天速看：聚焦世界互联网大会数字文明尼山对话丨借外脑强内力，数字山东加速跑

2023-06-27
辽港股份：6月26日融资买入1336.95万元，融资融券余额2.9亿元通讯

2023-06-27
【天天新视野】暑热难耐西班牙连续多日气温超40摄氏度

2023-06-27
直击夏季达沃斯｜国务院国有资产监督管理委员会主任张玉卓：中国可以成为全球经济发展的引擎

2023-06-27
曝蔡徐坤与女生发生关系，致其怀孕并让堕胎，蔡母却认为对方设局

2023-06-27
全球观热点：文化程度大专怎么填_文化程度

2023-06-27
今日将出现短线超跌迹象（6月27日早评)

2023-06-27
世界焦点！【新时代新征程新伟业·走好新时代党的群众路线】“陶辛夜话”聚力惠民生

2023-06-27
中企对墨西哥投资增长，墨西很兴奋，美媒关注焦点速讯

2023-06-27
猪肺的几种做法教你猪肺的正确做法今日报

2023-06-27
有点儿小麻烦_对于有点儿小麻烦简单介绍_滚动

2023-06-27
旅游攻略：山东济南旅游攻略景点必去

2023-06-27
林园：A股处于牛市初期，机会给到敢于乐观的人_全球微动态

2023-06-26
2023中小学体育发展年度报告范文5篇|世界即时

2023-06-26
一文搞懂IGBT的损耗与结温计算

2023-06-26
每日播报!xd股票当天可以买吗（xd股票当天买好不好）

2023-06-26
昌平这处国有住宅房屋协议搬迁启动每日看点

2023-06-26
江苏省纪委监委举报热线回应“高校副校长与他人妻子保持不正当关系”：会进行调查处理|当前短讯

2023-06-26
CVPR最佳论文：大模型成就端到端自动驾驶｜焦点分析-环球今头条

2023-06-26
中国男篮最新队长曝光，6名球员面临被淘汰，郭艾伦有望替补加入

2023-06-26
涨停复盘：成交额跌破万亿，超4000只个股下跌！35股涨停，2股3连板！高温天气引关注，热电及虚拟电厂“电力十足” 播资讯

2023-06-26
全球热讯:厂牌争霸，2023“街球霸王”巡回赛北京站圆满落幕

2023-06-26
打造一流环湾主中心——专访丰泽区委书记，泉州东海城东片区建设指挥部、北峰丰州片区建设指挥部副指挥长高金全_天天报资讯

2023-06-26
食品加工制造板块跌2.13% 朱老六涨2.82%居首-环球头条

2023-06-26
热文：外媒就“瓦格纳事件”询问，外交部：中方相信俄罗斯能够维护国家稳定

2023-06-26
在家炸土豆条怎么炸？酥脆金黄，小孩子都爱不释手，比买的好吃世界消息

2023-06-26
腾讯正版《石器时代：觉醒》已获版号，未来可期

2023-06-26
2018年以来全国检察机关起诉毒品犯罪46.7万人-焦点关注

2023-06-26
太干净也易生病！这6个“好习惯”，趁早改掉_当前热讯

2023-06-26
李彦宏：百度文心大模型迭代至3.5版本快看

2023-06-26
一奸钟情广播剧剧本_一奸钟情

2023-06-26
当前视点！大孔雀蝶图片_孔雀蝶简介

2023-06-26
科创50指数快速拉升转涨

2023-06-26
腰腹部部位容易堆积脂肪，消除这些脂肪有诀窍

2023-06-25
上海高院构建新时代法院队伍建设现代化“1+6+X”工作体系前沿资讯

2023-06-25
生化危机黑暗历代记和黑暗编年史（细数那些值得一看的世界末日系列之-生化危机系列

2023-06-25
环球快消息！新疆公布2023高考分数线

2023-06-25
手机回收贷款不还会怎样观察

2023-06-25
1.0手动萌动版多少钱？定价、市场反应一览当前要闻

2023-06-25
17岁少女生日送什么礼物最佳选择？全新深度解析，让你变身送礼文学专家！天天通讯

2023-06-25
微信回了个“OK”表情手势，他为何成了被告？

2023-06-25
环球热资讯！三养火鸡面为什么变味了?

2023-06-25
央行进行1960亿元7天期逆回购操作_世界通讯

2023-06-25
安徽科技学院在省教科文卫体系统“学习贯彻党的二十大精神”征文活动中取得佳绩_全球头条

2023-06-25
全球微动态丨三个白念什么_三个小念什么

2023-06-25
罗智强宣布成立新联盟　每日一告民进党最新

2023-06-25
央媒观豫 | 中国好手艺：淮阳芦苇画天天快资讯

2023-06-25
热热热！北京急救中心高温预警健康提示

2023-06-25
山东高温天已持续四天济南、淄博等地部分地区最高温超40℃

2023-06-25
坐月子能吃哪些水果? 天天报资讯

2023-06-25
环球热头条丨私募大V“互怼”，但斌：看好AI仓位不重，还是太“保守”，陈宇：别拿跌到5毛的小基金和我创新高的主基金比

2023-06-25
泛组词两个字词语_泛组词两个字

2023-06-25
佳能ixus95参数（佳能ixus95）

2023-06-25
【环球报资讯】巴东打造绿色低碳出行新风尚

2023-06-24
年轻夫妇老怀不上孩子？医生在妻子脑中发现“罪魁祸首”|环球资讯

2023-06-24
【天天热闻】火车票提前多少时间预售_火车票提前多少天预订

2023-06-24
西安开展燃气安全专项大检查双气共用、私接私改等隐患立即强制停气

2023-06-24
火了就开始换人？这些剧里被换掉的角色，谁最可惜？

2023-06-24
高考成绩陆续公布各地推出多种方式服务考生志愿填报

2023-06-24
普京发表电视讲话：所有参与叛国的人都将被严惩_每日视讯

2023-06-24
环球看热讯：SpringBoot使用Kaptcha实现验证码的生成与验证功能

2023-06-24
全球热讯:新增15项功能小鹏P5推出车机OTA升级

2023-06-24
原神：3.8前瞻曝光！枫丹实机演示太美了，可莉皮肤超好看！

2023-06-24
深圳发布电动汽车有序充电和V2G标准，要求充电设备在10s内达到功率调节目标值

2023-06-24
今日最新！非常短的好句摘抄_短的好句子摘抄

2023-06-24
k8s驱逐篇(6)-kube-controller-manager驱逐-NodeLifecycleController源码分析全球聚焦

2023-06-24
会计凭证包角视频教程（会计凭证包角纸怎么折）|世界播资讯

2023-06-24
农业农村部派出专家组指导南方早稻主产省积极应对暴雨高温

2023-06-24
论唯物主义和唯心主义的区别_论唯物主义与唯心主义环球报道

2023-06-24
怎样做出冰淇淋的“智造”味播资讯

2023-06-24
中午12点，中国女篮队长出炉，郑薇批准任命，球迷沸腾-天天速讯

2023-06-24
世界热讯:热情如火的夏季，谁还没有被多巴胺女孩刷屏？18件貌美单品快来穿

2023-06-24
国华(00370)料年度亏损逾约3亿港元同比扩大_天天快播报

2023-06-23
《约会见面送什么礼物？制作凝胶蜡烛送TA一份温馨感人的礼物！》天天微动态

2023-06-23

Copyright © 2015-2022 南非纸业网版权所有备案号：沪ICP备2022005074号-13 联系邮箱：58 55 97 3@qq.com