当前位置: 首页 > news >正文

鄂尔多斯市城乡建设委员会网站百度上海分公司

鄂尔多斯市城乡建设委员会网站,百度上海分公司,网页网页游戏,全国信息企业查询系统官网Q-Learning:Off-Policy TD Control强化学习的早期突破之一是开发了一种称为Q学习的非策略TD控制算法(Watkins,1989)。其最简单的形式,定义为(6.8)在这种情况下,学习的动作-值函数Q直接近似于最优动作-值函数&#xff0…

Q-Learning:Off-Policy TD Control

强化学习的早期突破之一是开发了一种称为Q学习的非策略TD控制算法(Watkins,1989)。其最简单的形式,定义为

(6.8)

在这种情况下,学习的动作-值函数Q直接近似于最优动作-值函数,与所遵循的策略无关。这极大地简化了算法的分析,并实现了早期收敛证明。该策略仍然具有影响,因为它确定访问和更新哪些状态-操作对。但是,正确收敛所需要的只是所有对继续更新。正如我们在第5章中所观察到的,这是一个最低要求,因为任何保证在一般情况下找到最佳行为的方法都必须这样要求。在此假设和步长参数序列的通常随机逼近条件的变体下,Qt已被证明以概率 1 收敛到。Q 学习算法以如下程序形式所示。

Q-learning (off-policy TD control) for estimating

Algorithm parameters: step size , small

Initialize Q(s,a), for all , arbitrarily except that Q(terminal,.)=0

Loop for each episode:

Initialize S

Loop for each step of episode:

Choose A from S using policy derived from Q (e.g.,ε-greedy)

Take action A, observe R,S'

S <- S';

until s is terminal

Q-learning的备份图是什么?规则 (6.8) 更新状态-操作对,因此顶部节点(更新的根节点)必须是小型的填充操作节点。更新也来自操作节点,最大化下一个状态下可能的所有操作。因此,备份关系图的底部节点应该是所有这些操作节点。最后,请记住,我们指示在这些“下一步操作”节点中,它们有一个弧形(图 3.4-右)。您现在能猜出图表是什么吗?如果是这样,请在转到第 134 页图 6.4 中的答案之前进行猜测。

参考

  • RLbook2020.pdf (incompleteideas.net)

  • Introduction to Reinforcement Learning (Spring 2021) | IntroRL (amfarahmand.github.io)

  • 强化学习导论 — 强化学习导论 0.0.1 文档 (qiwihui.com)

http://www.hengruixuexiao.com/news/11904.html

相关文章:

  • 天津网站建设外包线上培训机构有哪些
  • 繁体商城网站模板2345网址导航手机版
  • 如何做微信官方网站公司网站费用
  • 网页怎么做才美观河南自助建站seo公司
  • 高端网站建站 北京黄冈黄页88网黄冈房产估价
  • 怎么下载文章到wordpressseo海外
  • 网站解析怎么设置seo网课培训
  • mui做网站软件开发网
  • 建设一个电子商务网站买卖链接网站
  • 做贷款行业哪些网站能发布广告app注册推广平台
  • 猪八戒网站做推广靠谱吗怎么买到精准客户的电话
  • 网站建设的工作流程佛山seo培训
  • 免费建立个人网站的视频建站流程
  • 网站建设规划书毕业论文6000字百度快速seo优化
  • 网站建设买服务器价格查询网域名查询
  • 网站做跳转怎么做凡科网
  • 网站可信认证必须做吗seo优化排名价格
  • 广州网站建设哪家强微信营销软件免费版
  • 企业网站产品优化怎么做免费做网页的网站
  • 无代码网站开发平台有哪些2023年8月新冠疫情
  • 上海商城网站建设公司谷歌google 官网下载
  • 盐城优化办seo服务工程
  • 金溪网站建设百度信息流怎么投放
  • 客服系统官方网站在广州做seo找哪家公司
  • 蛋糕网站建设方案2024年疫情还会封控吗
  • 什么网站可以做头像最好用的系统优化软件
  • 2023中国互联网公司排行榜谷歌优化师
  • 自助做app的网站关键词林俊杰mp3下载
  • godaddy wordpress迁移广东seo网站推广
  • 工业产品设计网关键词seo排名优化如何