当前位置: 首页 > news >正文

wordpress做的著名网站重庆森林粤语

wordpress做的著名网站,重庆森林粤语,阜阳疫情最新消息,三三裂变营销法2024/6/23: 前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。 浅谈主要区别(在线 or 离线) 首先,一切的开始是强化学习中时序差分方程,这体现了强化学习方法的优化策略。在…

2024/6/23:

        前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。

浅谈主要区别(在线 or 离线)

        首先,一切的开始是强化学习中时序差分方程,这体现了强化学习方法的优化策略。在看方程之前,先要理解Q值的概念——即当前状态S下采取动作A继续下去能够得到的最佳收益

        该方程通过Target值(采取当前动作后得到的奖励 + 采取动作后下一个状态根据某个策略选取动作的Q值)减去估计值(当前估计的当前状态采取A的Q值)再乘上一个类似于学习率的量来更新当前估计的当前状态的Q值,而方程的目的就是来逼近真正的最佳收益。可能有点绕,但是从类似于动态规划的角度看会明白一点。

        下面是on-policy和off-policy策略的区别:

        这两种策略本质上的区别是他们的时序差分方程,如下图所示,上面的target属于on-policy方法,下面的属于off-policy方法:

        on-policy主要应用于Sarsa方法,是一种在线的交互式的学习方法,大概就像是。采取这种策略的方法通过当前状态下选取的一定会执行的action来优化自身的Q表格。action的选取可以通过随机选取,也可以根据贪婪策略选取,然后根据这个选取的action计算得到的结果来更新Q表格。很显然,用这种方法进行训练的效率很慢,需要很长的时间方法才可以收敛,在我看来基本是off-policy方法的完全下位,但优点也存在,也就是对在线交互式实验方法的适应。

        从时序差分方程的角度看下面这张图,将其中的内容和方程中的联系起来看,就能大概理解sarsa做了什么:

        off-policy是一种更加常用的方法,Q-learning和DQN都属于这一类的方法。从方程中获取target值的区别就可以看到,他使用下个状态的采取所有动作的最佳Q值来优化,因此收敛也更快。

参考:在线/离线策略区别

面向新手:从零学习强化学习

http://www.mnyf.cn/news/45545.html

相关文章:

  • 兰州道路建设情况网站专业整站优化
  • 网站开发建设价格附件深圳网络公司推广
  • 网站推广案例app推广全国代理加盟
  • 网站开发者模式怎么打开最全bt搜索引擎
  • 甘肃网站建设方案优化武汉网站开发公司
  • 外贸品牌网站制作2024年小学生简短小新闻
  • 电商网站建设新闻如何做网络推广外包
  • 自动化设计网站建设西安网络推广公司大全
  • 延平网站建设wzjseoseo营销
  • 运城做网站要多少钱百度旗下产品
  • 企业所得税优惠政策最新2023年100万以下辽阳网站seo
  • 怀化找什么人做网站推广渠道平台
  • wordpress 小工具 功能郑州网站优化软件
  • 我想建设一个算命网站自己如何注册网站
  • 网络班级网站建设seo搜索引擎优化题库
  • 北京专业网站设计制作seo学校培训
  • 做网站哪里的好正规代运营公司
  • 网站建设 公司新闻百度付费推广的费用
  • 网站制作国际连锁谷歌seo优化怎么做
  • 制作企业网站步骤自媒体营销推广方案
  • 网站建设询价单外贸独立站建站
  • 专做网游视频的网站网页设计工作室长沙
  • 济南建设网站企业收费20条优化措施
  • 如何使用mysql数据库做网站爱站
  • 装修网站建设优缺点全面网络推广营销策划
  • 绿色网站模板大全论坛推广怎么做
  • 网站表格怎么做的今天刚刚发生的新闻最新新闻
  • 专业网站建设必要性西安高端模板建站
  • 东阿网站建设公司北京网站优化指导
  • p2p贷款网站制作培训班管理系统 免费