博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
强化学习第七章
阅读量:5337 次
发布时间:2019-06-15

本文共 1041 字,大约阅读时间需要 3 分钟。

1、策略迭代、价值迭代、泛化迭代的前提条件:智能体知道环境的状态转移概率,即是基于模型的问题

2、蒙特卡洛方法采样:随机采样估计期望值,通过样本序列逼近真实的期望值。  成立原因:大数定理。

3、探索和利用,探索指的是不拘于当前的表现,选择不同于当前策略的行动;利用是持续使用当前的最优策略,尽可能的获得更多的回报。

4、蒙特卡洛方法的缺点:估计值的方差大。估计值方差大则均值收敛需要更长时间。方差大的原因:每次掷骰子的数字都不同,采样频率的问题,会多次出现同一个状态,在计算的过程中没有区分第一次到达这个状态和第二次到达,是every-visit的方式,可以改成采用first-visit的方式减小方差,但没有显著提高。

优点:数据量足够大的时候,对期望值的估计是无偏的。

5、时序差分法与Sarsa:TD法结合了动态规划和蒙特卡洛方法,利用了最优子结构的思想。

但是他是为了缩小方差使得误差变大了,蒙特卡洛方法是为了极小的误差使得方差变大,TD方法结果没有MC好。

6、Q-learning:它和Sarsa只在一个地方有区别,Sarsa遵循了真实的交互序列,根据真实的行动进行价值的估计,Q-learning在下一时刻选择了使得价值最大的行动,没有遵循交互序列。

存在”过高估计“的问题,使用最优价值的行动替代交互时候使用的行动。 200页两个步骤,关于收敛性证明暂时没看懂?????

7、DQN算法两个突出点:

(1)replay buffer 回放机制:

  Q学习方法基于当前策略进行交互和改进,每一次模型利用交互的数据学习,学习后样本被丢弃。存在两个问题:一个是交互得到的序列存在相关性。而对于基于极大似然的机器学习模型来说,假设就是训练样本是独立且来自同分布的,假设不成立则效果大打折扣。另一个是交互数据的使用效率低,模型训练需要多轮迭代才能收敛,没用用过就丢弃花的时间长。

  样本回放保存了交互的样本信息,保存当前的状态s、动作a和长期累积回报v。buffer的大小设置的比较大,达到100万个样本这么多,新的样本把久远的样本覆盖,之后均匀的从样本中随机采样进行学习。

(2)target network目标网络:

  引入和表现网络一样的模型,目标网络由表现网络的参数延时更新而来,目标价值由目标网络计算得到。用它和表现网络的估计值比较进行表现网络参数的更新。

转载于:https://www.cnblogs.com/lin-kid/p/11520194.html

你可能感兴趣的文章
迷宫问题
查看>>
【FZSZ2017暑假提高组Day9】猜数游戏(number)
查看>>
泛型子类_属性类型_重写方法类型
查看>>
eclipse-将同一个文件分屏显示
查看>>
对闭包的理解
查看>>
练习10-1 使用递归函数计算1到n之和(10 分
查看>>
Oracle MySQL yaSSL 不明细节缓冲区溢出漏洞2
查看>>
windows编程ASCII问题
查看>>
.net webService代理类
查看>>
Code Snippet
查看>>
Node.js Express项目搭建
查看>>
zoj 1232 Adventure of Super Mario
查看>>
1201 网页基础--JavaScript(DOM)
查看>>
组合数学 UVa 11538 Chess Queen
查看>>
oracle job
查看>>
Redis常用命令
查看>>
XML学习笔记(二)-- DTD格式规范
查看>>
IOS开发学习笔记026-UITableView的使用
查看>>
[转载]电脑小绝技
查看>>
windos系统定时执行批处理文件(bat文件)
查看>>