强化学习-基础知识-知乎专栏
第八章 Actor-Critic
本篇文章内容涉及强化学习中的Actor-Critic算法,具体包括:
1.Reducing variance with critic
策略梯度法中的梯度计算存在方差问题,为解决此问题,引入了Actor-Critic模型,通过独立估计轨迹的长期回报,降低方差。方法包括使用模型预测轨迹价值与实际回报进行比较,以改进模型预测。
2.Evaluation for value function
评估价值函数的方法包括蒙特卡洛方法与时间差分方法。蒙特卡洛方法直接计算轨迹奖励的平均值,而时间差分方法则引入了bootstrapped方法,以减少采样需求,降低方差。
3.Discount factor
引入折扣因子解决奖励估计中无穷大问题,避免算法难以分析。在TD方法中,通过折扣因子处理目标函数,得到更合理的估计结果。
4.Actor Critic Design Decisions
在设计Actor-Critic算法时,需考虑使用两个网络还是一个网络,以及在线模式与批量模式的选择。两个网络易于训练,但参数量大;一个网络则存在冲突问题。批量模式通常能更有效地降低方差。
5.Critics as baselines
结合Actor-Critic方法与Policy Gradient方法,通过引入价值函数降低方差,同时保持无偏特性。通过改良的Advantage函数和n-step形式,实现基于基线与方差的权衡。
最后,感谢@Kingsley Alien 对笔记的精心校对。