合聚咖

合聚咖

第八章 Actor-Critic

admin

强化学习-基础知识-知乎专栏

第八章 Actor-Critic

本篇文章内容涉及强化学习中的Actor-Critic算法,具体包括:

1.Reducing variance with critic

策略梯度法中的梯度计算存在方差问题,为解决此问题,引入了Actor-Critic模型,通过独立估计轨迹的长期回报,降低方差。方法包括使用模型预测轨迹价值与实际回报进行比较,以改进模型预测。

2.Evaluation for value function

评估价值函数的方法包括蒙特卡洛方法与时间差分方法。蒙特卡洛方法直接计算轨迹奖励的平均值,而时间差分方法则引入了bootstrapped方法,以减少采样需求,降低方差。

3.Discount factor

引入折扣因子解决奖励估计中无穷大问题,避免算法难以分析。在TD方法中,通过折扣因子处理目标函数,得到更合理的估计结果。

4.Actor Critic Design Decisions

在设计Actor-Critic算法时,需考虑使用两个网络还是一个网络,以及在线模式与批量模式的选择。两个网络易于训练,但参数量大;一个网络则存在冲突问题。批量模式通常能更有效地降低方差。

5.Critics as baselines

结合Actor-Critic方法与Policy Gradient方法,通过引入价值函数降低方差,同时保持无偏特性。通过改良的Advantage函数和n-step形式,实现基于基线与方差的权衡。

最后,感谢@Kingsley Alien 对笔记的精心校对。