第八章 Actor-Critic

admin 2025-08-23 05:08:03

强化学习-基础知识-知乎专栏

第八章 Actor-Critic

本篇文章内容涉及强化学习中的Actor-Critic算法，具体包括：

1.Reducing variance with critic

策略梯度法中的梯度计算存在方差问题，为解决此问题，引入了Actor-Critic模型，通过独立估计轨迹的长期回报，降低方差。方法包括使用模型预测轨迹价值与实际回报进行比较，以改进模型预测。

2.Evaluation for value function

评估价值函数的方法包括蒙特卡洛方法与时间差分方法。蒙特卡洛方法直接计算轨迹奖励的平均值，而时间差分方法则引入了bootstrapped方法，以减少采样需求，降低方差。

3.Discount factor

引入折扣因子解决奖励估计中无穷大问题，避免算法难以分析。在TD方法中，通过折扣因子处理目标函数，得到更合理的估计结果。

4.Actor Critic Design Decisions

在设计Actor-Critic算法时，需考虑使用两个网络还是一个网络，以及在线模式与批量模式的选择。两个网络易于训练，但参数量大；一个网络则存在冲突问题。批量模式通常能更有效地降低方差。

5.Critics as baselines

结合Actor-Critic方法与Policy Gradient方法，通过引入价值函数降低方差，同时保持无偏特性。通过改良的Advantage函数和n-step形式，实现基于基线与方差的权衡。

最后，感谢@Kingsley Alien 对笔记的精心校对。

本文地址： http://www.hjuga.com/20250108/1/1320014