强化学习政策梯度演员兼评论家机器学习人工智能

行动者-评论家方法与纯政策梯度方法

Actor-Critic 方法将策略梯度与学习到的价值函数相结合，以降低方差并加快学习速度，而纯策略梯度方法则完全依赖于策略和蒙特卡罗模拟结果。选择哪种方法取决于您需要的是稳定性和样本效率，还是简单性和无偏估计。

亮点

Actor-critic 方法通过使用学习到的值基线来减少梯度方差，而纯策略梯度则依赖于噪声蒙特卡罗结果。
纯粹的策略梯度方法是无偏的，但对样本的需求量很大；而行动者-评论家方法则以轻微的偏差为代价，换取了更好的样本效率。
从 Atari 到大型语言模型的 RLHF，大多数现代强化学习的成功都离不开 PPO 和 SAC 等 Actor-Critic 算法。
纯策略梯度方法在研究和简单的控制任务中仍然很受欢迎，因为它们更容易实现和推理。

演员-评论家方法是什么？

混合强化学习算法将策略网络（执行者）与价值估计网络（评论家）配对，以实现更稳定的训练。

行动者-批评家方法在 21 世纪初正式确立，建立在 Sutton 和 Barto 等研究人员早期关于政策迭代的工作之上。
演员根据评论家建议的梯度方向更新策略，而评论家则估计价值函数来评估动作。
流行的变体包括 A2C（优势行动者-评论家）、A3C（异步优势行动者-评论家）、SAC（软行动者-评论家）和 PPO（近端策略优化）。
通过使用学习到的基线，与蒙特卡罗收益相比，行动者-评论家方法显著降低了策略梯度估计的方差。
这些方法推动了游戏、机器人和大型语言模型微调（通过 RLHF）方面的突破。

纯策略梯度法是什么？

强化学习算法直接使用期望收益的梯度上升来优化参数化策略，而无需单独的价值模型。

REINFORCE 基础算法由 Ronald Williams 于 1992 年提出，建立了策略梯度定理。
纯政策梯度方法使用蒙特卡罗展开或完整阶段回报来估计梯度，而不是使用自举值估计。
它们天然地与随机策略相兼容，因此非常适合具有连续或高维行动空间的环境。
由于这些方法依赖于采样轨迹，因此它们是无偏的，但其梯度估计往往表现出较高的方差。
值得注意的实现包括原始的 REINFORCE、Vanilla Policy Gradient (VPG) 和 Trust Region Policy Optimization (TRPO)。

比较表

功能	演员-评论家方法	纯策略梯度法
核心机制	将政策网络（行动者）与价值网络（批评者）相结合	直接利用抽样收益优化策略
梯度估计的方差	由于学习基线，方差降低	与蒙特卡罗模拟结果相比，波动性更大
偏见	评论家近似判断引入的轻微偏差	无偏梯度估计
样品效率	通常较高，通过引导程序重用数据	较低，需要完整剧集或多个样本
实现复杂度	更复杂，需要训练两个网络	更简单，只需管理一个网络。
训练稳定性	由于方差和信任区域降低，稳定性更高	稳定性较差，对学习率和奖励规模较为敏感。
勘探处理	可以纳入熵奖励或随机批评家	天然随机性，易于鼓励探索
典型应用案例	大规模强化学习、机器人技术、用于语言模型的强化学习高通量框架	简单的控制任务、研究基线、偶发性问题

详细对比

梯度估计和方差

这两类方法最大的实际区别在于它们如何估计改进方向。纯策略梯度方法依赖于从完整回合中收集的蒙特卡罗模拟结果，这虽然能提供一个无偏信号，但其结果会因单次运行的运气而剧烈波动。Actor-Critic 方法则用学习到的价值函数取代了这种噪声较大的结果，有效地减去了能够捕捉预期结果的基线。其结果是梯度方差大大降低，使得训练过程更加平稳，尤其是在奖励稀疏或延迟的环境中。

偏差-方差权衡

在 Actor-Critic 算法设计中，以方差换取偏差是核心的折衷方案。评论家本身就是一个近似值，因此其估计可能存在误差，而这种误差会传递到策略更新中。纯策略梯度方法完全避免了这个问题，因为它们从不近似值函数，但代价是更新过程会产生更大的噪声。在实践中，像 PPO 和 SAC 这样的现代 Actor-Critic 算法能够很好地处理这种权衡，因此微小的偏差很少会成为问题，这也是它们在基准测试中占据主导地位的原因。

样本效率和数据重用

在与环境交互成本高昂的情况下，例如在机器人或现实世界的对话系统中，样本效率至关重要。Actor-Critic 方法在此表现出色，因为评论家可以从自身的预测中汲取经验，从而使算法能够从每次转换中多次学习。纯策略梯度方法通常每次更新都需要新的策略内数据，这意味着为了获得相同的策略改进，需要进行更多的环境交互。这也是 REINFORCE 类算法在仿真成本较低的研究环境中更为常见的原因之一。

实施与调优

如果你想快速搭建原型，纯策略梯度方法很有吸引力。你只需要一个策略网络、一个由对数概率加权（以收益为权重）构建的损失函数，以及一种收集轨迹的方法。Actor-Critic 方法则增加了训练第二个网络的负担，需要平衡第二个网络的学习率和 Actor 网络的学习率，并确保 Critic 网络能够足够快地收敛以达到预期效果。这种额外的复杂性虽然能提升性能，但也提高了新手入门的门槛。

探索与随机策略

两种方法都能自然地处理随机策略，但它们鼓励探索的方式不同。纯策略梯度方法利用策略自身的熵进行探索，这在具有清晰动作分布的问题中效果显著。Actor-Critic 方法通常会在目标函数中添加显式的熵奖励，例如著名的 Soft Actor-Critic 方法，以防止策略过早崩溃。这使得 Actor-Critic 的变体在智能体可能陷入次优行为的任务中更加稳健。

优点与缺点

演员-评论家方法

优点

+ 降低方差更新
+ 更高的样品效率
+ 更稳定的训练
+ 可扩展至复杂任务

继续

− 实施起来更复杂
− 额外的超参数调优
− 评论家略有偏见
− 两个待训练的网络

纯策略梯度法

优点

+ 简单实现
+ 无偏梯度估计
+ 自然随机策略
+ 非常适合研究

继续

− 高方差更新
− 样本效率低
− 需要完整剧集
− 对学习率敏感

常见误解

神话

Actor-critic 方法与策略梯度是完全不同的算法系列。

现实

Actor-Critic 方法实际上是策略梯度方法的一个子集。它们计算相同的策略梯度，但使用学习到的价值函数来减少方差，而不是依赖于原始收益。

神话

纯策略梯度方法总是收敛速度更快，因为它们是无偏的。

现实

无偏性并不等同于快速收敛。蒙特卡罗估计的高方差通常会显著减慢训练速度，尤其是在奖励延迟的长周期任务中。

神话

演员-评论家方法不适用于连续行动空间。

现实

许多 Actor-Critic 算法，包括 SAC 和 DDPG，都是专门为连续控制而设计的，并且在机器人和基于物理的仿真中表现得非常好。

神话

要想做好强化学习，始终需要一个批评者。

现实

像 REINFORCE 和 TRPO 这样的纯策略梯度方法在没有评价器的情况下已经解决了许多问题。评价器是一种用于减少方差的工具，而不是硬性要求。

神话

PPO 是一种纯粹的策略梯度方法。

现实

从技术上讲，PPO 是一种 Actor-Critic 算法。它在策略方面使用截断的代理目标，但它依赖于价值网络来计算优势并指导更新。

常见问题解答

行动者-评论家方法和政策梯度方法的主要区别是什么？

主要区别在于训练过程中是否使用价值函数。Actor-critic 方法训练一个独立的评论家网络来估计价值并降低方差，而纯策略梯度方法则直接从采样收益中估计梯度，无需学习价值模型。

为什么演员-评论家方法具有较低的方差？

在计算梯度之前，他们会从收益中减去一个已学习到的基线值（通常是价值函数）。该基线值反映了预期结果，因此剩余的优势信号比原始蒙特卡罗收益的随机噪声要小得多。

PPO 是一种行动者-批评家方法还是一种政策梯度方法？

PPO 是一种 Actor-Critic 算法。它使用截断目标函数来更新策略，但它依赖于价值网络来计算优势，这是 Actor-Critic 算法家族的标志性特征。

什么时候应该使用纯策略梯度方法而不是 Actor-Critic 方法？

纯策略梯度方法非常适合短时情景任务、研究基线或需要简单、无偏算法的场景。当环境模拟成本低且不需要最高采样效率时，它们也表现良好。

演员-评论家方法适用于连续行动空间吗？

是的，很多算法都采用这种方法。像SAC、DDPG和TD3这样的算法都是专门为连续控制设计的Actor-Critic方法，广泛应用于机器人和模拟物理环境中。

如今还在使用纯粹的策略梯度方法吗？

当然。REINFORCE 和 Vanilla Policy Gradient 在研究和教育领域仍然很受欢迎，而 TRPO 仍然被用于对安全性要求较高的应用中，因为在这些应用中，其信任域约束非常有价值。

什么是策略梯度定理？

萨顿及其同事证明的政策梯度定理给出了预期收益关于政策参数的梯度的闭式表达式。纯政策梯度方法和行动者-评论家方法都是建立在该定理的基础上的。

REINFORCE 与演员批评方法有何关系？

REINFORCE 是典型的纯策略梯度算法。Actor-critic 方法可以看作是 REINFORCE 的演进，它用来自学习到的批评者的自举估计值取代了蒙特卡罗模拟的收益，从而以引入一些偏差为代价降低了方差。

能否将 Actor-Critic 方法用于大型语言模型的 RLHF？

是的，像PPO这样的Actor-Critic方法是RLHF流程中用于对齐大型语言模型的主力军。它们能够处理在利用人类反馈训练语言模型时涉及的长时程和复杂的奖励信号。

哪种方法更适合奖励稀疏的环境？

在奖励稀疏的情况下，演员-评论家方法通常表现得更好，因为评论家可以随时间向后传播价值信息，即使奖励很少，也能为策略提供有用的学习信号。

裁决

当你需要一种简单、无偏的算法来解决短期问题，或者需要一个干净的研究基准时，可以选择纯策略梯度方法。而当你关注样本效率、训练稳定性，或者需要扩展到机器人和大型语言模型微调等复杂环境时，则应该选择 Actor-Critic 方法。