強化学習政策勾配俳優兼評論家機械学習人工知能

アクタークリティック法と純粋政策勾配法の比較

アクタークリティック法は、方策勾配と学習済みの価値関数を組み合わせることで分散を低減し、学習速度を向上させます。一方、純粋な方策勾配法は、方策とモンテカルロ法のリターンのみに依存します。どちらを選択するかは、安定性とサンプル効率を重視するか、あるいはシンプルさと偏りのない推定値を重視するかによって決まります。

ハイライト

アクタークリティック法は、学習済みの価値ベースラインを使用することで勾配の分散を低減する一方、純粋な方策勾配はノイズの多いモンテカルロシミュレーションの結果に依存する。
純粋な方策勾配法は偏りがないがサンプル数が多いのに対し、アクター・クリティック法は多少の偏りを許容する代わりに、はるかに優れたサンプル効率を実現する。
PPOやSACといったアクタークリティックアルゴリズムは、Atariから大規模言語モデル向けのRLHFに至るまで、現代の強化学習における成功例のほとんどを支えている。
純粋な方策勾配法は、実装や推論が容易であるため、研究や単純な制御タスクにおいて依然として人気が高い。

俳優批評家法とは？

より安定した学習を実現するために、ポリシーネットワーク（アクター）と価値推定ネットワーク（クリティック）を組み合わせたハイブリッド強化学習アルゴリズム。

アクター・クリティック手法は、サットンやバートといった研究者による政策反復に関する先行研究に基づき、2000年代初頭に体系化された。
行為者は批評家が示唆する勾配方向を用いてポリシーを更新し、批評家は行動を評価するための価値関数を推定する。
一般的なバリアントとしては、A2C（アドバンテージ・アクター・クリティック）、A3C（非同期アドバンテージ・アクター・クリティック）、SAC（ソフト・アクター・クリティック）、PPO（近接ポリシー最適化）などがある。
学習済みのベースラインを用いることで、アクター・クリティック手法は、モンテカルロ法によるリターンと比較して、政策勾配推定値の分散を劇的に低減する。
これらの手法は、RLHFを通じて、ゲームプレイ、ロボット工学、大規模言語モデルの微調整における画期的な進歩を支えてきた。

純粋方策勾配法とは？

期待収益に対する勾配上昇法を用いて、個別の価値モデルを用いずに、パラメータ化されたポリシーを直接最適化する強化学習アルゴリズム。

基礎となるREINFORCEアルゴリズムは、1992年にロナルド・ウィリアムズによって導入され、方策勾配定理を確立した。
純粋な政策勾配法は、ブートストラップ法による値推定ではなく、モンテカルロシミュレーションや全エピソードの収益率を用いて勾配を推定する。
これらは確率的ポリシーと自然に互換性があり、連続的または高次元の行動空間を持つ環境に最適です。
これらの手法はサンプリングされた軌跡に依存するため、バイアスはないものの、勾配推定値に大きなばらつきが生じる傾向がある。
注目すべき実装例としては、オリジナルのREINFORCE、Vanilla Policy Gradient（VPG）、およびTrust Region Policy Optimization（TRPO）などが挙げられる。

比較表

機能	俳優批評家法	純粋方策勾配法
コアメカニズム	政策ネットワーク（行為者）と価値ネットワーク（批評家）を組み合わせたもの	サンプリングされたリターンを直接使用してポリシーを最適化する
勾配推定値の分散	学習済みベースラインによる分散の低下	モンテカルロ法によるリターンの分散が大きい
バイアス	批評家の近似によって生じるわずかな偏り	不偏勾配推定値
サンプル効率	一般的に高い、ブートストラップによるデータの再利用	低い場合は、全エピソードまたは多数のサンプルが必要です。
実装の複雑さ	より複雑で、2つのネットワークのトレーニングが必要	よりシンプル、管理するネットワークは1つだけ
トレーニングの安定性	分散と信頼領域が低いため、より安定しています	安定性が低く、学習速度と報酬スケールに敏感である。
探査ハンドリング	エントロピーボーナスや確率的批評を組み込むことができる	本質的に確率的であり、探索を促しやすい。
典型的な使用例	大規模強化学習、ロボット工学、言語モデルのためのRLHF	単純な制御タスク、研究基準、一時的な問題

詳細な比較

勾配推定と分散

これら2つの手法の最も大きな実用上の違いは、改善の方向性をどのように推定するかという点にあります。純粋な方策勾配法は、完全なエピソードから収集されたモンテカルロリターンに依存しており、偏りのないシグナルが得られますが、個々のロールアウトの運次第で大きく変動します。アクタークリティック法は、このノイズの多いリターンを学習済みの価値関数に置き換え、期待される結果を捉えるベースラインを効果的に差し引きます。その結果、分散の低い勾配が得られ、特に報酬がまばらであったり遅延したりする環境では、トレーニングがよりスムーズに進むようになります。

バイアス・バリアンスのトレードオフ

アクタークリティック設計における中心的なトレードオフは、分散とバイアスのトレードオフです。クリティック自体が近似であるため、その推定値は誤っている可能性があり、その誤差がポリシー更新に影響します。純粋なポリシー勾配法は、価値関数を近似しないため、この問題を完全に回避できますが、その純粋さゆえに更新にノイズが多くなります。実際には、PPOやSACといった最新のアクタークリティックアルゴリズムは、このトレードオフを非常にうまく管理しているため、小さなバイアスが問題になることはほとんどなく、そのためベンチマークで圧倒的な優位性を誇っています。

サンプル効率とデータ再利用

ロボット工学や現実世界の対話システムのように、環境との相互作用にコストがかかる場合、サンプル効率は非常に重要です。アクタークリティック法は、クリティックが自身の予測からブートストラップを行うため、アルゴリズムが各遷移から複数回学習できることから、このような状況で真価を発揮します。純粋な方策勾配法は、一般的に更新ごとに新しいオンポリシーデータを必要とするため、同じ方策改善量を得るためには、より多くの環境との相互作用が必要になります。これが、シミュレーションコストが低い研究環境では、REINFORCEスタイルのアルゴリズムがより一般的に使用されている理由の一つです。

実装と調整

プロトタイプを素早く作成したい場合は、純粋な方策勾配法が魅力的です。必要なのは、方策ネットワーク、リターンで重み付けされた対数確率から構築された損失関数、そして軌跡を収集する方法だけです。アクタークリティック法では、2つ目のネットワークをトレーニングし、その学習率をアクターの学習率とバランスさせ、クリティックが十分に速く収束して有用になるようにするという負担が加わります。この複雑さはパフォーマンスの向上に繋がりますが、初心者にとってはハードルが高くなります。

探査と確率的政策

どちらのアプローチも確率的ポリシーを自然に処理しますが、探索を促す方法は異なります。純粋なポリシー勾配法は、ポリシー自体のエントロピーから探索を自動的に得ることができ、明確な行動分布を持つ問題で効果を発揮します。一方、アクタークリティック法は、Soft Actor-Criticのように、ポリシーが早期に崩壊しないように、目的関数に明示的なエントロピーボーナスを追加することがよくあります。これにより、エージェントが最適ではない行動に陥ってしまう可能性があるタスクにおいて、アクタークリティック法のバリアントはより堅牢になります。

長所と短所

俳優批評家法

長所

+ 分散の少ない更新
+ サンプル効率の向上
+ より安定したトレーニング
+ 複雑なタスクにも対応可能

コンス

− 実装がより複雑になる
− 追加のハイパーパラメータ調整
− 批評家による若干の偏り
− トレーニングする2つのネットワーク

純粋方策勾配法

長所

+ シンプルな実装
+ 不偏勾配推定値
+ 自然確率政策
+ 研究に最適

コンス

− 高変動アップデート
− サンプル効率が低い
− 全エピソードが必要
− 学習率に敏感

よくある誤解

神話

アクタークリティック法は、方策勾配法とは全く異なるアルゴリズム群である。

現実

アクタークリティック法は、実際には方策勾配法のサブセットです。同じ方策勾配を計算しますが、生の報酬に頼るのではなく、学習された価値関数を使用して分散を低減します。

神話

純粋な方策勾配法は、偏りがないため、常に収束が速い。

現実

偏りがないからといって、収束が速いとは限りません。モンテカルロ推定値の分散が大きいと、特に報酬が遅れて得られるような長期タスクでは、学習速度が著しく低下することがよくあります。

神話

行為者批評家法は、連続的な行為空間には適用できない。

現実

SACやDDPGを含む多くのアクタークリティックアルゴリズムは、連続制御のために特別に設計されており、ロボット工学や物理ベースのシミュレーションにおいて非常に優れた性能を発揮する。

神話

強化学習をうまく行うには、常に批評家が必要だ。

現実

REINFORCEやTRPOのような純粋な方策勾配法は、批評家を用いなくても多くの問題を解決してきた。批評家は分散を低減するためのツールであり、必須要件ではない。

神話

PPOは純粋なポリシー勾配法である。

現実

PPOは厳密にはアクター・クリティックアルゴリズムである。ポリシー側では切り詰められた代理目的関数を用いるが、利点の計算や更新の指針には価値ネットワークを利用する。

よくある質問

アクタークリティック法とポリシー勾配法の主な違いは何ですか？

主な違いは、学習中に価値関数を使用するかどうかです。アクタークリティック法では、価値を推定して分散を低減するために、独立したクリティックネットワークを学習させますが、純粋な方策勾配法では、学習済みの価値モデルを使用せずに、サンプリングされたリターンから直接勾配を推定します。

なぜアクタークリティック法は分散が低いのか？

勾配を計算する前に、学習済みの基準値（通常は価値関数）をリターンから差し引きます。この基準値は期待される結果を捉えているため、残りのアドバンテージシグナルは、生のモンテカルロリターンよりもランダムノイズがはるかに少なくなります。

PPOはアクター・クリティック法なのか、それとも政策勾配法なのか？

PPOはアクター・クリティックアルゴリズムです。ポリシーの更新にはクリッピングされた目的関数を使用しますが、利点の計算には価値ネットワークに依存しており、これはアクター・クリティック系アルゴリズムの特徴です。

アクタークリティック法ではなく、純粋なポリシー勾配法を用いるべきなのはどのような場合ですか？

純粋な方策勾配法は、短期間の断続的なタスク、研究のベースライン、あるいはシンプルで偏りのないアルゴリズムが必要な状況に適しています。また、環境シミュレーションのコストが低く、サンプル効率を最大限に高める必要がない場合にも有効です。

行為者批評家法は、連続的な行為空間にも有効だろうか？

はい、多くのアルゴリズムがそうです。SAC、DDPG、TD3などのアルゴリズムは、連続制御のために特別に設計されたアクタークリティック手法であり、ロボット工学や物理シミュレーション環境で広く使用されています。

純粋な方策勾配法は、今日でも使われているのでしょうか？

もちろんです。REINFORCEとVanilla Policy Gradientは研究や教育の分野で依然として人気があり、TRPOは信頼領域制約が有効な安全性が重視されるアプリケーションで今も使用されています。

方策勾配定理とは何ですか？

サットンらが証明した政策勾配定理は、政策パラメータに関する期待収益率の勾配を閉形式で表す。純粋政策勾配法とアクター・クリティック法は、いずれもこの定理に基づいて構築されている。

REINFORCEは、アクター・クリティック法とどのように関連しているのでしょうか？

REINFORCEは、正統的な純粋方策勾配アルゴリズムです。アクタークリティック法は、REINFORCEの進化形と見なすことができ、モンテカルロ法によるリターンを、学習済みクリティックによるブートストラップ推定値に置き換えることで、バイアスが生じる代わりに分散を低減します。

大規模言語モデルにおけるRLHFに、アクタークリティック法は適用可能か？

はい、PPOのようなアクタークリティック手法は、大規模な言語モデルを整合させるためのRLHFパイプラインの中核を成すものです。これらの手法は、人間のフィードバックを用いて言語モデルを訓練する際に必要となる、長期的な視点と複雑な報酬シグナルを適切に処理します。

報酬が少ない環境では、どちらの方法がより適していますか？

アクタークリティック法は、報酬が少ない状況において一般的に優れた性能を発揮します。これは、クリティックが価値情報を時間的に遡って伝播させることができ、報酬がまれな場合でもポリシーに有用な学習シグナルを与えることができるためです。

評決

短期的な問題に対してシンプルで偏りのないアルゴリズムが必要な場合、あるいは明確な研究ベースラインとして利用したい場合は、純粋な方策勾配法を選択してください。サンプル効率、トレーニングの安定性、あるいはロボット工学や大規模言語モデルのファインチューニングといった複雑な環境への拡張性を重視する場合は、アクタークリティック法を選択してください。