On-Policy- und Off-Policy-Lernen sind zwei grundlegende Ansätze im Reinforcement Learning, die sich darin unterscheiden, wie Agenten Erfahrungen sammeln und nutzen. On-Policy-Methoden lernen aus den tatsächlich vom Agenten ausgeführten Aktionen, während Off-Policy-Methoden aus Daten lernen können, die durch andere Strategien oder vergangenes Verhalten gesammelt wurden.
Höhepunkte
On-Policy-Methoden lernen ausschließlich aus den Aktionen der aktuellen Richtlinie, während Off-Policy-Methoden jede beliebige Datenquelle nutzen können.
Off-Policy-Learning bietet durch Experience Replay eine überlegene Sample-Effizienz und ist daher ideal für die Robotik in der realen Welt.
On-Policy-Algorithmen wie PPO ermöglichen ein stabileres Training, benötigen dafür aber in jeder Iteration neue Daten.
Off-Policy-Ansätze ermöglichen es, aus menschlichen Demonstrationen und historischen Aufzeichnungen zu lernen, was mit On-Policy-Methoden nicht möglich ist.
Was ist Politikorientiertes Lernen?
Ein Ansatz des bestärkenden Lernens, bei dem der Agent aus Aktionen lernt, die er aktuell unter der gleichen, zu verbessernden Richtlinie ausführt.
Mithilfe von On-Policy-Methoden werden dieselben Richtlinien evaluiert und verbessert, die während der Ausbildung zur Entscheidungsfindung verwendet werden.
SARSA (State-Action-Reward-State-Action) ist ein klassischer On-Policy-Algorithmus, der sich auf Basis der nächsten tatsächlich durchgeführten Aktion aktualisiert.
PPO (Proximal Policy Optimization) und A2C (Advantage Actor-Critic) sind weit verbreitete On-Policy-Algorithmen im modernen Deep Reinforcement Learning.
On-Policy-Learning erfordert typischerweise neue Daten aus der aktuellen Policy, wodurch es weniger dateneffizient ist als Off-Policy-Alternativen.
Diese Methoden sind im Training tendenziell stabiler, da sie die eingesetzte Strategie direkt optimieren.
Was ist Off-Policy Learning?
Ein Ansatz des bestärkenden Lernens, bei dem der Agent aus Erfahrungen lernt, die durch eine andere Strategie als die zu optimierende generiert wurden.
Off-Policy-Methoden können aus Daten lernen, die im Rahmen jeglicher Politik gesammelt wurden, einschließlich historischer Daten oder Demonstrationen an Menschen.
Q-Learning ist der grundlegende Off-Policy-Algorithmus, der den Wert optimaler Aktionen unabhängig von der tatsächlich getroffenen Aktion lernt.
Deep Q-Networks (DQN) erweiterten das Q-Learning, um mithilfe neuronaler Netze hochdimensionale Zustandsräume zu verarbeiten.
Off-Policy-Algorithmen wie DDPG, TD3 und SAC sind zum Standard für kontinuierliche Steuerungsaufgaben in der Robotik geworden.
Experience-Replay-Puffer ermöglichen es Off-Policy-Methoden, vergangene Übergänge wiederzuverwenden, wodurch die Sample-Effizienz drastisch verbessert wird.
Vergleichstabelle
Funktion
Politikorientiertes Lernen
Off-Policy Learning
Datenquelle
Nur aus der aktuellen Politik
Jegliche Richtlinien oder historische Daten
Probeneffizienz
Niedriger, benötigt neue Daten
Höher, nutzt vergangene Erfahrungen wieder
Trainingsstabilität
Im Allgemeinen stabiler
Kann aufgrund von Verteilungsverschiebungen weniger stabil sein.
Erforschung
An die aktuelle Politik gebunden
Entkoppelt von der Verhaltensrichtlinie
Beispielalgorithmen
SARSA, PPO, A2C, VERSTÄRKEN
Q-Learning, DQN, DDPG, SAC, TD3
Speicherbedarf
Niedrigere Stufe, kein Wiedergabepuffer erforderlich
Höher, erfordert große Wiedergabepuffer
Häufige Anwendungsfälle
Spiel-KI, Robotersimulation, Sprachmodelle
Robotik, Empfehlungssysteme, autonomes Fahren
Bias-Varianz-Kompromisse
Geringere Varianz, gewisse Verzerrung
Geringere Verzerrung, höhere Varianz
Detaillierter Vergleich
Kernlernmechanismus
Der grundlegende Unterschied liegt darin, welche Strategie die Trainingsdaten generiert. Beim On-Policy-Learning wird die exakte Strategie, die während der Exploration verfolgt wird, evaluiert und verbessert. Das bedeutet, dass jede Aktualisierung die Aktionen widerspiegelt, die der Agent tatsächlich ausführen würde. Beim Off-Policy-Learning werden diese Aspekte vollständig getrennt. Dadurch kann der Agent optimales Verhalten aus Daten lernen, die möglicherweise von einer älteren Version des Agenten, einer zufälligen Strategie oder sogar einem menschlichen Demonstrator gesammelt wurden.
Effizienz der Stichprobenentnahme und Datenwiederverwendung
Off-Policy-Methoden sind besonders effektiv, wenn Daten teuer oder knapp sind. Indem sie Übergänge in einem Replay-Puffer speichern und wiederholt daraus Daten abgreifen, können Algorithmen wie DQN und SAC den maximalen Lerneffekt aus jeder Interaktion mit der Umgebung erzielen. On-Policy-Methoden verwerfen Daten typischerweise nach einmaliger Verwendung. Dies funktioniert zwar gut in kostengünstigen Simulationsumgebungen, ist aber unpraktisch, wenn jede Interaktion Zeit oder Geld kostet, wie beispielsweise in der physikalischen Robotik.
Stabilität und Konvergenz
On-Policy-Ansätze bieten im Allgemeinen eine besser vorhersagbare Konvergenz, da die optimierte Policy stets diejenige ist, die Daten generiert, wodurch Verteilungsabweichungen vermieden werden. Off-Policy-Methoden stehen vor der Herausforderung der Verteilungsverschiebung, bei der die Datenverteilung von derjenigen abweicht, die die aktuelle Policy erzeugen würde, was mitunter zu Instabilität oder Divergenz führt. Techniken wie Zielnetzwerke, Importance Sampling und Policy-Constraints tragen zwar zur Minderung dieser Probleme bei, erhöhen aber die Komplexität.
Explorationsstrategien
Beim On-Policy-Learning ist die Exploration eng mit der aktuellen Strategie verknüpft, was häufig durch stochastische Aktionsauswahl oder Entropieboni erreicht wird. Off-Policy-Learning entkoppelt Exploration und Lernen und ermöglicht so separate Verhaltensstrategien. Diese können breit explorieren, während die Zielstrategie lernt, bestehende Ressourcen auszunutzen. Diese Trennung ermöglicht ausgefeilte Explorationsstrategien wie Epsilon-Greedy mit abklingenden Belohnungsplänen oder neugiergetriebene Verhaltensstrategien.
Praktische Anwendungen
On-Policy-Methoden dominieren in Bereichen, in denen Simulationen kostengünstig sind und Stabilität wichtig ist, wie beispielsweise beim Training von Spielagenten und beim Feinabstimmen großer Sprachmodelle mit RLHF. Off-Policy-Methoden zeichnen sich in der Robotik aus, wo die Erfassung realer Daten kostspielig ist, sowie in Empfehlungssystemen, wo umfangreiche Protokolle von Nutzerinteraktionen reichhaltige Trainingsdaten liefern. Die Wahl hängt oft davon ab, ob umfangreiche Simulationen oder wertvolle reale Daten zur Verfügung stehen.
Vorteile & Nachteile
Politikorientiertes Lernen
Vorteile
+Stabileres Training
+Einfachere Implementierung
+Kein Wiedergabepuffer erforderlich
+Direkte Politikoptimierung
Enthalten
−Geringere Probeneffizienz
−Erfordert aktuelle Daten
−Langsameres Training mit der Wanduhr
−Begrenzte Datenwiederverwendung
Off-Policy Learning
Vorteile
+Hohe Probeneffizienz
+Verwendet bereits vorhandene Daten wieder.
+Lernt aus Demonstrationen
+Entkoppelte Exploration
Enthalten
−Risiko der Trainingsinstabilität
−Größerer Speicherbedarf
−Probleme bei der Vertriebsverlagerung
−Komplexere Algorithmen
Häufige Missverständnisse
Mythos
Off-Policy-Learning ist immer besser, weil es Daten wiederverwendet.
Realität
Off-Policy-Methoden sind zwar stichprobeneffizienter, leiden aber häufig unter Trainingsinstabilität und erfordern eine sorgfältige Anpassung von Techniken wie Zielnetzwerken und Importance Sampling. On-Policy-Methoden können Off-Policy-Ansätze in Umgebungen übertreffen, in denen Simulation kostengünstig und Stabilität von höchster Bedeutung ist.
Mythos
Für das Lernen im Rahmen der Politik können keine Daten aus der Vergangenheit verwendet werden.
Realität
On-Policy-Methoden können zwar technisch gesehen auf historische Daten zurückgreifen, dies erfordert jedoch Importance-Sampling-Korrekturen, die zu einer hohen Varianz führen. In der Praxis funktionieren sie am besten mit aktuellen Daten der geltenden Richtlinie. Aus diesem Grund erfassen Algorithmen wie PPO Rollouts, trainieren damit und verwerfen sie anschließend.
Mythos
Q-Learning ist eine Off-Policy-Methode, da es den optimalen Aktionswert lernt.
Realität
Q-Learning wird als Off-Policy-Learning klassifiziert, da es zwar die optimale Strategie lernt, während es während der Exploration möglicherweise eine andere Verhaltensstrategie verfolgt. Das Ziel, von dem es ausgeht, basiert auf der Annahme einer gierigen Aktionsauswahl, die von den tatsächlich zur Datengenerierung durchgeführten Aktionen abweichen kann.
Mythos
Alle Deep-Reinforcement-Learning-Algorithmen sind Off-Policy-Algorithmen.
Realität
Viele gängige Deep-RL-Algorithmen arbeiten nach dem On-Policy-Prinzip, darunter PPO, A2C und TRPO. Die Unterscheidung zwischen On-Policy- und Off-Policy-Verfahren besteht unabhängig davon, ob neuronale Netze verwendet werden, und für beide Kategorien existieren erfolgreiche Deep-Learning-Implementierungen.
Mythos
Off-Policy-Lernen konvergiert stets schneller als On-Policy-Lernen.
Realität
Die Konvergenzgeschwindigkeit hängt von der Umgebung und der Implementierung ab. Off-Policy-Methoden benötigen möglicherweise weniger Interaktionen mit der Umgebung, erfordern aber häufig mehr Gradientenaktualisierungen und eine sorgfältige Hyperparameteroptimierung. Bei manchen Aufgaben erreichen On-Policy-Methoden trotz des höheren Stichprobenverbrauchs in der vorgegebenen Laufzeit schneller gute Strategien.
Häufig gestellte Fragen
Worin besteht der Hauptunterschied zwischen On-Policy- und Off-Policy-Lernen?
Der entscheidende Unterschied liegt im Verhältnis zwischen der datengenerierenden und der zu lernenden Richtlinie. Richtlinienbasierte Methoden verbessern dieselbe Richtlinie, die Erfahrungen sammelt, während richtlinienunabhängige Methoden aus Daten lernen, die von einer anderen Richtlinie generiert wurden. Dies beeinflusst die Effizienz der Stichproben, die Stabilität und die Art der Daten, die die jeweiligen Ansätze verwenden können.
Welche Methode ist stichprobeneffizienter, die On-Policy-Methode oder die Off-Policy-Methode?
Off-Policy-Methoden sind im Allgemeinen dateneffizienter, da sie vergangene Erfahrungen mithilfe von Replay-Puffer wiederverwenden können. Algorithmen wie SAC und DQN können aus einem einzelnen Übergang mehrfach lernen, während On-Policy-Methoden wie PPO jeden Übergang typischerweise nur einmal verwenden, bevor sie ihn verwerfen.
Ist die PPO-Versicherung im Versicherungsumfang enthalten oder nicht?
PPO (Proximal Policy Optimization) ist ein On-Policy-Algorithmus. Er sammelt Rollouts mit der aktuellen Policy, trainiert mit diesen Daten über einige Epochen, verwirft sie anschließend und sammelt neue Daten. Trotz dieser Ineffizienz ist PPO aufgrund seiner Stabilität und zuverlässigen Leistung bei verschiedenen Aufgaben weiterhin beliebt.
Kann Off-Policy-Learning Daten aus menschlichen Demonstrationen nutzen?
Ja, das ist einer der größten Vorteile des Off-Policy-Lernens. Algorithmen können mithilfe von Demonstrationsdaten von Menschen initialisiert oder vortrainiert werden und lernen anschließend durch Selbsterkundung weiter. Dieser Ansatz, oft als Lernen durch Demonstration oder Imitationslernen bezeichnet, findet breite Anwendung in der Robotik, wo Expertenbeispiele den Lernprozess beschleunigen.
Warum weist das Lernen außerhalb der vorgegebenen Richtlinien Stabilitätsprobleme auf?
Off-Policy-Methoden stehen vor dem fatalen Triadenproblem: Die Kombination von Funktionsapproximation, Bootstrapping und Off-Policy-Daten kann zu Divergenzen führen. Wird die Wertfunktion mit neuronalen Netzen approximiert und anhand von Zielwerten aus einer anderen Verteilung aktualisiert, können sich Fehler kumulativ auswirken. Techniken wie Target Networks, Double Q-Learning und konservative Updates helfen, dieses Problem zu beheben.
Was ist Importance Sampling beim Off-Policy-Lernen?
Importance Sampling ist ein statistisches Verfahren, das die Diskrepanz zwischen der Verhaltens- und der Zielverteilung korrigiert. Dabei werden Aktualisierungen anhand des Verhältnisses der Wahrscheinlichkeiten der jeweiligen Strategie neu gewichtet, wodurch Korrekturen außerhalb der eigentlichen Strategie in Policy-Gradient-Verfahren ermöglicht werden. Dieses Verhältnis kann jedoch eine hohe Varianz aufweisen, was die praktische Anwendbarkeit einschränkt.
Welcher Ansatz eignet sich besser für Robotikanwendungen?
Off-Policy-Methoden werden in der Robotik typischerweise bevorzugt, da Interaktionen in der realen Welt aufwändig und zeitintensiv sind. Algorithmen wie SAC und TD3 können komplexe Manipulationsaufgaben anhand begrenzter Daten durch die Wiederverwendung von Erfahrungen erlernen. On-Policy-Methoden werden jedoch mitunter in der Robotersimulation eingesetzt, bevor die erlernten Richtlinien auf die Hardware übertragen werden.
Ist Q-Learning im Rahmen der Unternehmensrichtlinien vorgesehen oder nicht?
Q-Learning ist ein Off-Policy-Verfahren. Es lernt den Wert der bestmöglichen Aktion in jedem Zustand, unabhängig davon, welche Aktion der Agent während der Exploration tatsächlich ausgeführt hat. Dadurch kann es optimales Verhalten auch bei einer zufälligen oder explorativen Strategie erlernen, weshalb es in DQN gut mit Experience Replay harmoniert.
In welchem Zusammenhang steht die Erlebniswiederholung mit der Einhaltung bzw. Nichteinhaltung der Richtlinien?
Experience Replay wird primär mit Off-Policy-Learning in Verbindung gebracht, da es vergangene Übergänge speichert und wiederverwendet, die möglicherweise von älteren Richtlinien generiert wurden. On-Policy-Methoden vermeiden Replay-Puffer im Allgemeinen, da die Wiederverwendung alter Daten die On-Policy-Annahme verletzt, obwohl einige hybride Ansätze existieren.
Können richtlinienkonforme und nicht richtlinienkonforme Methoden kombiniert werden?
Ja, es gibt hybride Ansätze. Einige Algorithmen nutzen Off-Policy-Daten für das Vortraining oder als Hilfsziele, während sie primär On-Policy-Daten verwenden. Actor-Critic-Methoden kombinieren oft beide Ansätze, wobei der Critic Off-Policy-Daten lernt, während der Actor On-Policy-Daten aktualisiert. Die Forschung an Methoden, die die Vorteile beider Ansätze vereinen, wird fortgesetzt.
Urteil
Wählen Sie On-Policy-Learning, wenn Sie Trainingsstabilität benötigen und Zugang zu kostengünstigen Simulationsumgebungen haben, insbesondere für Aufgaben wie Spiel-KI oder Policy-Gradient-Verfahren in Sprachmodellen. Entscheiden Sie sich für Off-Policy-Learning, wenn die Effizienz der Stichprobenentnahme entscheidend ist, die Datenerfassung teuer ist oder Sie aus vorhandenen Datensätzen wie Demonstrationen oder protokollierten Interaktionen lernen müssen.