Comparthing Logo
Reinforcement Learningmaschinelles Lernenkünstliche IntelligenzPolitikoptimierungRL-Algorithmen

Politikbezogenes Lernen vs. Politikfremdes Lernen

On-Policy- und Off-Policy-Lernen sind zwei grundlegende Ansätze im Reinforcement Learning, die sich darin unterscheiden, wie Agenten Erfahrungen sammeln und nutzen. On-Policy-Methoden lernen aus den tatsächlich vom Agenten ausgeführten Aktionen, während Off-Policy-Methoden aus Daten lernen können, die durch andere Strategien oder vergangenes Verhalten gesammelt wurden.

Höhepunkte

  • On-Policy-Methoden lernen ausschließlich aus den Aktionen der aktuellen Richtlinie, während Off-Policy-Methoden jede beliebige Datenquelle nutzen können.
  • Off-Policy-Learning bietet durch Experience Replay eine überlegene Sample-Effizienz und ist daher ideal für die Robotik in der realen Welt.
  • On-Policy-Algorithmen wie PPO ermöglichen ein stabileres Training, benötigen dafür aber in jeder Iteration neue Daten.
  • Off-Policy-Ansätze ermöglichen es, aus menschlichen Demonstrationen und historischen Aufzeichnungen zu lernen, was mit On-Policy-Methoden nicht möglich ist.

Was ist Politikorientiertes Lernen?

Ein Ansatz des bestärkenden Lernens, bei dem der Agent aus Aktionen lernt, die er aktuell unter der gleichen, zu verbessernden Richtlinie ausführt.

  • Mithilfe von On-Policy-Methoden werden dieselben Richtlinien evaluiert und verbessert, die während der Ausbildung zur Entscheidungsfindung verwendet werden.
  • SARSA (State-Action-Reward-State-Action) ist ein klassischer On-Policy-Algorithmus, der sich auf Basis der nächsten tatsächlich durchgeführten Aktion aktualisiert.
  • PPO (Proximal Policy Optimization) und A2C (Advantage Actor-Critic) sind weit verbreitete On-Policy-Algorithmen im modernen Deep Reinforcement Learning.
  • On-Policy-Learning erfordert typischerweise neue Daten aus der aktuellen Policy, wodurch es weniger dateneffizient ist als Off-Policy-Alternativen.
  • Diese Methoden sind im Training tendenziell stabiler, da sie die eingesetzte Strategie direkt optimieren.

Was ist Off-Policy Learning?

Ein Ansatz des bestärkenden Lernens, bei dem der Agent aus Erfahrungen lernt, die durch eine andere Strategie als die zu optimierende generiert wurden.

  • Off-Policy-Methoden können aus Daten lernen, die im Rahmen jeglicher Politik gesammelt wurden, einschließlich historischer Daten oder Demonstrationen an Menschen.
  • Q-Learning ist der grundlegende Off-Policy-Algorithmus, der den Wert optimaler Aktionen unabhängig von der tatsächlich getroffenen Aktion lernt.
  • Deep Q-Networks (DQN) erweiterten das Q-Learning, um mithilfe neuronaler Netze hochdimensionale Zustandsräume zu verarbeiten.
  • Off-Policy-Algorithmen wie DDPG, TD3 und SAC sind zum Standard für kontinuierliche Steuerungsaufgaben in der Robotik geworden.
  • Experience-Replay-Puffer ermöglichen es Off-Policy-Methoden, vergangene Übergänge wiederzuverwenden, wodurch die Sample-Effizienz drastisch verbessert wird.

Vergleichstabelle

Funktion Politikorientiertes Lernen Off-Policy Learning
Datenquelle Nur aus der aktuellen Politik Jegliche Richtlinien oder historische Daten
Probeneffizienz Niedriger, benötigt neue Daten Höher, nutzt vergangene Erfahrungen wieder
Trainingsstabilität Im Allgemeinen stabiler Kann aufgrund von Verteilungsverschiebungen weniger stabil sein.
Erforschung An die aktuelle Politik gebunden Entkoppelt von der Verhaltensrichtlinie
Beispielalgorithmen SARSA, PPO, A2C, VERSTÄRKEN Q-Learning, DQN, DDPG, SAC, TD3
Speicherbedarf Niedrigere Stufe, kein Wiedergabepuffer erforderlich Höher, erfordert große Wiedergabepuffer
Häufige Anwendungsfälle Spiel-KI, Robotersimulation, Sprachmodelle Robotik, Empfehlungssysteme, autonomes Fahren
Bias-Varianz-Kompromisse Geringere Varianz, gewisse Verzerrung Geringere Verzerrung, höhere Varianz

Detaillierter Vergleich

Kernlernmechanismus

Der grundlegende Unterschied liegt darin, welche Strategie die Trainingsdaten generiert. Beim On-Policy-Learning wird die exakte Strategie, die während der Exploration verfolgt wird, evaluiert und verbessert. Das bedeutet, dass jede Aktualisierung die Aktionen widerspiegelt, die der Agent tatsächlich ausführen würde. Beim Off-Policy-Learning werden diese Aspekte vollständig getrennt. Dadurch kann der Agent optimales Verhalten aus Daten lernen, die möglicherweise von einer älteren Version des Agenten, einer zufälligen Strategie oder sogar einem menschlichen Demonstrator gesammelt wurden.

Effizienz der Stichprobenentnahme und Datenwiederverwendung

Off-Policy-Methoden sind besonders effektiv, wenn Daten teuer oder knapp sind. Indem sie Übergänge in einem Replay-Puffer speichern und wiederholt daraus Daten abgreifen, können Algorithmen wie DQN und SAC den maximalen Lerneffekt aus jeder Interaktion mit der Umgebung erzielen. On-Policy-Methoden verwerfen Daten typischerweise nach einmaliger Verwendung. Dies funktioniert zwar gut in kostengünstigen Simulationsumgebungen, ist aber unpraktisch, wenn jede Interaktion Zeit oder Geld kostet, wie beispielsweise in der physikalischen Robotik.

Stabilität und Konvergenz

On-Policy-Ansätze bieten im Allgemeinen eine besser vorhersagbare Konvergenz, da die optimierte Policy stets diejenige ist, die Daten generiert, wodurch Verteilungsabweichungen vermieden werden. Off-Policy-Methoden stehen vor der Herausforderung der Verteilungsverschiebung, bei der die Datenverteilung von derjenigen abweicht, die die aktuelle Policy erzeugen würde, was mitunter zu Instabilität oder Divergenz führt. Techniken wie Zielnetzwerke, Importance Sampling und Policy-Constraints tragen zwar zur Minderung dieser Probleme bei, erhöhen aber die Komplexität.

Explorationsstrategien

Beim On-Policy-Learning ist die Exploration eng mit der aktuellen Strategie verknüpft, was häufig durch stochastische Aktionsauswahl oder Entropieboni erreicht wird. Off-Policy-Learning entkoppelt Exploration und Lernen und ermöglicht so separate Verhaltensstrategien. Diese können breit explorieren, während die Zielstrategie lernt, bestehende Ressourcen auszunutzen. Diese Trennung ermöglicht ausgefeilte Explorationsstrategien wie Epsilon-Greedy mit abklingenden Belohnungsplänen oder neugiergetriebene Verhaltensstrategien.

Praktische Anwendungen

On-Policy-Methoden dominieren in Bereichen, in denen Simulationen kostengünstig sind und Stabilität wichtig ist, wie beispielsweise beim Training von Spielagenten und beim Feinabstimmen großer Sprachmodelle mit RLHF. Off-Policy-Methoden zeichnen sich in der Robotik aus, wo die Erfassung realer Daten kostspielig ist, sowie in Empfehlungssystemen, wo umfangreiche Protokolle von Nutzerinteraktionen reichhaltige Trainingsdaten liefern. Die Wahl hängt oft davon ab, ob umfangreiche Simulationen oder wertvolle reale Daten zur Verfügung stehen.

Vorteile & Nachteile

Politikorientiertes Lernen

Vorteile

  • + Stabileres Training
  • + Einfachere Implementierung
  • + Kein Wiedergabepuffer erforderlich
  • + Direkte Politikoptimierung

Enthalten

  • Geringere Probeneffizienz
  • Erfordert aktuelle Daten
  • Langsameres Training mit der Wanduhr
  • Begrenzte Datenwiederverwendung

Off-Policy Learning

Vorteile

  • + Hohe Probeneffizienz
  • + Verwendet bereits vorhandene Daten wieder.
  • + Lernt aus Demonstrationen
  • + Entkoppelte Exploration

Enthalten

  • Risiko der Trainingsinstabilität
  • Größerer Speicherbedarf
  • Probleme bei der Vertriebsverlagerung
  • Komplexere Algorithmen

Häufige Missverständnisse

Mythos

Off-Policy-Learning ist immer besser, weil es Daten wiederverwendet.

Realität

Off-Policy-Methoden sind zwar stichprobeneffizienter, leiden aber häufig unter Trainingsinstabilität und erfordern eine sorgfältige Anpassung von Techniken wie Zielnetzwerken und Importance Sampling. On-Policy-Methoden können Off-Policy-Ansätze in Umgebungen übertreffen, in denen Simulation kostengünstig und Stabilität von höchster Bedeutung ist.

Mythos

Für das Lernen im Rahmen der Politik können keine Daten aus der Vergangenheit verwendet werden.

Realität

On-Policy-Methoden können zwar technisch gesehen auf historische Daten zurückgreifen, dies erfordert jedoch Importance-Sampling-Korrekturen, die zu einer hohen Varianz führen. In der Praxis funktionieren sie am besten mit aktuellen Daten der geltenden Richtlinie. Aus diesem Grund erfassen Algorithmen wie PPO Rollouts, trainieren damit und verwerfen sie anschließend.

Mythos

Q-Learning ist eine Off-Policy-Methode, da es den optimalen Aktionswert lernt.

Realität

Q-Learning wird als Off-Policy-Learning klassifiziert, da es zwar die optimale Strategie lernt, während es während der Exploration möglicherweise eine andere Verhaltensstrategie verfolgt. Das Ziel, von dem es ausgeht, basiert auf der Annahme einer gierigen Aktionsauswahl, die von den tatsächlich zur Datengenerierung durchgeführten Aktionen abweichen kann.

Mythos

Alle Deep-Reinforcement-Learning-Algorithmen sind Off-Policy-Algorithmen.

Realität

Viele gängige Deep-RL-Algorithmen arbeiten nach dem On-Policy-Prinzip, darunter PPO, A2C und TRPO. Die Unterscheidung zwischen On-Policy- und Off-Policy-Verfahren besteht unabhängig davon, ob neuronale Netze verwendet werden, und für beide Kategorien existieren erfolgreiche Deep-Learning-Implementierungen.

Mythos

Off-Policy-Lernen konvergiert stets schneller als On-Policy-Lernen.

Realität

Die Konvergenzgeschwindigkeit hängt von der Umgebung und der Implementierung ab. Off-Policy-Methoden benötigen möglicherweise weniger Interaktionen mit der Umgebung, erfordern aber häufig mehr Gradientenaktualisierungen und eine sorgfältige Hyperparameteroptimierung. Bei manchen Aufgaben erreichen On-Policy-Methoden trotz des höheren Stichprobenverbrauchs in der vorgegebenen Laufzeit schneller gute Strategien.

Häufig gestellte Fragen

Worin besteht der Hauptunterschied zwischen On-Policy- und Off-Policy-Lernen?
Der entscheidende Unterschied liegt im Verhältnis zwischen der datengenerierenden und der zu lernenden Richtlinie. Richtlinienbasierte Methoden verbessern dieselbe Richtlinie, die Erfahrungen sammelt, während richtlinienunabhängige Methoden aus Daten lernen, die von einer anderen Richtlinie generiert wurden. Dies beeinflusst die Effizienz der Stichproben, die Stabilität und die Art der Daten, die die jeweiligen Ansätze verwenden können.
Welche Methode ist stichprobeneffizienter, die On-Policy-Methode oder die Off-Policy-Methode?
Off-Policy-Methoden sind im Allgemeinen dateneffizienter, da sie vergangene Erfahrungen mithilfe von Replay-Puffer wiederverwenden können. Algorithmen wie SAC und DQN können aus einem einzelnen Übergang mehrfach lernen, während On-Policy-Methoden wie PPO jeden Übergang typischerweise nur einmal verwenden, bevor sie ihn verwerfen.
Ist die PPO-Versicherung im Versicherungsumfang enthalten oder nicht?
PPO (Proximal Policy Optimization) ist ein On-Policy-Algorithmus. Er sammelt Rollouts mit der aktuellen Policy, trainiert mit diesen Daten über einige Epochen, verwirft sie anschließend und sammelt neue Daten. Trotz dieser Ineffizienz ist PPO aufgrund seiner Stabilität und zuverlässigen Leistung bei verschiedenen Aufgaben weiterhin beliebt.
Kann Off-Policy-Learning Daten aus menschlichen Demonstrationen nutzen?
Ja, das ist einer der größten Vorteile des Off-Policy-Lernens. Algorithmen können mithilfe von Demonstrationsdaten von Menschen initialisiert oder vortrainiert werden und lernen anschließend durch Selbsterkundung weiter. Dieser Ansatz, oft als Lernen durch Demonstration oder Imitationslernen bezeichnet, findet breite Anwendung in der Robotik, wo Expertenbeispiele den Lernprozess beschleunigen.
Warum weist das Lernen außerhalb der vorgegebenen Richtlinien Stabilitätsprobleme auf?
Off-Policy-Methoden stehen vor dem fatalen Triadenproblem: Die Kombination von Funktionsapproximation, Bootstrapping und Off-Policy-Daten kann zu Divergenzen führen. Wird die Wertfunktion mit neuronalen Netzen approximiert und anhand von Zielwerten aus einer anderen Verteilung aktualisiert, können sich Fehler kumulativ auswirken. Techniken wie Target Networks, Double Q-Learning und konservative Updates helfen, dieses Problem zu beheben.
Was ist Importance Sampling beim Off-Policy-Lernen?
Importance Sampling ist ein statistisches Verfahren, das die Diskrepanz zwischen der Verhaltens- und der Zielverteilung korrigiert. Dabei werden Aktualisierungen anhand des Verhältnisses der Wahrscheinlichkeiten der jeweiligen Strategie neu gewichtet, wodurch Korrekturen außerhalb der eigentlichen Strategie in Policy-Gradient-Verfahren ermöglicht werden. Dieses Verhältnis kann jedoch eine hohe Varianz aufweisen, was die praktische Anwendbarkeit einschränkt.
Welcher Ansatz eignet sich besser für Robotikanwendungen?
Off-Policy-Methoden werden in der Robotik typischerweise bevorzugt, da Interaktionen in der realen Welt aufwändig und zeitintensiv sind. Algorithmen wie SAC und TD3 können komplexe Manipulationsaufgaben anhand begrenzter Daten durch die Wiederverwendung von Erfahrungen erlernen. On-Policy-Methoden werden jedoch mitunter in der Robotersimulation eingesetzt, bevor die erlernten Richtlinien auf die Hardware übertragen werden.
Ist Q-Learning im Rahmen der Unternehmensrichtlinien vorgesehen oder nicht?
Q-Learning ist ein Off-Policy-Verfahren. Es lernt den Wert der bestmöglichen Aktion in jedem Zustand, unabhängig davon, welche Aktion der Agent während der Exploration tatsächlich ausgeführt hat. Dadurch kann es optimales Verhalten auch bei einer zufälligen oder explorativen Strategie erlernen, weshalb es in DQN gut mit Experience Replay harmoniert.
In welchem Zusammenhang steht die Erlebniswiederholung mit der Einhaltung bzw. Nichteinhaltung der Richtlinien?
Experience Replay wird primär mit Off-Policy-Learning in Verbindung gebracht, da es vergangene Übergänge speichert und wiederverwendet, die möglicherweise von älteren Richtlinien generiert wurden. On-Policy-Methoden vermeiden Replay-Puffer im Allgemeinen, da die Wiederverwendung alter Daten die On-Policy-Annahme verletzt, obwohl einige hybride Ansätze existieren.
Können richtlinienkonforme und nicht richtlinienkonforme Methoden kombiniert werden?
Ja, es gibt hybride Ansätze. Einige Algorithmen nutzen Off-Policy-Daten für das Vortraining oder als Hilfsziele, während sie primär On-Policy-Daten verwenden. Actor-Critic-Methoden kombinieren oft beide Ansätze, wobei der Critic Off-Policy-Daten lernt, während der Actor On-Policy-Daten aktualisiert. Die Forschung an Methoden, die die Vorteile beider Ansätze vereinen, wird fortgesetzt.

Urteil

Wählen Sie On-Policy-Learning, wenn Sie Trainingsstabilität benötigen und Zugang zu kostengünstigen Simulationsumgebungen haben, insbesondere für Aufgaben wie Spiel-KI oder Policy-Gradient-Verfahren in Sprachmodellen. Entscheiden Sie sich für Off-Policy-Learning, wenn die Effizienz der Stichprobenentnahme entscheidend ist, die Datenerfassung teuer ist oder Sie aus vorhandenen Datensätzen wie Demonstrationen oder protokollierten Interaktionen lernen müssen.

Verwandte Vergleiche

A/B-Testing bei Content-Releases vs. einmalige Content-Releases

A/B-Tests bei Content-Releases beinhalten die Ausrollung von Varianten an verschiedene Zielgruppensegmente und die Messung der Performance, während einmalige Content-Releases eine einzige Version gleichzeitig an alle ausliefern. Beide Ansätze eignen sich für unterschiedliche Ziele: A/B-Tests begünstigen datengetriebene Optimierung, während einmalige Releases Geschwindigkeit und Einfachheit priorisieren.

A/B-Testing bei Modellbereitstellung vs. Einzelmodellbereitstellung

A/B-Tests im Modell-Serving-Verfahren leiten den Datenverkehr zwischen konkurrierenden Modellversionen, um die Leistung im realen Einsatz zu messen. Bei der Bereitstellung eines einzelnen Modells wird hingegen allen Nutzern dasselbe Modell ausgeliefert. Die Teams wählen die Methode basierend auf Risikotoleranz, Datenverkehrsaufkommen und dem Bedarf an statistischer Validierung vor der vollständigen Einführung.

Abfrageerweiterung vs. feste Abfrageeinbettungen

Die Abfrageerweiterung reichert Suchanfragen dynamisch zur Laufzeit mit zusätzlichen Begriffen an, während feste Abfrageeinbettungen auf vorab berechneten, unveränderlichen Vektordarstellungen basieren. Beide Ansätze beheben das Problem der Vokabulardiskrepanz bei der Informationswiedergewinnung, unterscheiden sich jedoch deutlich in Flexibilität, Rechenaufwand und Anpassungsfähigkeit an neue Inhalte.

Abwägung zwischen Latenz und Genauigkeit beim Serveraufruf vs. Optimierung der reinen Genauigkeit

Latenzoptimiertes Arbeiten und reine Genauigkeitsoptimierung stellen zwei konkurrierende Ansätze im KI-Einsatz dar. Latenzoptimiertes Arbeiten priorisiert Geschwindigkeit und Benutzerfreundlichkeit, während reine Genauigkeitsoptimierung die höchstmögliche Modellleistung unabhängig von der Inferenzzeit anstrebt. Die Wahl zwischen diesen Ansätzen beeinflusst das Verhalten von KI-Systemen im Produktivbetrieb.

Actor-Critic-Methoden vs. reine Policy-Gradient-Methoden

Actor-Critic-Methoden kombinieren Policy-Gradienten mit einer gelernten Wertfunktion, um die Varianz zu reduzieren und das Lernen zu beschleunigen, während reine Policy-Gradienten-Methoden ausschließlich auf der Policy und Monte-Carlo-Renditen basieren. Die Wahl zwischen den Methoden hängt davon ab, ob Stabilität und Stichprobeneffizienz oder Einfachheit und unverzerrte Schätzungen erforderlich sind.