Metódy aktér-kritik vs. metódy čistého gradientu politiky
Metódy aktér-kritik kombinujú gradienty politík s funkciou naučenej hodnoty, aby sa znížil rozptyl a urýchlilo učenie, zatiaľ čo čisté metódy gradientov politík sa spoliehajú výlučne na politiku a výnosy Monte Carla. Výber medzi nimi závisí od toho, či potrebujete stabilitu a efektívnosť vzorky alebo jednoduchosť a nestranné odhady.
Zvýraznenia
Metódy aktér-kritik znižujú rozptyl gradientu pomocou naučenej základnej hodnoty, zatiaľ čo čisté gradienty politík sa spoliehajú na zašumené výnosy Monte Carla.
Čisté metódy gradientu politiky sú nezaujaté, ale vyžadujú veľa vzorky, zatiaľ čo metódy založené na aktéroch a kritikoch vymieňajú trochu zaujatosti za oveľa lepšiu efektivitu vzorky.
Algoritmy actor-critic ako PPO a SAC poháňajú väčšinu moderných úspechov RL, od Atari po RLHF pre rozsiahle jazykové modely.
Čisté metódy gradientu politiky zostávajú populárne pre výskum a jednoduché kontrolné úlohy, pretože sa ľahšie implementujú a argumentujú.
Čo je Metódy herec-kritik?
Hybridné algoritmy posilňovacieho učenia, ktoré spárujú sieť politík (aktéra) so sieťou odhadu hodnoty (kritika) pre stabilnejšie trénovanie.
Metódy aktér-kritik boli formalizované začiatkom 21. storočia a nadväzovali na skoršiu prácu výskumníkov ako Sutton a Barto o iterácii politík.
Aktér aktualizuje politiku pomocou smeru gradientu navrhnutého kritikom, zatiaľ čo kritik odhaduje funkciu hodnoty na vyhodnotenie akcií.
Medzi obľúbené varianty patria A2C (Advantage Actor-Critic), A3C (Asynchrónny Advantage Actor-Critic), SAC (Soft Actor-Critic) a PPO (Proximal Policy Optimization).
Použitím naučenej základnej línie prístupy aktér-kritik dramaticky znižujú rozptyl odhadov gradientu politiky v porovnaní s výnosmi Monte Carlo.
Tieto metódy viedli k prelomom v hraní hier, robotike a jemnom doladení modelov veľkých jazykov prostredníctvom RLHF.
Čo je Čisté metódy gradientu politiky?
Algoritmy posilňovacieho učenia, ktoré priamo optimalizujú parametrizovanú politiku pomocou gradientného vzostupu na očakávanom výnose bez samostatného hodnotového modelu.
Základný algoritmus REINFORCE predstavil Ronald Williams v roku 1992, čím zaviedol teorém o gradiente politiky.
Čisté metódy gradientu politiky odhadujú gradienty pomocou zavedení Monte Carlo alebo výnosov z celej epizódy, a nie pomocou bootstrapovaných odhadov hodnoty.
Sú prirodzene kompatibilné so stochastickými politikami, vďaka čomu sú vhodné pre prostredia so spojitými alebo vysokodimenzionálnymi akčnými priestormi.
Keďže sa spoliehajú na vzorkované trajektórie, tieto metódy sú nestranné, ale majú tendenciu vykazovať vysokú rozptylnosť v odhadoch gradientov.
Medzi významné implementácie patrí pôvodný REINFORCE, Vanilla Policy Gradient (VPG) a Trust Region Policy Optimization (TRPO).
Tabuľka porovnania
Funkcia
Metódy herec-kritik
Čisté metódy gradientu politiky
Základný mechanizmus
Kombinuje sieť politík (aktér) s hodnotovou sieťou (kritik)
Optimalizuje politiku priamo pomocou vzorkovaných výnosov
Vo všeobecnosti vyššia, opätovne používa dáta prostredníctvom bootstrappingu
Nižšia, vyžaduje celé epizódy alebo veľa ukážok
Zložitosť implementácie
Zložitejšie, vyžaduje trénovanie dvoch sietí
Jednoduchšie, spravovať iba jednu sieť
Stabilita tréningu
Stabilnejšia vďaka nižšej variancii a dôveryhodným regiónom
Menej stabilný, citlivý na rýchlosť učenia a stupnicu odmien
Manipulácia s prieskumom
Môže zahŕňať entropické bonusy alebo stochastické kritiky
Prirodzene stochastické, ľahko povzbuditeľné k objavovaniu
Typické prípady použitia
Rozsiahle RL, robotika, RLHF pre jazykové modely
Jednoduché kontrolné úlohy, výskumné východiská, epizodické problémy
Podrobné porovnanie
Odhad gradientu a rozptyl
Najväčší praktický rozdiel medzi týmito dvoma skupinami metód spočíva v tom, ako odhadujú smer zlepšovania. Čisté metódy gradientu politiky sa spoliehajú na výnosy Monte Carlo zozbierané z celých epizód, ktoré poskytujú nezaujatý signál, ale taký, ktorý sa divoko mení v závislosti od šťastia pri akomkoľvek jednotlivom zavedení. Metódy aktér-kritik nahrádzajú tento zašumený výnos funkciou naučenej hodnoty, čím efektívne odčítajú základnú líniu, ktorá zachytáva očakávaný výsledok. Výsledkom je gradient s oveľa nižšou varianciou, ktorý umožňuje plynulejší priebeh tréningu, najmä v prostrediach, kde sú odmeny zriedkavé alebo oneskorené.
Kompromis medzi odchýlkou a rozptylom
Výmena rozptylu za skreslenie je ústredným kompromisom v dizajne metódy actor-kritik. Kritik je sám o sebe aproximáciou, takže jeho odhady môžu byť nesprávne a táto chyba sa prejavuje v aktualizácii politiky. Čisté metódy gradientu politiky sa tomu úplne vyhýbajú, pretože nikdy neaproximujú hodnotovú funkciu, ale za túto čistotu platia hlučnejšími aktualizáciami. V praxi moderné algoritmy actor-kritik, ako sú PPO a SAC, zvládajú tento kompromis tak dobre, že malé skreslenie je zriedkakedy problémom, a preto dominujú v benchmarkoch.
Efektivita vzorkovania a opätovné použitie údajov
Efektivita vzorkovania je nesmierne dôležitá, keď je interakcia s prostredím nákladná, napríklad v robotike alebo v systémoch dialógu v reálnom svete. Metódy typu actor-kritik tu vynikajú, pretože kritik vychádza z vlastných predpovedí, čo umožňuje algoritmu učiť sa z každého prechodu viackrát. Čisté metódy gradientu politík vo všeobecnosti potrebujú nové údaje o politikách pre každú aktualizáciu, čo znamená viac interakcií s prostredím pri rovnakom rozsahu zlepšenia politík. To je jeden z dôvodov, prečo sú algoritmy štýlu REINFORCE bežnejšie vo výskumných prostrediach, kde je simulácia lacná.
Implementácia a ladenie
Ak chcete niečo, čo sa dá rýchlo prototypovať, sú atraktívne čisto metódy gradientu politík. Potrebujete iba sieť politík, stratovú funkciu zostavenú z logaritmických pravdepodobností vážených návratnosťou a spôsob zhromažďovania trajektórií. Metódy typu aktor-kritik pridávajú záťaž trénovania druhej siete, vyvažovania jej rýchlosti učenia s rýchlosťou učenia aktéra a zabezpečenia toho, aby kritik konvergoval dostatočne rýchlo, aby bol užitočný. Táto dodatočná zložitosť sa vypláca vo výkone, ale zvyšuje latku pre nováčikov.
Prieskum a stochastické politiky
Oba prístupy prirodzene riešia stochastické politiky, ale odlišne podporujú prieskum. Čisté metódy gradientu politík získavajú prieskum bezplatne z vlastnej entropie politiky, čo funguje dobre v problémoch s jasným rozdelením akcií. Metódy herca a kritika často pridávajú k cieľu explicitný bonus za entropiu, ako to robí slávne mäkký herec a kritik, aby sa zabránilo príliš skorému kolapsu politiky. Vďaka tomu sú varianty herca a kritika robustnejšie v úlohách, kde by agent inak mohol uviaznuť v suboptimálnom správaní.
Výhody a nevýhody
Metódy herec-kritik
Výhody
+Aktualizácie s nižšou odchýlkou
+Lepšia účinnosť vzorky
+Stabilnejší tréning
+Škálovanie pre zložité úlohy
Cons
−Zložitejšie na implementáciu
−Ladenie extra hyperparametrov
−Mierna zaujatosť kritika
−Dve siete na školenie
Čisté metódy gradientu politiky
Výhody
+Jednoduchá implementácia
+Nestranné odhady gradientu
+Prirodzené stochastické politiky
+Skvelé na výskum
Cons
−Aktualizácie s vysokou variabilitou
−Nízka účinnosť vzorky
−Potrebuje celé epizódy
−Citlivý na rýchlosť učenia
Bežné mylné predstavy
Mýtus
Metódy typu actor-critic sú úplne odlišnou skupinou algoritmov od gradientov politík.
Realita
Metódy aktér-kritik sú v skutočnosti podmnožinou metód gradientu politiky. Vypočítavajú rovnaký gradient politiky, ale na zníženie rozptylu používajú funkciu naučenej hodnoty namiesto spoliehania sa na surové výnosy.
Mýtus
Čisté metódy gradientu politiky vždy konvergujú rýchlejšie, pretože sú nestranné.
Realita
Nestrannosť sa nerovná rýchlej konvergencii. Vysoká variancia odhadov Monte Carlo často dramaticky spomaľuje trénovanie, najmä v úlohách s dlhým horizontom, kde sú odmeny oneskorené.
Mýtus
Metódy herca a kritika nemôžu fungovať s priestormi spojitých akcií.
Realita
Mnohé algoritmy typu actor-critic, vrátane SAC a DDPG, sú špeciálne navrhnuté pre kontinuálne riadenie a fungujú mimoriadne dobre v robotike a simuláciách založených na fyzike.
Mýtus
Na dobré učenie s posilňovaním vždy potrebujete kritika.
Realita
Čisté metódy gradientu politiky ako REINFORCE a TRPO vyriešili množstvo problémov bez kritika. Kritik je nástroj na redukciu rozptylu, nie striktná požiadavka.
Mýtus
PPO je čisto metóda politického gradientu.
Realita
PPO je technicky algoritmus typu aktér-kritik. Na strane politiky používa orezaný zástupný cieľ, ale na výpočet výhod a usmerňovanie aktualizácií sa spolieha na hodnotovú sieť.
Často kladené otázky
Aký je hlavný rozdiel medzi metódami aktér-kritik a gradientom politiky?
Hlavný rozdiel spočíva v tom, či sa počas trénovania používa hodnotová funkcia. Metódy typu aktor-kritik trénujú samostatnú sieť kritikov na odhad hodnôt a zníženie rozptylu, zatiaľ čo čisto metódy gradientu politiky odhadujú gradienty priamo zo vzorkovaných výnosov bez naučeného hodnotového modelu.
Prečo majú metódy herec-kritik nižšiu varianciu?
Pred výpočtom gradientu od výnosu odčítajú naučenú základnú líniu, zvyčajne hodnotovú funkciu. Táto základná línia zachytáva očakávaný výsledok, takže zostávajúci signál výhody má oveľa menej náhodného šumu ako surové výnosy Monte Carlo.
Je PPO metódou založenou na princípe aktér-kritik alebo metódou politického gradientu?
PPO je algoritmus typu actor-critic. Na aktualizáciu politiky používa orezaný cieľ, ale na výpočet výhod sa spolieha na hodnotovú sieť, čo je charakteristickým znakom rodiny algoritmov typu actor-critic.
Kedy by som mal použiť čisto metódy gradientu politiky namiesto metódy aktér-kritik?
Čisté metódy gradientu politiky sú vhodné pre krátke epizodické úlohy, výskumné východiská alebo situácie, kde chcete jednoduchý, nestranný algoritmus. Fungujú dobre aj vtedy, keď je simulácia prostredia lacná a nepotrebujete maximálnu efektivitu vzorky.
Fungujú metódy herec-kritik pre priestory s kontinuálnou činnosťou?
Áno, mnohé to robia. Algoritmy ako SAC, DDPG a TD3 sú metódy typu actor-critic špeciálne navrhnuté pre kontinuálne riadenie a sú široko používané v robotike a simulovaných fyzikálnych prostrediach.
Používajú sa dnes ešte čisto politické gradientné metódy?
Rozhodne. REINFORCE a Vanilla Policy Gradient zostávajú populárne vo výskume a vzdelávaní a TRPO sa stále používa v bezpečnostne citlivých aplikáciách, kde je jeho obmedzenie oblasti dôveryhodnosti cenné.
Čo je to teorém o politickom gradiente?
Veta o gradiente politiky, ktorú dokázali Sutton a kolegovia, poskytuje uzavretý výraz pre gradient očakávaného výnosu vzhľadom na parametre politiky. Na tejto vete sú postavené čistá metóda gradientu politiky aj metóda aktér-kritik.
Aký je vzťah medzi metódou REINFORCE a metódou aktér-kritik?
REINFORCE je kanonický algoritmus čistého gradientu politiky. Metódy aktor-kritik možno považovať za evolúciu REINFORCE, ktorá nahrádza výnos Monte Carlo bootstrapovaným odhadom od naučeného kritika, čo znižuje rozptyl za cenu určitého skreslenia.
Môžu byť metódy actor-critic použité pre RLHF vo veľkých jazykových modeloch?
Áno, metódy typu actor-critic, ako je PPO, sú ťažnými koňmi RLHF kanálov na zarovnávanie rozsiahlych jazykových modelov. Zvládajú dlhé horizonty a komplexné signály odmien, ktoré sa používajú pri trénovaní jazykových modelov s ľudskou spätnou väzbou.
Ktorá metóda je lepšia pre prostredia s nízkym počtom odmien?
Metódy herec-kritik vo všeobecnosti fungujú lepšie v prostredí s nízkym počtom odmien, pretože kritik dokáže šíriť informácie o hodnote spätne v čase, čím poskytuje politike užitočné signály učenia, aj keď sú odmeny zriedkavé.
Rozsudok
Čisté metódy gradientu politík zvoľte, ak chcete jednoduchý, nestranný algoritmus pre problémy s krátkym horizontom alebo ako čistý výskumný základ. Metódy aktér-kritik siahnite vždy, keď vám záleží na efektívnosti vzorky, stabilite trénovania alebo škálovaní na zložité prostredia, ako je robotika a doladenie modelov veľkých jazykov.