Orezávanie politík v PPO vs. neobmedzené aktualizácie politík
Orezávanie politík v PPO obmedzuje, ako veľmi sa nová politika môže počas každej aktualizácie odchyľovať od starej, čím sa udržiava stabilita trénovania. Neobmedzené aktualizácie politík umožňujú novej politike voľne sa meniť, čo môže urýchliť učenie, ale v zložitých prostrediach často vedie k nestabilite alebo kolapsu.
Zvýraznenia
Orezávanie PPO obmedzuje pomer pravdepodobnosti na 0,8 – 1,2, čím zabraňuje deštruktívnym aktualizáciám.
Neobmedzené aktualizácie môžu v jednom kroku ľubovoľne posunúť politiku.
Orezávanie umožňuje viacero tréningových epoch na tej istej dávke údajov, čím sa zvyšuje efektivita.
Neohraničené metódy vyžadujú starostlivé ladenie rýchlosti učenia, aby sa predišlo kolapsu.
Čo je Výstrižky politík v PPO?
Technika v optimalizácii proximálnej politiky, ktorá obmedzuje, koľko sa politika môže zmeniť v jednom kroku aktualizácie.
Predstavené Johnom Schulmanom a kolegami z OpenAI v ich článku PPO z roku 2017.
Používa orezávací pomer, zvyčajne nastavený medzi 0,1 a 0,2, na obmedzenie pomeru pravdepodobnosti medzi novými a starými politikami.
Nahrádza trest za divergenciu KL používaný v TRPO jednoduchším orezaným náhradným cieľom.
Pomáha predchádzať rozsiahlym aktualizáciám politík, ktoré môžu narušiť školenie.
Stal sa jedným z najpoužívanejších algoritmov posilňovacieho učenia vo výskume aj v priemysle.
Čo je Neobmedzené aktualizácie pravidiel?
Prístup, kde sa parametre politiky môžu počas jednej iterácie tréningu zmeniť o ľubovoľnú hodnotu bez explicitných obmedzení.
Používa sa v skorých metódach gradientu politík, ako je napríklad vanilla REINFORCE a základné algoritmy actor-critic.
Na obmedzenie rozsahu zmien parametrov sa neaplikuje žiadne orezávanie ani obmedzenie KL.
Pri správnom smere gradientu môže viesť k rýchlemu počiatočnému učeniu.
stochastickom alebo vysokodimenzionálnom prostredí často vedie k vysokej variabilite a kolapsu politík.
Niekedy sa kombinuje s heuristikou oblasti dôvery alebo poklesom rýchlosti učenia, aby sa čiastočne zmiernila nestabilita.
Tabuľka porovnania
Funkcia
Výstrižky politík v PPO
Neobmedzené aktualizácie pravidiel
Aktualizovať obmedzenie
Orezané na pomer 0,1–0,2
Žiadne explicitné obmedzenie
Stabilita tréningu
Vo všeobecnosti stabilný naprieč iteráciami
Náchylné na oscilácie a kolaps
Účinnosť vzorky
Vysoká, opätovne používa zozbierané trajektórie
Premenlivá, často vyžaduje čerstvé údaje
Zložitosť implementácie
Stredný, jeden zastrihnutý objektív
Jednoduchý, štandardný gradientný výstup
Citlivosť hyperparametrov
Nižší rozsah orezávania je zhovievavý
Vyššia miera učenia je kritická
Riziko kolapsu politiky
Nízka kvôli obmedzeniu blízkosti
Vysoká bez vonkajších ochranných opatrení
Bežné prípady použitia
Robotika, herná umelá inteligencia, RLHF, kontinuálne riadenie
Jednoduché úlohy s hračkami, teoretická analýza
Pôvod
OpenAI, dokument PPO z roku 2017
Raná literatúra o politickom gradiente, 90. – 2000. roky
Podrobné porovnanie
Základný mechanizmus
Orezávanie politík v PPO funguje tak, že sa vypočíta pomer medzi pravdepodobnosťami nových a starých akcií a potom sa tento pomer oreže tak, aby zostal v úzkom pásme (zvyčajne 0,8 až 1,2). Keď sa pomer pokúsi posunúť mimo toto pásmo, signál gradientu sa vynuluje, čím sa optimalizátoru efektívne povie: „Netlač ďalej týmto smerom.“ Neobmedzené aktualizácie túto ochranu úplne vynechajú a umožňujú optimalizátoru presunúť parametre politík kamkoľvek ukazuje gradient, bez ohľadu na to, aký dramatický je posun.
Stabilita a spoľahlivosť
Prístup s orezaním si získal povesť spoľahlivosti, pretože zabraňuje katastrofickému zabúdaniu, ktoré trápi neohraničené metódy. Keď sa nájde dobrá politika, orezanie zabráni jej zničeniu príliš sebavedomou aktualizáciou. Neohraničené aktualizácie môžu občas nájsť prelomové riešenia rýchlejšie, ale majú tiež zvyk zahodiť týždne pokroku v jednom zlom kroku, a preto sa im väčšina produkčných systémov vyhýba.
Účinnosť vzorky
Orezávanie v PPO umožňuje viacero epoch optimalizácie na tej istej dávke zozbieraných skúseností, čím sa dramaticky zlepšuje efektivita vzorkovania. Keďže sa politika nemôže príliš odchýliť, údaje zostávajú relevantné v niekoľkých krokoch gradientu. Neobmedzené aktualizácie zvyčajne vyžadujú nové vzorky pri každej iterácii, pretože politika sa mohla zmeniť natoľko, že staré trajektórie už neodrážajú aktuálne správanie, čím sa plytvajú výpočtové a environmentálne zdroje.
Správanie hyperparametrov
Orezávanie robí PPO pozoruhodne zhovievavým k hyperparametrom. Rozsah orezávania 0,2 funguje dobre v obrovskom rozsahu úloh bez väčšieho ladenia. Neobmedzené aktualizácie žijú a umierajú podľa rýchlosti učenia: príliš malé a učenie sa prechádza, príliš veľké a politika sa odchyľuje. Táto citlivosť robí neohraničené metódy frustrujúcimi pre odborníkov, ktorí nemajú čas na rozsiahle prehľadávanie.
Praktické prijatie
Prejdite si akúkoľvek modernú kódovú základňu RL a zistíte, že PPO dominuje krajine, od vlastnej práce OpenAI až po robotické laboratóriá a dolaďovacie kanály jazykových modelov, ako je RLHF. Neobmedzené aktualizácie politík zostávajú väčšinou v učebniciach a teoretických diskusiách, občas sa objavujú vo výskumných prácach, ktoré potrebujú východiskový bod na porovnanie. Rozdiel v prijatí odráža desaťročia nahromadených dôkazov o tom, ktorý prístup v praxi skutočne funguje.
Výhody a nevýhody
Výstrižky politík v PPO
Výhody
+Vysoko stabilný tréning
+Vzorka efektívna
+Odpúšťajúce hyperparametre
+Široké prijatie v tomto odvetví
Cons
−Pomalší postup krok za krokom
−Rozsah klipu je stále potrebné doladiť
−Môže byť príliš konzervatívny
−Mierne zložitejší kód
Neobmedzené aktualizácie pravidiel
Výhody
+Jednoduchá implementácia
+Rýchle počiatočné učenie
+Žiadne umelé obmedzenia
+Užitočné pre teoretickú prácu
Cons
−Náchylný na kolaps politiky
−Aktualizácie s vysokou variabilitou
−Slabé opätovné použitie vzorky
−Citlivý na rýchlosť učenia
Bežné mylné predstavy
Mýtus
Orezanie úplne zabraňuje tomu, aby sa politika niekedy výrazne zmenila.
Realita
Orezanie obmedzuje iba to, o koľko sa politika môže zmeniť v rámci jedného kroku aktualizácie. Počas mnohých iterácií sa politika môže stále podstatne meniť, pokiaľ každý jednotlivý krok zostane v rozsahu orezania. Obmedzenie je pre každý krok individuálne, nie je trvalé.
Mýtus
Neohraničené aktualizácie vždy konvergujú rýchlejšie ako orezané metódy.
Realita
Neobmedzené aktualizácie sa môžu spočiatku zdať rýchlejšie, ale často sa rozbiehajú alebo zrútia, čo núti reštartovanie, ktoré zmaže akékoľvek skoré zisky. V praxi metódy s orezaním, ako je PPO, často dosahujú lepší konečný výkon za kratší čas, pretože neplytvajú úsilím pri obnove po chybných aktualizáciách.
Mýtus
Orezávanie PPO ho robí ekvivalentom TRPO.
Realita
Obe metódy obmedzujú aktualizácie politík, ale TRPO používa tvrdé obmedzenie divergencie KL s riadkovým vyhľadávaním, zatiaľ čo PPO používa mäkké obmedzenie pravdepodobnostného pomeru. PPO je jednoduchšie, podporuje viacero epoch na dávku a lepšie sa škáluje na veľké modely, a preto v praxi do značnej miery nahradilo TRPO.
Mýtus
Väčší rozsah klipov vždy znamená agresívnejšie učenie.
Realita
Zväčšenie rozsahu orezania síce umožňuje väčšie aktualizácie, ale zároveň znižuje ochranný účinok orezania. Za určitým bodom sa algoritmus správa skôr ako neohraničená aktualizácia a stráca svoje výhody stability. Predvolený rozsah 0,2 je ideálny, nie východiskový bod pre ladenie smerom nahor.
Mýtus
Neobmedzené aktualizácie politík sú zastarané a zbytočné.
Realita
Neobmedzené aktualizácie zostávajú cenné ako východiskové body vo výskume a fungujú pomerne dobre v jednoduchých prostrediach, ako sú malé mriežkové svety alebo nízkodimenzionálne riadiace úlohy. Slúžia tiež ako pedagogické nástroje na pochopenie toho, prečo boli metódy dôveryhodných oblastí vôbec vyvinuté.
Často kladené otázky
Čo vlastne robí pomer klipov v PPO?
Pomer prierezu obmedzuje pomer pravdepodobnosti medzi novými a starými pravidlami na hodnotu napríklad 0,2, čo znamená, že nové pravidlo nemôže priradiť žiadnej akcii o viac ako 20 % vyššiu alebo nižšiu pravdepodobnosť v porovnaní so starým pravidlom. Keď sa pomer pokúsi prekročiť tento rozsah, gradient sa vynuluje, čím sa zabráni ďalšiemu pohybu v danom smere pre daný krok.
Prečo neobmedzené aktualizácie politík spôsobujú zlyhanie školenia?
Bez obmedzení môže jediný veľký krok gradientu posunúť politiku do oblasti, kde má zlé výsledky, a výsledné zlé trajektórie ovplyvňujú budúce odhady gradientu. Táto spätná väzba často vedie ku kolapsu politiky, kde výkon agenta nezvratne klesá a nikdy sa neobnoví bez manuálneho resetovania.
Je PPO vždy lepšie ako metódy gradientu vanilkovej politiky?
Vo väčšine praktických prostredí áno. Orezávanie PPO poskytuje stabilitu, ktorá chýba klasickým metódam, najmä v spojitom riadení a vysokorozmerných pozorovacích priestoroch. Klasické gradienty politík môžu stále zvíťaziť vo veľmi jednoduchých diskrétnych prostrediach, kde je signál gradientu čistý a riziko kolapsu je nízke.
Môžete kombinovať clipping s inými technikami, ako sú napríklad KL penalty?
Áno, a mnoho implementácií robí presne to. Adaptívne penalizácie KL je možné pridať spolu s orezávaním, aby sa ďalej regularizovali aktualizácie, hoci pôvodný článok PPO zistil, že samotné orezávanie zvyčajne postačuje. Niektorí odborníci uvádzajú, že kombinácia oboch prináša len nepatrné zlepšenia pri obzvlášť zložitých úlohách.
Čo sa stane, ak nastavíte rozsah klipov PPO na nulu?
Rozsah orezania na nulu by úplne zmrazil politiku, pretože akákoľvek zmena by bola orezaná a vytvorila by nulový gradient. V praxi musí byť rozsah orezania kladný, aby sa vôbec umožnilo akékoľvek učenie, a preto sú hodnoty ako 0,1 alebo 0,2 štandardné, a nie blížiace sa k nule.
Prekonajú neobmedzené aktualizácie niekedy PPO v benchmarkoch?
Zriedkavo, ale môže sa to stať pri jednoduchých úlohách, kde je ľahké dosiahnuť optimálnu politiku a gradient sa správa dobre. V štandardizovaných benchmarkoch ako MuJoCo alebo Atari PPO konzistentne dosahuje alebo prekonáva neohraničené základné hodnoty, a preto sa stalo predvolenou voľbou pre nové projekty.
Ako PPO inak spracováva priestory spojitých akcií v porovnaní s neohraničenými metódami?
Oba prístupy pracujú so spojitými akciami prostredníctvom Gaussových politík, ale orezávanie PPO zabraňuje prudkým skokom parametrov priemeru a rozptylu medzi aktualizáciami. Neohraničené metódy v spojitých priestoroch sú obzvlášť náchylné na nestabilitu, pretože malé zmeny parametrov môžu spôsobiť veľké posuny v rozdelení akcií.
Je orezávanie to isté ako orezávanie prechodom?
Nie, ide o odlišné mechanizmy. Orezávanie gradientov obmedzuje veľkosť gradientov pred aktualizáciou parametrov, zatiaľ čo orezávanie PPO obmedzuje pomer pravdepodobností po výpočte aktualizácie. Oba sa dajú použiť spoločne a riešia súvisiace, ale odlišné zdroje nestability tréningu.
Prečo OpenAI vyvinula PPO namiesto vylepšenia TRPO?
TRPO fungovalo dobre, ale bolo výpočtovo náročné kvôli optimalizácii druhého rádu a postupom vyhľadávania riadkov. PPO bolo navrhnuté tak, aby dosahovalo podobné záruky stability ako metódy prvého rádu, ktoré sa ľahšie implementujú, lepšie škálujú na veľké siete a bežia rýchlejšie na modernom hardvéri.
Dajú sa neobmedzené aktualizácie stabilizovať s malou mierou učenia?
Malá rýchlosť učenia znižuje rozsah každej aktualizácie, čo napodobňuje niektoré výhody orezávania, ale nevynucuje obmedzenie blízkosti, ktoré robí PPO robustným. Týmto spôsobom môžete aproximovať stabilitu, ale zvyčajne budete potrebovať oveľa viac vzoriek a starostlivé ladenie, aby ste zodpovedali spoľahlivosti PPO.
Rozsudok
Zvoľte orezávanie politík v PPO vždy, keď potrebujete spoľahlivé a reprodukovateľné trénovanie v rôznych prostrediach, najmä v produkčných alebo výskumných prostrediach, kde je stabilita dôležitejšia ako rýchlosť. Neobmedzené aktualizácie politík majú zmysel iba pre jednoduché, nízkodimenzionálne problémy alebo teoretické štúdie, kde chcete konkrétne pozorovať režimy zlyhania, ktorým malo orezávanie zabrániť.