Politikas izgriešana PPO salīdzinājumā ar neierobežotiem politikas atjauninājumiem
Politikas izgriešana PPO ierobežo, cik tālu jaunā politika var atšķirties no vecās katra atjauninājuma laikā, saglabājot apmācības stabilitāti. Neierobežoti politikas atjauninājumi ļauj jaunajai politikai brīvi mainīties, kas var paātrināt mācīšanos, bet sarežģītās vidēs bieži noved pie nestabilitātes vai sabrukuma.
Iezīmes
PPO ierobežo varbūtības koeficientu līdz 0,8–1,2, novēršot destruktīvus atjauninājumus.
Neierobežoti atjauninājumi var pārvietot politiku patvaļīgi tālu vienā solī.
Apgriešana ļauj izmantot vairākus apmācības laikmetus vienā datu paketē, tādējādi palielinot efektivitāti.
Neierobežotām metodēm nepieciešama rūpīga mācīšanās ātruma regulēšana, lai izvairītos no sabrukuma.
Kas ir Politikas izgriešana PPO?
Proksimālās politikas optimizācijas metode, kas ierobežo politikas izmaiņu apjomu katrā atjaunināšanas solī.
Džons Šulmans un viņa kolēģi OpenAI to ieviesa savā 2017. gada PPO rakstā.
Izmanto ierobežošanas koeficientu, kas parasti tiek iestatīts no 0,1 līdz 0,2, lai ierobežotu varbūtības koeficientu starp jaunajām un vecajām polisēm.
Aizvieto TRPO izmantoto KL novirzes sodu ar vienkāršāku apgrieztu surogātobjektu.
Palīdz novērst destruktīvi lielus politikas atjauninājumus, kas var izjaukt apmācību.
Ir kļuvis par vienu no visplašāk izmantotajiem pastiprināšanas mācīšanās algoritmiem gan pētniecībā, gan rūpniecībā.
Kas ir Neierobežoti politikas atjauninājumi?
Pieeja, kurā politikas parametri var mainīties par jebkuru daudzumu vienas apmācības iterācijas laikā bez skaidri noteiktiem ierobežojumiem.
Izmantots agrīnās politikas gradienta metodēs, piemēram, vanilla REINFORCE un pamata aktiera-kritiķa algoritmos.
Parametru izmaiņu lieluma ierobežošanai netiek piemērots apgriešanas vai KL ierobežojums.
Var nodrošināt ātru sākotnējo mācīšanos, ja gradienta virziens ir pareizs.
Bieži vien noved pie lielas dispersijas un politikas sabrukuma stohastiskās vai daudzdimensionālās vidēs.
Dažreiz to apvieno ar uzticamības reģiona heiristiku vai mācīšanās ātruma samazināšanos, lai daļēji mazinātu nestabilitāti.
Salīdzinājuma tabula
Funkcija
Politikas izgriešana PPO
Neierobežoti politikas atjauninājumi
Atjaunināšanas ierobežojums
Apgriezts attiecībā 0,1–0,2
Nav skaidru ierobežojumu
Treniņu stabilitāte
Parasti stabils visās iterācijās
Nosliece uz svārstībām un sabrukumu
Parauga efektivitāte
Augsts, atkārtoti izmanto savāktās trajektorijas
Mainīgs, bieži vien nepieciešami jauni dati
Īstenošanas sarežģītība
Mērens, viens apgriezts objektīvs
Vienkāršs, standarta gradienta kāpums
Hiperparametru jutība
Zemāks, griešanas diapazons ir piedodošs
Augstāks mācīšanās ātrums ir kritiski svarīgs
Politikas sabrukšanas risks
Zems tuvuma ierobežojuma dēļ
Augsts bez ārējiem aizsardzības līdzekļiem
Bieži sastopami lietošanas gadījumi
Robotika, spēļu mākslīgais intelekts, RLHF, nepārtraukta vadība
Agrīnā politikas gradientu literatūra, 1990.–2000. gadi
Detalizēts salīdzinājums
Galvenais mehānisms
Politikas apgriešana PPO darbojas, aprēķinot attiecību starp jauno un veco darbību varbūtībām un pēc tam apgriežot šo attiecību, lai tā paliktu šaurā joslā (parasti no 0,8 līdz 1,2). Kad attiecība mēģina pārvietoties ārpus šīs joslas, gradienta signāls tiek nullēts, faktiski norādot optimizētājam: "nevirzīties tālāk šajā virzienā". Neierobežoti atjauninājumi pilnībā izlaiž šo drošības pasākumu, ļaujot optimizētājam pārvietot politikas parametrus uz jebkuru vietu, kur norāda gradients, neatkarīgi no tā, cik dramatiska ir nobīde.
Stabilitāte un uzticamība
Apgrieztā pieeja ir iemantojusi savu uzticamības reputāciju, jo tā novērš katastrofālu aizmirstību, kas nomoka neierobežotas metodes. Kad tiek atrasta laba politika, apgriešana pasargā to no iznīcināšanas pārāk pārliecināta atjauninājuma dēļ. Neierobežoti atjauninājumi reizēm var ātrāk atrast izrāvienu, taču tiem ir arī ieradums izmest nedēļām ilgu progresu vienā nepareizā solī, tāpēc lielākā daļa ražošanas sistēmu no tiem izvairās.
Parauga efektivitāte
PPO izgriešana ļauj veikt vairākas optimizācijas epohas vienai un tai pašai apkopotās pieredzes partijai, ievērojami uzlabojot izlases efektivitāti. Tā kā politika nevar pārāk tālu novirzīties, dati saglabājas atbilstoši vairākos gradienta soļos. Neierobežotiem atjauninājumiem parasti ir nepieciešami jauni paraugi katrā iterācijā, jo politika var būt tik ļoti mainījusies, ka vecās trajektorijas vairs neatspoguļo pašreizējo uzvedību, tādējādi izšķērdējot skaitļošanas un vides resursus.
Hiperparametru uzvedība
Apgriešana padara PPO ievērojami piedodošu hiperparametru lietošanā. Apgriešanas diapazons 0,2 labi darbojas milzīgā uzdevumu klāstā bez īpašas regulēšanas. Neierobežoti atjauninājumi tiek ģenerēti atkarībā no mācīšanās ātruma: ja tie ir pārāk mazi, mācīšanās notiek lēni, ja tie ir pārāk lieli, politika atšķiras. Šī jutība padara neierobežotas metodes nomācošas praktiķiem, kuriem nav laika veikt plašas pārbaudes.
Praktiska pieņemšana
Apskatiet jebkuru mūsdienīgu RL koda bāzi, un jūs redzēsiet, ka PPO dominē ainavā, sākot no paša OpenAI darba līdz robotikas laboratorijām un valodu modeļu precizēšanas kanāliem, piemēram, RLHF. Neierobežoti politikas atjauninājumi galvenokārt paliek mācību grāmatās un teorētiskās diskusijās, reizēm parādoties pētniecības rakstos, kuriem ir nepieciešams salīdzinājums. Atšķirība ieviešanas ziņā atspoguļo gadu desmitiem uzkrātos pierādījumus par to, kura pieeja faktiski darbojas praksē.
Priekšrocības un trūkumi
Politikas izgriešana PPO
Iepriekšējumi
+Ļoti stabila apmācība
+Efektīvs paraugs
+Piedodoši hiperparametri
+Plaša nozares pieņemšana
Ievietots
−Lēnāka progresēšana katrā solī
−Klipu diapazons joprojām ir jāregulē
−Var būt pārāk konservatīvs
−Nedaudz sarežģītāks kods
Neierobežoti politikas atjauninājumi
Iepriekšējumi
+Vienkārši ieviest
+Ātra sākotnējā mācīšanās
+Nav mākslīgu ierobežojumu
+Noderīgi teorētiskam darbam
Ievietots
−Nosliece uz politikas sabrukumu
−Augstas dispersijas atjauninājumi
−Slikta paraugu atkārtota izmantošana
−Jūtīgi pret mācīšanās ātrumu
Biežas maldības
Mīts
Apgriešana pilnībā novērš politikas būtiskas izmaiņas.
Realitāte
Apgriešana ierobežo tikai to, cik daudz politika var mainīties viena atjaunināšanas soļa laikā. Daudzu iterāciju laikā politika joprojām var ievērojami mainīties, ja vien katrs atsevišķais solis paliek apgriešanas diapazonā. Ierobežojums ir paredzēts katram solim, nevis pastāvīgs.
Mīts
Neierobežoti atjauninājumi vienmēr saplūst ātrāk nekā apgrieztās metodes.
Realitāte
Neierobežoti atjauninājumi sākumā var šķist ātrāki, taču tie bieži atšķiras vai sabrūk, piespiežot restartēt sistēmu, kas izdzēš visus sākotnējos ieguvumus. Praksē ierobežotas metodes, piemēram, PPO, bieži vien sasniedz labāku galīgo veiktspēju īsākā laikā, jo tās netērē pūles, atgūstoties no sliktiem atjauninājumiem.
Mīts
PPO apgriešana padara to līdzvērtīgu TRPO.
Realitāte
Abas metodes ierobežo politikas atjauninājumus, bet TRPO izmanto stingru KL diverģences ierobežojumu ar līnijas meklēšanu, savukārt PPO izmanto mīkstu varbūtības attiecības ierobežošanu. PPO ir vienkāršāks, atbalsta vairākas epohas katrā partijā un labāk mērogojams lieliem modeļiem, tāpēc praksē tas lielā mērā aizstāja TRPO.
Mīts
Lielāks klipšu diapazons vienmēr nozīmē agresīvāku mācīšanos.
Realitāte
Palielinot apgriešanas diapazonu, var veikt lielākus atjauninājumus, taču tas arī samazina apgriešanas aizsargājošo efektu. Virs noteikta punkta algoritms uzvedas vairāk kā neierobežots atjauninājums un zaudē savas stabilitātes priekšrocības. Noklusējuma 0,2 diapazons ir optimālais punkts, nevis sākumpunkts pāregulēšanai uz augšu.
Mīts
Neierobežoti politikas atjauninājumi ir novecojuši un bezjēdzīgi.
Realitāte
Neierobežoti atjauninājumi joprojām ir vērtīgi kā pētniecības bāzes līnijas un darbojas samērā labi vienkāršās vidēs, piemēram, mazās režģa pasaulēs vai zemas dimensijas vadības uzdevumos. Tie kalpo arī kā pedagoģiski rīki, lai izprastu, kāpēc vispār tika izstrādātas uzticamības reģiona metodes.
Bieži uzdotie jautājumi
Ko īsti nozīmē PPO saspiešanas attiecība?
Ierobežojuma koeficients ierobežo varbūtības koeficientu starp jauno un veco politiku līdz vērtībai, piemēram, 0,2, kas nozīmē, ka jaunā politika nevar piešķirt nevienai darbībai vairāk nekā par 20 % lielāku vai mazāku varbūtību salīdzinājumā ar veco politiku. Kad koeficients mēģina pārsniegt šo diapazonu, gradients tiek nullēts, novēršot turpmāku kustību šajā virzienā attiecīgajā solī.
Kāpēc neierobežoti politikas atjauninājumi izraisa apmācības kļūmi?
Bez ierobežojumiem viens liels gradienta solis var novirzīt politiku uz reģionu, kurā tā darbojas briesmīgi, un iegūtās sliktās trajektorijas sabojā nākotnes gradienta aprēķinus. Šī atgriezeniskā saite bieži noved pie politikas sabrukuma, kur aģenta veiktspēja neatgriezeniski samazinās un nekad neatjaunojas bez manuālas atiestatīšanas.
Vai PPO vienmēr ir labāks par vaniļas politikas gradienta metodēm?
Vairumā praktisko apstākļu, jā. PPO izgriešana nodrošina stabilitāti, kuras trūkst parastajām metodēm, īpaši nepārtrauktas vadības un daudzdimensionālās novērošanas telpās. Parastās politikas gradienti joprojām var būt veiksmīgi ļoti vienkāršās diskrētās vidēs, kur gradienta signāls ir tīrs un sabrukšanas risks ir zems.
Vai var kombinēt apgriešanu ar citām tehnikām, piemēram, KL sodiem?
Jā, un daudzas ieviešanas metodes dara tieši to. Līdztekus apgriešanai var pievienot adaptīvus KL sodus, lai vēl vairāk regularizētu atjauninājumus, lai gan sākotnējā PPO rakstā tika konstatēts, ka parasti pietiek ar apgriešanu vien. Daži praktiķi ziņo, ka abu apvienošana sniedz nelielus uzlabojumus īpaši sarežģītos uzdevumos.
Kas notiek, ja PPO klipu diapazonu iestatāt uz nulli?
Nulles ierobežojuma diapazons pilnībā iesaldētu politiku, jo jebkuras izmaiņas tiktu izgrieztas un radītu nulles gradientu. Praksē ierobežojuma diapazonam ir jābūt pozitīvam, lai vispār varētu notikt mācīšanās, tāpēc tādas vērtības kā 0,1 vai 0,2 ir standarta, nevis tuvojas nullei.
Vai neierobežoti atjauninājumi kādreiz pārspēj PPO etalonos?
Reti, bet tas var notikt vienkāršos uzdevumos, kur optimālo politiku ir viegli sasniegt un gradients darbojas labi. Standartizētos etalonos, piemēram, MuJoCo vai Atari, PPO konsekventi atbilst vai pārspēj neierobežotas bāzes līnijas, tāpēc tas ir kļuvis par noklusējuma izvēli jauniem projektiem.
Kā PPO apstrādā nepārtrauktas darbību telpas atšķirīgi no neierobežotām metodēm?
Abas pieejas darbojas ar nepārtrauktām darbībām, izmantojot Gausa politikas, taču PPO apgriešana novērš vidējo vērtību un dispersijas parametru strauju lēkāšanu starp atjauninājumiem. Neierobežotas metodes nepārtrauktās telpās ir īpaši pakļautas nestabilitātei, jo nelielas parametru izmaiņas var radīt lielas nobīdes darbību sadalījumos.
Vai apgriešana ir tas pats, kas gradienta apgriešana?
Nē, tie ir dažādi mehānismi. Gradienta apgriešana ierobežo gradientu lielumu pirms to parametru atjaunināšanas, savukārt PPO apgriešana ierobežo varbūtību attiecību pēc atjauninājuma aprēķināšanas. Abus var izmantot kopā, un tie risina saistītus, bet atšķirīgus apmācības nestabilitātes avotus.
Kāpēc OpenAI izstrādāja PPO, nevis uzlaboja TRPO?
TRPO darbojās labi, taču bija skaitļošanas ziņā dārgs otrās kārtas optimizācijas un līniju meklēšanas procedūru dēļ. PPO tika izstrādāts, lai panāktu līdzīgas stabilitātes garantijas ar pirmās kārtas metodēm, kuras ir vieglāk ieviest, labāk mērogojas lielos tīklos un darbojas ātrāk uz modernas aparatūras.
Vai neierobežotus atjauninājumus var padarīt stabilus ar nelielu mācīšanās ātrumu?
Neliels mācīšanās ātrums samazina katra atjauninājuma apmēru, kas atdarina dažas no apgriešanas priekšrocībām, taču tas nenodrošina tuvuma ierobežojumu, kas padara PPO robustu. Šādā veidā var aptuveni noteikt stabilitāti, taču parasti būs nepieciešams daudz vairāk paraugu un rūpīga regulēšana, lai atbilstu PPO uzticamībai.
Spriedums
Izvēlieties politikas izgriešanu PPO ikreiz, kad nepieciešama uzticama, reproducējama apmācība dažādās vidēs, īpaši ražošanas vai pētniecības vidēs, kur stabilitāte ir svarīgāka par sākotnējo ātrumu. Neierobežoti politikas atjauninājumi ir lietderīgi tikai vienkāršām, mazdimensionālām problēmām vai teorētiskiem pētījumiem, kuros īpaši vēlaties novērot kļūmes režīmus, kuru novēršanai izgriešana bija paredzēta.