pastiprināšanas mācīšanāsPPOpolitikas gradientsmašīnmācīšanāsmākslīgais intelekts

Politikas izgriešana PPO salīdzinājumā ar neierobežotiem politikas atjauninājumiem

Politikas izgriešana PPO ierobežo, cik tālu jaunā politika var atšķirties no vecās katra atjauninājuma laikā, saglabājot apmācības stabilitāti. Neierobežoti politikas atjauninājumi ļauj jaunajai politikai brīvi mainīties, kas var paātrināt mācīšanos, bet sarežģītās vidēs bieži noved pie nestabilitātes vai sabrukuma.

Iezīmes

PPO ierobežo varbūtības koeficientu līdz 0,8–1,2, novēršot destruktīvus atjauninājumus.
Neierobežoti atjauninājumi var pārvietot politiku patvaļīgi tālu vienā solī.
Apgriešana ļauj izmantot vairākus apmācības laikmetus vienā datu paketē, tādējādi palielinot efektivitāti.
Neierobežotām metodēm nepieciešama rūpīga mācīšanās ātruma regulēšana, lai izvairītos no sabrukuma.

Kas ir Politikas izgriešana PPO?

Proksimālās politikas optimizācijas metode, kas ierobežo politikas izmaiņu apjomu katrā atjaunināšanas solī.

Džons Šulmans un viņa kolēģi OpenAI to ieviesa savā 2017. gada PPO rakstā.
Izmanto ierobežošanas koeficientu, kas parasti tiek iestatīts no 0,1 līdz 0,2, lai ierobežotu varbūtības koeficientu starp jaunajām un vecajām polisēm.
Aizvieto TRPO izmantoto KL novirzes sodu ar vienkāršāku apgrieztu surogātobjektu.
Palīdz novērst destruktīvi lielus politikas atjauninājumus, kas var izjaukt apmācību.
Ir kļuvis par vienu no visplašāk izmantotajiem pastiprināšanas mācīšanās algoritmiem gan pētniecībā, gan rūpniecībā.

Kas ir Neierobežoti politikas atjauninājumi?

Pieeja, kurā politikas parametri var mainīties par jebkuru daudzumu vienas apmācības iterācijas laikā bez skaidri noteiktiem ierobežojumiem.

Izmantots agrīnās politikas gradienta metodēs, piemēram, vanilla REINFORCE un pamata aktiera-kritiķa algoritmos.
Parametru izmaiņu lieluma ierobežošanai netiek piemērots apgriešanas vai KL ierobežojums.
Var nodrošināt ātru sākotnējo mācīšanos, ja gradienta virziens ir pareizs.
Bieži vien noved pie lielas dispersijas un politikas sabrukuma stohastiskās vai daudzdimensionālās vidēs.
Dažreiz to apvieno ar uzticamības reģiona heiristiku vai mācīšanās ātruma samazināšanos, lai daļēji mazinātu nestabilitāti.

Salīdzinājuma tabula

Funkcija	Politikas izgriešana PPO	Neierobežoti politikas atjauninājumi
Atjaunināšanas ierobežojums	Apgriezts attiecībā 0,1–0,2	Nav skaidru ierobežojumu
Treniņu stabilitāte	Parasti stabils visās iterācijās	Nosliece uz svārstībām un sabrukumu
Parauga efektivitāte	Augsts, atkārtoti izmanto savāktās trajektorijas	Mainīgs, bieži vien nepieciešami jauni dati
Īstenošanas sarežģītība	Mērens, viens apgriezts objektīvs	Vienkāršs, standarta gradienta kāpums
Hiperparametru jutība	Zemāks, griešanas diapazons ir piedodošs	Augstāks mācīšanās ātrums ir kritiski svarīgs
Politikas sabrukšanas risks	Zems tuvuma ierobežojuma dēļ	Augsts bez ārējiem aizsardzības līdzekļiem
Bieži sastopami lietošanas gadījumi	Robotika, spēļu mākslīgais intelekts, RLHF, nepārtraukta vadība	Vienkāršas rotaļlietu problēmas, teorētiskā analīze
Izcelsme	OpenAI, 2017. gada PPO raksts	Agrīnā politikas gradientu literatūra, 1990.–2000. gadi

Detalizēts salīdzinājums

Galvenais mehānisms

Politikas apgriešana PPO darbojas, aprēķinot attiecību starp jauno un veco darbību varbūtībām un pēc tam apgriežot šo attiecību, lai tā paliktu šaurā joslā (parasti no 0,8 līdz 1,2). Kad attiecība mēģina pārvietoties ārpus šīs joslas, gradienta signāls tiek nullēts, faktiski norādot optimizētājam: "nevirzīties tālāk šajā virzienā". Neierobežoti atjauninājumi pilnībā izlaiž šo drošības pasākumu, ļaujot optimizētājam pārvietot politikas parametrus uz jebkuru vietu, kur norāda gradients, neatkarīgi no tā, cik dramatiska ir nobīde.

Stabilitāte un uzticamība

Apgrieztā pieeja ir iemantojusi savu uzticamības reputāciju, jo tā novērš katastrofālu aizmirstību, kas nomoka neierobežotas metodes. Kad tiek atrasta laba politika, apgriešana pasargā to no iznīcināšanas pārāk pārliecināta atjauninājuma dēļ. Neierobežoti atjauninājumi reizēm var ātrāk atrast izrāvienu, taču tiem ir arī ieradums izmest nedēļām ilgu progresu vienā nepareizā solī, tāpēc lielākā daļa ražošanas sistēmu no tiem izvairās.

Parauga efektivitāte

PPO izgriešana ļauj veikt vairākas optimizācijas epohas vienai un tai pašai apkopotās pieredzes partijai, ievērojami uzlabojot izlases efektivitāti. Tā kā politika nevar pārāk tālu novirzīties, dati saglabājas atbilstoši vairākos gradienta soļos. Neierobežotiem atjauninājumiem parasti ir nepieciešami jauni paraugi katrā iterācijā, jo politika var būt tik ļoti mainījusies, ka vecās trajektorijas vairs neatspoguļo pašreizējo uzvedību, tādējādi izšķērdējot skaitļošanas un vides resursus.

Hiperparametru uzvedība

Apgriešana padara PPO ievērojami piedodošu hiperparametru lietošanā. Apgriešanas diapazons 0,2 labi darbojas milzīgā uzdevumu klāstā bez īpašas regulēšanas. Neierobežoti atjauninājumi tiek ģenerēti atkarībā no mācīšanās ātruma: ja tie ir pārāk mazi, mācīšanās notiek lēni, ja tie ir pārāk lieli, politika atšķiras. Šī jutība padara neierobežotas metodes nomācošas praktiķiem, kuriem nav laika veikt plašas pārbaudes.

Praktiska pieņemšana

Apskatiet jebkuru mūsdienīgu RL koda bāzi, un jūs redzēsiet, ka PPO dominē ainavā, sākot no paša OpenAI darba līdz robotikas laboratorijām un valodu modeļu precizēšanas kanāliem, piemēram, RLHF. Neierobežoti politikas atjauninājumi galvenokārt paliek mācību grāmatās un teorētiskās diskusijās, reizēm parādoties pētniecības rakstos, kuriem ir nepieciešams salīdzinājums. Atšķirība ieviešanas ziņā atspoguļo gadu desmitiem uzkrātos pierādījumus par to, kura pieeja faktiski darbojas praksē.

Priekšrocības un trūkumi

Politikas izgriešana PPO

Iepriekšējumi

+ Ļoti stabila apmācība
+ Efektīvs paraugs
+ Piedodoši hiperparametri
+ Plaša nozares pieņemšana

Ievietots

− Lēnāka progresēšana katrā solī
− Klipu diapazons joprojām ir jāregulē
− Var būt pārāk konservatīvs
− Nedaudz sarežģītāks kods

Neierobežoti politikas atjauninājumi

Iepriekšējumi

+ Vienkārši ieviest
+ Ātra sākotnējā mācīšanās
+ Nav mākslīgu ierobežojumu
+ Noderīgi teorētiskam darbam

Ievietots

− Nosliece uz politikas sabrukumu
− Augstas dispersijas atjauninājumi
− Slikta paraugu atkārtota izmantošana
− Jūtīgi pret mācīšanās ātrumu

Biežas maldības

Mīts

Apgriešana pilnībā novērš politikas būtiskas izmaiņas.

Realitāte

Apgriešana ierobežo tikai to, cik daudz politika var mainīties viena atjaunināšanas soļa laikā. Daudzu iterāciju laikā politika joprojām var ievērojami mainīties, ja vien katrs atsevišķais solis paliek apgriešanas diapazonā. Ierobežojums ir paredzēts katram solim, nevis pastāvīgs.

Mīts

Neierobežoti atjauninājumi vienmēr saplūst ātrāk nekā apgrieztās metodes.

Realitāte

Neierobežoti atjauninājumi sākumā var šķist ātrāki, taču tie bieži atšķiras vai sabrūk, piespiežot restartēt sistēmu, kas izdzēš visus sākotnējos ieguvumus. Praksē ierobežotas metodes, piemēram, PPO, bieži vien sasniedz labāku galīgo veiktspēju īsākā laikā, jo tās netērē pūles, atgūstoties no sliktiem atjauninājumiem.

Mīts

PPO apgriešana padara to līdzvērtīgu TRPO.

Realitāte

Abas metodes ierobežo politikas atjauninājumus, bet TRPO izmanto stingru KL diverģences ierobežojumu ar līnijas meklēšanu, savukārt PPO izmanto mīkstu varbūtības attiecības ierobežošanu. PPO ir vienkāršāks, atbalsta vairākas epohas katrā partijā un labāk mērogojams lieliem modeļiem, tāpēc praksē tas lielā mērā aizstāja TRPO.

Mīts

Lielāks klipšu diapazons vienmēr nozīmē agresīvāku mācīšanos.

Realitāte

Palielinot apgriešanas diapazonu, var veikt lielākus atjauninājumus, taču tas arī samazina apgriešanas aizsargājošo efektu. Virs noteikta punkta algoritms uzvedas vairāk kā neierobežots atjauninājums un zaudē savas stabilitātes priekšrocības. Noklusējuma 0,2 diapazons ir optimālais punkts, nevis sākumpunkts pāregulēšanai uz augšu.

Mīts

Neierobežoti politikas atjauninājumi ir novecojuši un bezjēdzīgi.

Realitāte

Neierobežoti atjauninājumi joprojām ir vērtīgi kā pētniecības bāzes līnijas un darbojas samērā labi vienkāršās vidēs, piemēram, mazās režģa pasaulēs vai zemas dimensijas vadības uzdevumos. Tie kalpo arī kā pedagoģiski rīki, lai izprastu, kāpēc vispār tika izstrādātas uzticamības reģiona metodes.

Bieži uzdotie jautājumi

Ko īsti nozīmē PPO saspiešanas attiecība?

Ierobežojuma koeficients ierobežo varbūtības koeficientu starp jauno un veco politiku līdz vērtībai, piemēram, 0,2, kas nozīmē, ka jaunā politika nevar piešķirt nevienai darbībai vairāk nekā par 20 % lielāku vai mazāku varbūtību salīdzinājumā ar veco politiku. Kad koeficients mēģina pārsniegt šo diapazonu, gradients tiek nullēts, novēršot turpmāku kustību šajā virzienā attiecīgajā solī.

Kāpēc neierobežoti politikas atjauninājumi izraisa apmācības kļūmi?

Bez ierobežojumiem viens liels gradienta solis var novirzīt politiku uz reģionu, kurā tā darbojas briesmīgi, un iegūtās sliktās trajektorijas sabojā nākotnes gradienta aprēķinus. Šī atgriezeniskā saite bieži noved pie politikas sabrukuma, kur aģenta veiktspēja neatgriezeniski samazinās un nekad neatjaunojas bez manuālas atiestatīšanas.

Vai PPO vienmēr ir labāks par vaniļas politikas gradienta metodēm?

Vairumā praktisko apstākļu, jā. PPO izgriešana nodrošina stabilitāti, kuras trūkst parastajām metodēm, īpaši nepārtrauktas vadības un daudzdimensionālās novērošanas telpās. Parastās politikas gradienti joprojām var būt veiksmīgi ļoti vienkāršās diskrētās vidēs, kur gradienta signāls ir tīrs un sabrukšanas risks ir zems.

Vai var kombinēt apgriešanu ar citām tehnikām, piemēram, KL sodiem?

Jā, un daudzas ieviešanas metodes dara tieši to. Līdztekus apgriešanai var pievienot adaptīvus KL sodus, lai vēl vairāk regularizētu atjauninājumus, lai gan sākotnējā PPO rakstā tika konstatēts, ka parasti pietiek ar apgriešanu vien. Daži praktiķi ziņo, ka abu apvienošana sniedz nelielus uzlabojumus īpaši sarežģītos uzdevumos.

Kas notiek, ja PPO klipu diapazonu iestatāt uz nulli?

Nulles ierobežojuma diapazons pilnībā iesaldētu politiku, jo jebkuras izmaiņas tiktu izgrieztas un radītu nulles gradientu. Praksē ierobežojuma diapazonam ir jābūt pozitīvam, lai vispār varētu notikt mācīšanās, tāpēc tādas vērtības kā 0,1 vai 0,2 ir standarta, nevis tuvojas nullei.

Vai neierobežoti atjauninājumi kādreiz pārspēj PPO etalonos?

Reti, bet tas var notikt vienkāršos uzdevumos, kur optimālo politiku ir viegli sasniegt un gradients darbojas labi. Standartizētos etalonos, piemēram, MuJoCo vai Atari, PPO konsekventi atbilst vai pārspēj neierobežotas bāzes līnijas, tāpēc tas ir kļuvis par noklusējuma izvēli jauniem projektiem.

Kā PPO apstrādā nepārtrauktas darbību telpas atšķirīgi no neierobežotām metodēm?

Abas pieejas darbojas ar nepārtrauktām darbībām, izmantojot Gausa politikas, taču PPO apgriešana novērš vidējo vērtību un dispersijas parametru strauju lēkāšanu starp atjauninājumiem. Neierobežotas metodes nepārtrauktās telpās ir īpaši pakļautas nestabilitātei, jo nelielas parametru izmaiņas var radīt lielas nobīdes darbību sadalījumos.

Vai apgriešana ir tas pats, kas gradienta apgriešana?

Nē, tie ir dažādi mehānismi. Gradienta apgriešana ierobežo gradientu lielumu pirms to parametru atjaunināšanas, savukārt PPO apgriešana ierobežo varbūtību attiecību pēc atjauninājuma aprēķināšanas. Abus var izmantot kopā, un tie risina saistītus, bet atšķirīgus apmācības nestabilitātes avotus.

Kāpēc OpenAI izstrādāja PPO, nevis uzlaboja TRPO?

TRPO darbojās labi, taču bija skaitļošanas ziņā dārgs otrās kārtas optimizācijas un līniju meklēšanas procedūru dēļ. PPO tika izstrādāts, lai panāktu līdzīgas stabilitātes garantijas ar pirmās kārtas metodēm, kuras ir vieglāk ieviest, labāk mērogojas lielos tīklos un darbojas ātrāk uz modernas aparatūras.

Vai neierobežotus atjauninājumus var padarīt stabilus ar nelielu mācīšanās ātrumu?

Neliels mācīšanās ātrums samazina katra atjauninājuma apmēru, kas atdarina dažas no apgriešanas priekšrocībām, taču tas nenodrošina tuvuma ierobežojumu, kas padara PPO robustu. Šādā veidā var aptuveni noteikt stabilitāti, taču parasti būs nepieciešams daudz vairāk paraugu un rūpīga regulēšana, lai atbilstu PPO uzticamībai.

Spriedums

Izvēlieties politikas izgriešanu PPO ikreiz, kad nepieciešama uzticama, reproducējama apmācība dažādās vidēs, īpaši ražošanas vai pētniecības vidēs, kur stabilitāte ir svarīgāka par sākotnējo ātrumu. Neierobežoti politikas atjauninājumi ir lietderīgi tikai vienkāršām, mazdimensionālām problēmām vai teorētiskiem pētījumiem, kuros īpaši vēlaties novērot kļūmes režīmus, kuru novēršanai izgriešana bija paredzēta.

Saistītie salīdzinājumi

A/B testēšana modeļu rādīšanā salīdzinājumā ar viena modeļa ieviešanu

A/B testēšana modeļu apkalpošanā novirza trafiku starp konkurējošām modeļu versijām, lai novērtētu reālo veiktspēju, savukārt viena modeļa ieviešana visiem lietotājiem nosūta vienu modeli. Komandas izvēlas starp tiem, pamatojoties uz riska toleranci, trafika apjomu un statistiskās validācijas nepieciešamību pirms pilnīgas ieviešanas.

A/B testēšana satura izlaidumos salīdzinājumā ar vienreizējiem satura izlaidumiem

A/B testēšana satura izlaidumos ietver variāciju ieviešanu dažādiem auditorijas segmentiem un veiktspējas mērīšanu, savukārt vienreizēji satura izlaidumi vienlaikus nodrošina vienu versiju visiem lietotājiem. Katra pieeja atbilst dažādiem mērķiem, A/B testēšanai dodot priekšroku uz datiem balstītai optimizācijai, bet vienreizējiem izlaidumiem prioritāte ir ātrums un vienkāršība.

Adaptīvā izguve salīdzinājumā ar statisko izguves cauruļvadiem

Adaptīvā izguve dinamiski pielāgo, kā un kādu informāciju sistēma izgūst, pamatojoties uz vaicājumu, savukārt statiskās izguves cauruļvadi ievēro fiksētus noteikumus neatkarīgi no konteksta. Abas nodrošina modernas mākslīgā intelekta lietojumprogrammas, taču tās ievērojami atšķiras pēc elastības, izmaksām un precizitātes. Izvēle starp tām ir atkarīga no darba slodzes sarežģītības un budžeta.

Adaptīvais intelekts pret fiksētas uzvedības sistēmām

Šajā detalizētajā salīdzinājumā tiek pētītas adaptīvo intelekta dzinēju arhitektūras atšķirības, darbības ierobežojumi un reālā veiktspēja salīdzinājumā ar fiksētas uzvedības automatizācijas sistēmām. Mēs aplūkojam, kā sistēmas, kas nepārtraukti mācās no jauniem vides datiem, atbilst stingrām, paredzamām, uz noteikumiem balstītām sistēmām.

Aģentu apmācība vidēs salīdzinājumā ar bezsaistes datu kopu apmācību

Aģentu apmācība vidēs ietver mācīšanos, izmantojot reāllaika mijiedarbību ar simulētu vai fizisku vidi, savukārt bezsaistes datu kopu apmācība balstās uz iepriekš apkopotiem datiem bez papildu piekļuves videi. Abas pieejas apmāca mašīnmācīšanās modeļus, taču būtiski atšķiras tas, kā aģenti apkopo pieredzi un uzlabo veiktspēju.