Toimija-kriitikkomenetelmät vs. puhtaat politiikkagradienttimenetelmät
Toimijakriittiset menetelmät yhdistävät politiikkagradienttien funktion opittuun arvofunktioon varianssin vähentämiseksi ja oppimisen nopeuttamiseksi, kun taas puhtaat politiikkagradienttimenetelmät perustuvat yksinomaan politiikkaan ja Monte Carlo -tuottoihin. Niiden välillä valinta riippuu siitä, tarvitsetko vakautta ja otostehokkuutta vai yksinkertaisuutta ja harhattomia arvioita.
Korostukset
Toimijakriitikkomenetelmät leikkaavat gradientin varianssia käyttämällä opittua lähtöarvon arvoa, kun taas puhtaat politiikkagradientit perustuvat kohinaisiin Monte Carlo -tuottoihin.
Puhtaasti politiikkagradienttimenetelmät ovat harhattomia, mutta otosnälkäisiä, kun taas toimija-kriitikkomenetelmät kauppaavat ripauksen harhaa paljon paremman otostehokkuuden saavuttamiseksi.
Näyttelijäkriitikkoalgoritmit, kuten PPO ja SAC, tukevat useimpia nykyaikaisia RL-onnistuksia Atarista RLHF:ään suurissa kielimalleissa.
Puhtaat politiikkagradienttimenetelmät ovat edelleen suosittuja tutkimus- ja yksinkertaisissa ohjaustehtävissä, koska niitä on helpompi toteuttaa ja perustella.
Mikä on Näyttelijä-kriitikon menetelmät?
Hybridivahvistusoppimisalgoritmit, jotka yhdistävät politiikkaverkoston (toimija) arvoa arvioivaan verkkoon (kriitikko) vakaamman koulutuksen saavuttamiseksi.
Toimijakriitikkomenetelmät virallistettiin 2000-luvun alussa, ja ne pohjautuivat tutkijoiden, kuten Suttonin ja Barton, aiempaan työhön politiikan iteraatiosta.
Toimija päivittää käytäntöä kriitikon ehdottaman gradientin suunnan avulla, kun taas kriitikko arvioi arvofunktion toimintojen arvioimiseksi.
Suosittuja muunnelmia ovat A2C (Advantage Actor-Critic), A3C (Asynchronous Advantage Actor-Critic), SAC (Soft Actor-Critic) ja PPO (Proximal Policy Optimization).
Käyttämällä opittua lähtötasoa toimija-kriitikko-lähestymistavat vähentävät dramaattisesti politiikkagradienttiarvioiden varianssia Monte Carlo -tuottoihin verrattuna.
Nämä menetelmät ovat vauhdittaneet läpimurtoja pelaamisessa, robotiikassa ja RLHF:n avulla tapahtuvassa suurten kielimallien hienosäädössä.
Mikä on Puhtaat politiikkagradienttimenetelmät?
Vahvistusoppimisalgoritmit, jotka optimoivat parametrisoidun politiikan suoraan käyttämällä gradienttinousua odotetun tuoton perusteella ilman erillistä arvomallia.
Ronald Williams esitteli perustavanlaatuisen REINFORCE-algoritmin vuonna 1992 ja loi politiikkagradienttilauseen.
Puhtaat politiikkagradienttimenetelmät arvioivat gradientteja Monte Carlo -käyttöönottojen tai koko jakson tuottojen avulla bootstrapped-arvoarvioiden sijaan.
Ne ovat luonnostaan yhteensopivia stokastisten käytäntöjen kanssa, mikä tekee niistä sopivia hyvin ympäristöihin, joissa on jatkuvia tai moniulotteisia toiminta-avaruuksia.
Koska ne perustuvat näytteistettyihin trajektoreihin, nämä menetelmät ovat harhattomia, mutta niiden gradienttiarvioissa on yleensä suuri varianssi.
Merkittäviä toteutuksia ovat alkuperäinen REINFORCE, Vanilla Policy Gradient (VPG) ja Trust Region Policy Optimization (TRPO).
Vertailutaulukko
Ominaisuus
Näyttelijä-kriitikon menetelmät
Puhtaat politiikkagradienttimenetelmät
Ydinmekanismi
Yhdistää politiikkaverkoston (toimija) arvoverkostoon (kriitikko)
Optimoi käytäntöä suoraan otostuottojen avulla
Gradienttiarvioiden varianssi
Pienempi varianssi opitun lähtötason ansiosta
Suurempi varianssi Monte Carlo -tuottoihin verrattuna
Puolueellisuus
Kriitikon approksimaatiosta johtuva lievä vinouma
Harhauksettomat gradienttiarviot
Näytteen tehokkuus
Yleensä korkeampi, käyttää tietoja uudelleen käynnistyksen kautta
Alempi, vaatii kokonaisia jaksoja tai useita näytteitä
Toteutuksen monimutkaisuus
Monimutkaisempi, vaatii kahden verkon kouluttamista
Yksinkertaisempi, vain yksi verkko hallittavana
Harjoittelun vakaus
Vakaampi pienemmän varianssin ja luottamusalueiden ansiosta
Vähemmän vakaa, herkkä oppimisnopeudelle ja palkitsemisasteikolle
Etsintäkäsittely
Voi sisältää entropiabonuksia tai stokastisia kritiikkejä
Luonnostaan stokastinen, helppo kannustaa tutkimiseen
Yksinkertaiset kontrollitehtävät, tutkimuksen lähtötilanteet, episodiset ongelmat
Yksityiskohtainen vertailu
Gradientin arviointi ja varianssi
Näiden kahden menetelmäryhmän suurin käytännön ero liittyy siihen, miten ne arvioivat parannuksen suuntaa. Puhtaat gradienttimenetelmät perustuvat kokonaisista jaksoista kerättyihin Monte Carlo -tuottoihin, jotka antavat puolueettoman signaalin, mutta sellaisen, joka vaihtelee villisti yksittäisen käyttöönoton onnistumisesta riippuen. Toimija-kriitikkomenetelmät korvaavat tämän kohinan omaavan tuoton opitulla arvofunktiolla, mikä käytännössä vähentää odotetun tuloksen kuvaavan perustason. Tuloksena on paljon pienemmän varianssin gradientti, joka mahdollistaa koulutuksen sujuvamman etenemisen, erityisesti ympäristöissä, joissa palkkiot ovat niukkoja tai viivästyneitä.
Bias-varianssin kompromissi
Varianssin kaupankäynti harhan vuoksi on keskeinen kompromissi toimija-kriitikko-suunnittelussa. Kriitikko itsessään on approksimaatio, joten sen arviot voivat olla virheellisiä, ja tämä virhe heijastuu käytäntöpäivitykseen. Puhtaat käytäntögradienttimenetelmät välttävät tämän kokonaan, koska ne eivät koskaan approksimoi arvofunktiota, mutta ne maksavat tästä puhtaudesta meluisammilla päivityksillä. Käytännössä modernit toimija-kriitikko-algoritmit, kuten PPO ja SAC, hallitsevat tämän kompromissin niin hyvin, että pieni harha on harvoin ongelma, minkä vuoksi ne hallitsevat vertailuarvoja.
Näytteen tehokkuus ja datan uudelleenkäyttö
Otostehokkuudella on valtava merkitys silloin, kun ympäristön kanssa vuorovaikutus on kallista, kuten robotiikassa tai reaalimaailman dialogijärjestelmissä. Toimija-kriitikko-menetelmät loistavat tässä, koska kriitikko lähtee liikkeelle omista ennusteistaan, jolloin algoritmi voi oppia jokaisesta siirtymästä useita kertoja. Puhtaat käytäntögradienttimenetelmät tarvitsevat yleensä uutta käytäntöön liittyvää dataa jokaista päivitystä varten, mikä tarkoittaa useampia ympäristövuorovaikutuksia samalla käytäntöparannuksella. Tämä on yksi syy siihen, miksi REINFORCE-tyyppiset algoritmit ovat yleisempiä tutkimusympäristöissä, joissa simulointi on halpaa.
Toteutus ja viritys
Jos haluat jotain nopeasti prototyypitettävää, puhtaat politiikkagradienttimenetelmät ovat houkuttelevia. Tarvitset vain politiikkaverkon, tuotolla painotetuista log-todennäköisyyksistä rakennetun häviöfunktion ja tavan kerätä trajektorioita. Toimija-kriitikko-menetelmät lisäävät toisen verkon kouluttamisen taakan, tasapainottavat sen oppimisnopeutta toimijan oppimisnopeuden kanssa ja varmistavat, että kriitikko konvergoi riittävän nopeasti ollakseen hyödyllinen. Tämä ylimääräinen monimutkaisuus kannattaa suorituskyvyn kannalta, mutta se nostaa rimaa uusille tulokkaille.
Tutkimus ja stokastiset käytännöt
Molemmat lähestymistavat käsittelevät stokastisia käytäntöjä luonnollisesti, mutta ne kannustavat tutkimiseen eri tavoin. Puhtaat käytäntögradienttimenetelmät saavat tutkimisen ilmaiseksi käytäntöjen omasta entropiasta, mikä toimii hyvin ongelmissa, joissa on selkeät toimintajakaumat. Toimija-kriitikkomenetelmät lisäävät usein tavoitteeseen eksplisiittisen entropiabonuksen, kuten pehmeä toimija-kriitikko kuuluisasti tekee, estääkseen käytäntöä romahtamasta liian aikaisin. Tämä tekee toimija-kriitikko-varianteista vankempia tehtävissä, joissa agentti saattaisi muuten juuttua epäoptimaalisiin käyttäytymismalleihin.
Hyödyt ja haitat
Näyttelijä-kriitikon menetelmät
Plussat
+Pienemmän varianssin päivitykset
+Parempi näytteenottotehokkuus
+Vakaampaa harjoittelua
+Skaalautuu monimutkaisiin tehtäviin
Sisältö
−Monimutkaisempi toteuttaa
−Ylimääräinen hyperparametrien viritys
−Lievä puolueellisuus kriitikolta
−Kaksi koulutettavaa verkkoa
Puhtaat politiikkagradienttimenetelmät
Plussat
+Yksinkertainen toteutus
+Harhauksettomat gradienttiarviot
+Luonnolliset stokastiset käytännöt
+Loistava tutkimukseen
Sisältö
−Suuren varianssin päivitykset
−Huono näytteenottotehokkuus
−Tarvitsee kokonaisia jaksoja
−Herkkä oppimisnopeudelle
Yleisiä harhaluuloja
Myytti
Toimija-kriitikkomenetelmät ovat täysin eri algoritmiperhe kuin politiikkagradienttimenetelmät.
Todellisuus
Toimija-kriitikko-menetelmät ovat itse asiassa osa politiikkagradienttimenetelmiä. Ne laskevat saman politiikkagradienttimenetelmän, mutta käyttävät opittua arvofunktiota varianssin pienentämiseksi raakatuottojen sijaan.
Myytti
Puhtaat politiikkagradienttimenetelmät konvergoivat aina nopeammin, koska ne ovat harhattomia.
Todellisuus
Harhattomuus ei ole sama asia kuin nopea konvergenssi. Monte Carlo -estimaattien suuri varianssi hidastaa usein koulutusta dramaattisesti, erityisesti pitkän horisontin tehtävissä, joissa palkkiot tulevat viiveellä.
Myytti
Toimija-kriitikko-menetelmät eivät voi toimia jatkuvien toimintatilojen kanssa.
Todellisuus
Monet toimija-kriitikko-algoritmit, mukaan lukien SAC ja DDPG, on erityisesti suunniteltu jatkuvaan ohjaukseen ja toimivat erittäin hyvin robotiikassa ja fysiikkaan perustuvassa simulaatiossa.
Myytti
Vahvistusoppimisen onnistumiseen tarvitaan aina kriitikkoa.
Todellisuus
Puhtaasti politiikkagradienttiin perustuvat menetelmät, kuten REINFORCE ja TRPO, ovat ratkaisseet paljon ongelmia ilman kriitikkoa. Kriitikko on varianssin vähentämisen työkalu, ei ehdoton vaatimus.
Myytti
PPO on puhdas politiikkagradienttimenetelmä.
Todellisuus
PPO on teknisesti ottaen toimija-kriitikko-algoritmi. Se käyttää rajattua sijaistavoitetta politiikan puolella, mutta se luottaa arvoverkkoon etujen laskemiseen ja päivitysten ohjaamiseen.
Usein kysytyt kysymykset
Mitä eroa on toimija-kriitikko- ja politiikkagradienttimenetelmillä?
Tärkein ero on siinä, käytetäänkö opetuksessa arvofunktiota. Toimija-kriitikko-menetelmät kouluttavat erillisen kriitikkoverkoston arvojen arvioimiseksi ja varianssin vähentämiseksi, kun taas puhtaat politiikkagradienttimenetelmät arvioivat gradientit suoraan otostuottojen perusteella ilman opittua arvomallia.
Miksi näyttelijä-kriitikko-menetelmillä on pienempi varianssi?
Ne vähentävät opitun perusviivan, tyypillisesti arvofunktion, tuotosta ennen gradientin laskemista. Tämä perusviiva kuvaa odotettua tulosta, joten jäljelle jäävässä etusignaalissa on paljon vähemmän satunnaista kohinaa kuin raa'issa Monte Carlo -tuotoissa.
Onko PPO toimija-kriitikko- vai politiikkagradienttimenetelmä?
PPO on toimija-kriitikko-algoritmi. Se käyttää rajattua tavoitetta politiikan päivittämiseen, mutta se on riippuvainen arvoverkosta etujen laskemiseen, mikä on toimija-kriitikko-algoritmin tunnusmerkki.
Milloin minun pitäisi käyttää puhtaita politiikkagradienttimenetelmiä toimija-kriitikko-menetelmien sijaan?
Puhtaasti politiikkagradienttiin perustuvat menetelmät sopivat hyvin lyhyisiin episodisiin tehtäviin, tutkimuksen lähtötilanteisiin tai tilanteisiin, joissa halutaan yksinkertainen ja harhaton algoritmi. Ne toimivat myös hyvin silloin, kun ympäristösimulointi on halpaa eikä näytteenottotehokkuutta tarvita.
Kyllä, monet tekevät niin. Algoritmit, kuten SAC, DDPG ja TD3, ovat toimijakriittisiä menetelmiä, jotka on erityisesti suunniteltu jatkuvaan ohjaukseen ja joita käytetään laajalti robotiikassa ja simuloiduissa fysiikkaympäristöissä.
Käytetäänkö puhtaita politiikkagradienttimenetelmiä vielä nykyäänkin?
Ehdottomasti. REINFORCE ja Vanilla Policy Gradient ovat edelleen suosittuja tutkimuksessa ja koulutuksessa, ja TRPO:ta käytetään edelleen turvallisuusherkissä sovelluksissa, joissa sen luotettavuusaluerajoite on arvokas.
Mikä on politiikkagradienttilause?
Suttonin ja kollegoiden todistama politiikkagradienttilause antaa suljetun muodon lausekkeen odotetun tuoton gradientille politiikkaparametrien suhteen. Sekä puhdas politiikkagradienttimenetelmä että toimija-kriitikkomenetelmät rakennetaan tämän lauseen päälle.
Miten REINFORCE liittyy näyttelijä-kriitikko-menetelmiin?
REINFORCE on kanoninen puhdas politiikkagradienttialgoritmi. Toimija-kriitikko-menetelmiä voidaan pitää REINFORCEn evoluutiona, joka korvaa Monte Carlo -tuoton oppineen kriitikon bootstrapped-estimaatilla, mikä vähentää varianssia jonkin verran harhan kustannuksella.
Voidaanko toimija-kriitikkomenetelmiä käyttää RLHF:ssä laajoissa kielimalleissa?
Kyllä, toimija-kriitikkomenetelmät, kuten PPO, ovat RLHF-prosessien työjuhtia suurten kielimallien linjaamiseen. Ne käsittelevät pitkät horisontit ja monimutkaiset palkitsemissignaalit, joita liittyy kielimallien kouluttamiseen ihmisen palautteen avulla.
Kumpi menetelmä on parempi harvaan palkitseviin ympäristöihin?
Toimija-kriitikko-menetelmät toimivat yleensä paremmin harvoissa palkkioympäristöissä, koska kriitikko voi levittää arvotietoa ajassa taaksepäin, mikä antaa politiikalle hyödyllisiä oppimissignaaleja, vaikka palkkiot olisivat harvinaisia.
Tuomio
Valitse puhtaita politiikkagradienttimenetelmiä, kun haluat yksinkertaisen ja puolueettoman algoritmin lyhyen aikavälin ongelmiin tai puhtaaksi tutkimuslähtökohdaksi. Käytä toimija-kriitikkomenetelmiä aina, kun olet kiinnostunut otostehokkuudesta, koulutuksen vakaudesta tai skaalautumisesta monimutkaisiin ympäristöihin, kuten robotiikkaan ja laajojen kielimallien hienosäätöön.