Veikėjų-kritikų metodai ir grynojo politikos gradiento metodai
Veikėjų-kritikų metodai sujungia politikos gradientus su išmoktos vertės funkcija, kad sumažintų dispersiją ir pagreitintų mokymąsi, o gryni politikos gradiento metodai remiasi tik politika ir Monte Karlo rezultatais. Pasirinkimas priklauso nuo to, ar jums reikia stabilumo ir imties efektyvumo, ar paprastumo ir nešališkų įverčių.
Akcentai
Veikėjų-kritikų metodai gradiento dispersiją mažina naudodami išmoktos vertės bazinę liniją, o gryni politikos gradientai remiasi triukšmingais Monte Karlo rezultatais.
Grynieji politikos gradiento metodai yra nešališki, bet reikalauja daug imties, o veikėjo-kritiko metodai, siekdami daug geresnio imties efektyvumo, atsisako šiek tiek šališkumo.
Tokie veikėjų-kritikų algoritmai kaip PPO ir SAC yra daugelio šiuolaikinių RL sėkmių pagrindas – nuo „Atari“ iki RLHF dideliems kalbų modeliams.
Grynieji politikos gradiento metodai išlieka populiarūs tyrimams ir paprastoms valdymo užduotims, nes juos lengviau įgyvendinti ir samprotauti.
Kas yra Aktoriaus-kritiko metodai?
Hibridiniai sustiprinimo mokymosi algoritmai, kurie susieja politikos tinklą (vykdytoją) su vertės vertinimo tinklu (kritiku), kad mokymas būtų stabilesnis.
Veikėjų-kritikų metodai buvo formalizuoti XXI a. pradžioje, remiantis ankstesniais tokių tyrėjų kaip Sutton ir Barto darbais apie politikos iteraciją.
Veikėjas atnaujina politiką naudodamas kritiko pasiūlytą gradiento kryptį, o kritikas įvertina vertės funkciją veiksmams įvertinti.
Populiarūs variantai yra A2C (Advantage Actor-Critic), A3C (Asynchronous Advantage Actor-Critic), SAC (Soft Actor-Critic) ir PPO (Proximal Policy Optimization).
Naudodami išmoktą bazinę liniją, veikėjo-kritiko metodai smarkiai sumažina politikos gradiento įverčių dispersiją, palyginti su Monte Karlo grąža.
Šie metodai paskatino proveržius žaidimų, robotikos ir didelių kalbų modelių tikslinimo srityse naudojant RLHF.
Kas yra Grynosios politikos gradiento metodai?
Sustiprinimo mokymosi algoritmai, kurie tiesiogiai optimizuoja parametrizuotą politiką, naudodami gradiento kilimą pagal laukiamą grąžą, be atskiro vertės modelio.
Pagrindinį REINFORCE algoritmą 1992 m. pristatė Ronaldas Williamsas, įtvirtindamas politikos gradiento teoremą.
Grynieji politikos gradiento metodai gradientus įvertina naudodami Monte Karlo metodu pagrįstą diegimą arba viso epizodo grąžą, o ne pagal pagrįstus vertės įverčius.
Jie natūraliai suderinami su stochastinėmis politikomis, todėl puikiai tinka aplinkoms su ištisinėmis arba daugiamačiomis veiksmų erdvėmis.
Kadangi jie remiasi atrinktomis trajektorijomis, šie metodai yra nešališki, tačiau jų gradiento įverčiai paprastai pasižymi dideliu dispersijos lygiu.
Žymūs įgyvendinimai apima originalų REINFORCE, Vanilla Policy Gradient (VPG) ir Trust Region Policy Optimization (TRPO).
Palyginimo lentelė
Funkcija
Aktoriaus-kritiko metodai
Grynosios politikos gradiento metodai
Pagrindinis mechanizmas
Sujungia politikos tinklą (vykdytoją) su vertės tinklu (kritiku)
Optimizuoja politiką tiesiogiai naudodama imties grąžą
Gradiento įverčių dispersija
Mažesnis dispersija dėl išmoktos bazinės linijos
Didesnis nukrypimas nuo Monte Karlo grąžos
Šališkumas
Kritiko aproksimacijos įvestas nedidelis šališkumas
Nešališki gradiento įvertinimai
Imties efektyvumas
Paprastai didesnis, pakartotinai naudoja duomenis per „bootstrapping“
Žemesnis, reikia pilnų epizodų arba daug pavyzdžių
Įgyvendinimo sudėtingumas
Sudėtingesnis, reikalauja dviejų tinklų apmokymo
Paprasčiau, valdyti tik vieną tinklą
Mokymo stabilumas
Stabilesnis dėl mažesnio dispersijos ir pasitikėjimo regionų
Mažiau stabilus, jautrus mokymosi greičiui ir atlygio skalei
Žvalgymo tvarkymas
Gali apimti entropijos premijas arba stochastinius kritikus
Natūraliai stochastinis, lengvai skatina tyrinėjimą
Tipiniai naudojimo atvejai
Didelio masto RL, robotika, RLHF kalbos modeliams
Paprastos kontrolinės užduotys, tyrimo baziniai taškai, epizodinės problemos
Išsamus palyginimas
Gradiento įvertinimas ir dispersija
Didžiausias praktinis skirtumas tarp šių dviejų šeimų priklauso nuo to, kaip jos įvertina tobulėjimo kryptį. Grynieji politikos gradiento metodai remiasi Monte Karlo grąža, surinkta iš visų epizodų, o tai duoda nešališką signalą, tačiau labai svyruojantį priklausomai nuo bet kurio vieno diegimo sėkmės. Veikėjų-kritikų metodai pakeičia šią triukšmingą grąžą išmoktos vertės funkcija, efektyviai atimdami bazinę liniją, kuri fiksuoja laukiamą rezultatą. Rezultatas yra daug mažesnio dispersijos gradientas, leidžiantis mokymui vykti sklandžiau, ypač aplinkose, kuriose atlygiai yra menki arba vėluoja.
Šališkumo ir dispersijos kompromisas
Prekybos dispersija dėl šališkumo yra pagrindinis kompromisas veikėjo ir kritiko projekte. Kritikas pats savaime yra aproksimacija, todėl jo įverčiai gali būti klaidingi, ir ta klaida atsispindi politikos atnaujinime. Grynieji politikos gradiento metodai to visiškai išvengia, nes jie niekada neapytiksliai nesuderina vertės funkcijos, tačiau už šį grynumą jie moka triukšmingesniais atnaujinimais. Praktiškai šiuolaikiniai veikėjo ir kritiko algoritmai, tokie kaip PPO ir SAC, šį kompromisą valdo taip gerai, kad mažas šališkumas retai kada yra problema, todėl jie dominuoja etalonuose.
Imties efektyvumas ir duomenų pakartotinis naudojimas
Imties efektyvumas yra nepaprastai svarbus, kai sąveika su aplinka yra brangi, pavyzdžiui, robotikoje ar realaus pasaulio dialogo sistemose. Čia puikiai veikia veikėjo-kritiko metodai, nes kritikas remiasi savo paties prognozėmis, leisdamas algoritmui mokytis iš kiekvieno perėjimo kelis kartus. Gryniems politikos gradiento metodams paprastai reikia naujų politikos duomenų kiekvienam atnaujinimui, o tai reiškia daugiau aplinkos sąveikų, siekiant to paties politikos patobulinimo. Tai viena iš priežasčių, kodėl REINFORCE stiliaus algoritmai yra labiau paplitę tyrimų aplinkose, kur modeliavimas yra pigus.
Įgyvendinimas ir derinimas
Jei norite greitai sukurti prototipą, patrauklūs yra gryni politikos gradiento metodai. Jums tereikia politikos tinklo, nuostolių funkcijos, sudarytos iš logaritminių tikimybių, įvertintų pagal grąžą, ir būdo rinkti trajektorijas. Veikiančiojo-kritinio tinklo metodai prideda antrojo tinklo mokymo naštą, subalansuojant jo mokymosi greitį su veikėjo mokymosi greičiu ir užtikrinant, kad kritinis tinklas konverguotų pakankamai greitai, kad būtų naudingas. Šis papildomas sudėtingumas atsiperka našumo srityje, tačiau tai pakelia kartelę naujokams.
Žvalgymo ir stochastinė politika
Abu metodai natūraliai tvarko stochastines politikas, tačiau skirtingai skatina tyrinėjimą. Grynieji politikos gradiento metodai tyrinėjimą gauna nemokamai iš pačios politikos entropijos, kuri gerai veikia problemose su aiškiais veiksmų pasiskirstymais. Veikėjo-kritiko metodai dažnai prideda aiškų entropijos bonusą prie tikslo, kaip tai daro „Soft Actor-Critic“ metodas, kad politika nesugriūtų per anksti. Dėl to veikėjo-kritiko variantai yra atsparesni užduotims, kuriose agentas kitaip galėtų įstrigti neoptimaliame elgesyje.
Privalumai ir trūkumai
Aktoriaus-kritiko metodai
Privalumai
+Mažesnio dispersijos atnaujinimai
+Geresnis mėginių ėmimo efektyvumas
+Stabilesnės treniruotės
+Pritaikoma sudėtingoms užduotims
Pasirinkta
−Sudėtingiau įgyvendinti
−Papildomas hiperparametrų derinimas
−Nedidelis kritiko šališkumas
−Du tinklai, kuriuos reikia apmokyti
Grynosios politikos gradiento metodai
Privalumai
+Paprastas įgyvendinimas
+Nešališki gradiento įvertinimai
+Natūralios stochastinės politikos
+Puikiai tinka tyrimams
Pasirinkta
−Didelės dispersijos atnaujinimai
−Prastas mėginių našumas
−Reikia pilnų serijų
−Jautrus mokymosi greičiui
Dažni klaidingi įsitikinimai
Mitas
Veikėjų-kritikų metodai yra visiškai kita algoritmų šeima nei politikos gradientai.
Realybė
Veikėjų-kritikų metodai iš tikrųjų yra politikos gradiento metodų pogrupis. Jie apskaičiuoja tą patį politikos gradientą, tačiau dispersijai sumažinti naudoja išmoktos vertės funkciją, o ne pasikliauja neapdorota grąža.
Mitas
Gryni politikos gradiento metodai visada konverguoja greičiau, nes jie yra nešališki.
Realybė
Nešališkumas nereiškia greito konvergavimo. Didelė Monte Karlo įverčių dispersija dažnai smarkiai sulėtina mokymąsi, ypač ilgalaikėse užduotyse, kuriose atlygis gaunamas vėliau.
Mitas
Aktoriaus-kritiko metodai negali veikti su ištisinėmis veiksmo erdvėmis.
Realybė
Daugelis veikėjų-kritikų algoritmų, įskaitant SAC ir DDPG, yra specialiai sukurti nuolatiniam valdymui ir puikiai veikia robotikoje ir fizikos pagrindu sukurtame modeliavime.
Mitas
Norint gerai atlikti sustiprintą mokymąsi, visada reikia kritiko.
Realybė
Grynieji politikos gradiento metodai, tokie kaip REINFORCE ir TRPO, išsprendė daugybę problemų be kritikos. Kritika yra dispersijos mažinimo įrankis, o ne griežtas reikalavimas.
Mitas
PPO yra grynas politikos gradiento metodas.
Realybė
PPO techniškai yra veikėjo-kritiko algoritmas. Politikos pusėje jis naudoja apribotą pakaitinį tikslą, tačiau pranašumams apskaičiuoti ir atnaujinimams vadovautis vertės tinklu.
Dažnai užduodami klausimai
Kuo pagrindinis skirtumas tarp veikėjo-kritiko ir politikos gradiento metodų?
Pagrindinis skirtumas yra tas, ar mokymo metu naudojama vertės funkcija. Veikėjų-kritikų metodai apmoko atskirą kritikų tinklą vertėms įvertinti ir dispersijai sumažinti, o gryni politikos gradiento metodai gradientus įvertina tiesiogiai iš imties grąžos be išmokto vertės modelio.
Kodėl aktoriaus-kritiko metodai turi mažesnę dispersiją?
Prieš apskaičiuodami gradientą, jie iš grąžos atima išmoktą bazinę liniją, paprastai vertės funkciją. Ši bazinė linija atspindi laukiamą rezultatą, todėl likęs pranašumo signalas turi daug mažiau atsitiktinio triukšmo nei neapdoroti Monte Karlo rezultatai.
Ar PPO yra veikėjo-kritiko, ar politikos gradiento metodas?
PPO yra veikėjo-kritiko algoritmas. Jis naudoja apribotą tikslą politikai atnaujinti, tačiau pranašumams apskaičiuoti remiasi vertybių tinklu, o tai yra veikėjo-kritiko šeimos požymis.
Kada turėčiau naudoti grynus politikos gradiento metodus, o ne veikėjo-kritiko metodus?
Grynojo politikos gradiento metodai puikiai tinka trumpoms epizodinėms užduotims, tyrimų bazinėms linijoms arba situacijoms, kai reikia paprasto, nešališko algoritmo. Jie taip pat gerai veikia, kai aplinkos modeliavimas yra pigus ir nereikia maksimalaus imties efektyvumo.
Ar aktoriaus-kritiko metodai veikia nuolatinio veiksmo erdvėse?
Taip, daugelis tai daro. Tokie algoritmai kaip SAC, DDPG ir TD3 yra veikėjo-kritiko metodai, specialiai sukurti nuolatiniam valdymui ir plačiai naudojami robotikoje ir imituojamose fizikos aplinkose.
Ar grynieji politikos gradiento metodai vis dar naudojami šiandien?
Be abejo. „REINFORCE“ ir „Vanilla Policy Gradient“ išlieka populiarūs mokslinių tyrimų ir švietimo srityse, o TRPO vis dar naudojamas saugai jautriose srityse, kur vertingas jo patikimumo srities apribojimas.
Kas yra politikos gradiento teorema?
Suttono ir kolegų įrodyta politikos gradiento teorema pateikia uždaros formos išraišką laukiamos grąžos gradientui, atsižvelgiant į politikos parametrus. Tiek grynojo politikos gradiento, tiek veikėjo-kritiko metodai yra sukurti šios teoremos pagrindu.
Kaip REINFORCE susijęs su aktoriaus-kritiko metodais?
REINFORCE yra kanoninis gryno politikos gradiento algoritmas. Veikėjo-kritiko metodus galima laikyti REINFORCE evoliucija, kuri pakeičia Monte Karlo grąžą išsilavinusio kritiko pagrįstu įvertinimu, o tai sumažina dispersiją tam tikro šališkumo sąskaita.
Ar aktoriaus-kritiko metodai gali būti naudojami RLHF dideliuose kalbų modeliuose?
Taip, veikėjų-kritikų metodai, tokie kaip PPO, yra RLHF srautų „arkliukai“, skirti didelių kalbų modelių derinimui. Jie apdoroja ilgus horizontus ir sudėtingus atlygio signalus, susijusius su kalbos modelių mokymu naudojant žmonių grįžtamąjį ryšį.
Kuris metodas yra geresnis negausaus atlygio aplinkoms?
Veikėjo-kritiko metodai paprastai veikia geriau esant negausiems atlygiams, nes kritikas gali skleisti vertės informaciją atgal laikui bėgant, suteikdamas politikai naudingų mokymosi signalų net tada, kai atlygiai reti.
Nuosprendis
Rinkitės grynus politikos gradiento metodus, kai norite paprasto, nešališko algoritmo trumpalaikėms problemoms spręsti arba kaip aiškaus tyrimo pradinio lygio. Naudokite veikėjo-kritiko metodus, kai jums rūpi imties efektyvumas, mokymo stabilumas arba pritaikymas sudėtingose aplinkose, tokiose kaip robotika ir didelių kalbų modelių tikslinimas.