Poliitikapõhine õppimine vs poliitikaväline õppimine
Poliitikapõhine ja poliitikaväline õppimine on kaks peamist lähenemisviisi tugevdusõppes, mis erinevad selle poolest, kuidas agendid kogemusi koguvad ja kasutavad. Poliitikapõhised meetodid õpivad agendi tegelikest tegevustest, samas kui poliitikavälised meetodid saavad õppida teiste poliitikate või varasema käitumise kogutud andmetest.
Esiletused
Poliitikapõhised meetodid õpivad ainult praeguse poliitika toimingutest, samas kui poliitikavälised meetodid saavad kasutada mis tahes andmeallikat.
Poliitikaväline õppimine pakub kogemuse taasesitamise kaudu suurepärast valimi efektiivsust, mistõttu on see ideaalne reaalse robootika jaoks.
Poliitikapõhised algoritmid, nagu PPO, pakuvad stabiilsemat treeningut, kuid iga iteratsiooni puhul on vaja uusi andmeid.
Poliitikavälised lähenemisviisid võimaldavad õppida inimeste tehtud demonstratsioonidest ja ajaloolistest logidest, mida poliitikapõhised meetodid ei saa kasutada.
Mis on Poliitikapõhine õppimine?
Tugevdusõppe lähenemisviis, mille puhul agent õpib toimingutest, mida ta praegu sama täiustatava poliitika alusel teeb.
Poliitikapõhised meetodid hindavad ja täiustavad sama poliitikat, mida kasutatakse otsuste tegemiseks treeningu ajal.
SARSA (State-Action-Reward-State-Action) on klassikaline poliitikapõhine algoritm, mis uueneb vastavalt järgmisele tegelikult tehtud toimingule.
PPO (Proximal Policy Optimization) ja A2C (Advantage Actor-Critic) on tänapäevases sügavas RL-is laialdaselt kasutatavad poliitikapõhised algoritmid.
Poliitikapõhine õppimine nõuab tavaliselt praegusest poliitikast uusi andmeid, mistõttu on see valimite arvutamisel vähem efektiivne kui poliitikavälised alternatiivid.
Need meetodid on treeningu ajal tavaliselt stabiilsemad, kuna need optimeerivad otseselt rakendatavat poliitikat.
Mis on Poliitikaväline õppimine?
Tugevdusõppe lähenemisviis, mille puhul agent õpib kogemustest, mis on loodud optimeeritavast erineva poliitika abil.
Poliitikavälised meetodid saavad õppida mis tahes poliitika kogutud andmetest, sealhulgas ajaloolistest andmetest või inimeste tehtud demonstratsioonidest.
Q-õpe on poliitikaväline algoritm, mis õpib optimaalsete toimingute väärtust olenemata tehtud toimingust.
Sügavad Q-võrgud (DQN) laiendasid Q-õpet, et käsitleda kõrgemõõtmelisi olekuruume närvivõrkude abil.
Poliitikavälised algoritmid nagu DDPG, TD3 ja SAC on muutunud robootikas pideva juhtimise ülesannete standardiks.
Kogemuste taasesituspuhvrid võimaldavad poliitikavälistel meetoditel varasemaid üleminekuid taaskasutada, parandades oluliselt valimi efektiivsust.
Võrdlustabel
Funktsioon
Poliitikapõhine õppimine
Poliitikaväline õppimine
Andmeallikas
Ainult praeguse poliitika alusel
Mis tahes poliitika või ajaloolised andmed
Proovi efektiivsus
Madalam, vajab värskeid andmeid
Kõrgem, taaskasutab varasemaid kogemusi
Treeningu stabiilsus
Üldiselt stabiilsem
Võib olla vähem stabiilne jaotusnihke tõttu
Uurimine
Seotud kehtiva poliitikaga
Käitumispoliitikast lahutatud
Näidisalgoritmid
SARSA, PPO, A2C, TUGEVDA
Q-õpe, DQN, DDPG, SAC, TD3
Mälunõuded
Madalam, korduspuhvrit pole vaja
Kõrgem, nõuab suuri korduspuhvreid
Levinumad kasutusjuhud
Mängu tehisintellekt, robootika simulatsioon, keelemudelid
Robootika, soovitussüsteemid, autonoomne juhtimine
Eelarvamuse ja dispersiooni kompromiss
Väiksem dispersioon, teatav eelarvamus
Väiksem eelarvamus, suurem dispersioon
Üksikasjalik võrdlus
Põhiõppe mehhanism
Põhiline erinevus seisneb selles, milline poliitika treeningandmeid genereerib. Poliitikapõhine õppimine hindab ja täiustab uurimise ajal järgitavat täpset poliitikat, mis tähendab, et iga uuendus peegeldab toiminguid, mida agent tegelikult teeks. Poliitikaväline õppimine eraldab need mured täielikult, võimaldades agendil õppida optimaalset käitumist andmetest, mis võivad olla kogutud tema enda vanema versiooni, juhusliku poliitika või isegi inimdemonstraatori poolt.
Proovi efektiivsus ja andmete taaskasutamine
Poliitikavälised meetodid on suurepärased siis, kui andmed on kallid või napid. Üleminekuid salvestades korduspuhvrisse ja sellest korduvalt valimi võttes, saavad algoritmid nagu DQN ja SAC igast keskkonnaga suhtlemisest maksimaalse õppeväärtuse ammutada. Poliitikapõhised meetodid loobuvad tavaliselt andmetest pärast ühekordset kasutamist, mis toimib hästi odavates simulatsioonikeskkondades, kuid muutub ebapraktiliseks, kui iga interaktsioon maksab reaalajas või raha, näiteks füüsilises robootikas.
Stabiilsus ja lähenemine
Poliitikapõhised lähenemisviisid pakuvad üldiselt prognoositavamat lähenemist, kuna optimeeritav poliitika genereerib alati andmeid, mis välistab jaotuse ebakõla. Poliitikavälised meetodid seisavad silmitsi jaotuse nihke probleemiga, kus andmejaotus erineb praeguse poliitika tulemusest, põhjustades mõnikord ebastabiilsust või lahknemist. Sellised meetodid nagu sihtvõrgustikud, olulisuse valim ja poliitikapiirangud aitavad neid probleeme leevendada, kuid lisavad keerukust.
Uurimisstrateegiad
Poliitikapõhise õppimise puhul on uurimine oma olemuselt seotud praeguse poliitikaga, mis saavutatakse sageli stohhastilise tegevusvaliku või entroopiaboonuste kaudu. Poliitikaväline õppimine lahutab uurimise õppimisest, võimaldades eraldi käitumispoliitikaid, mis saavad laialdaselt uurida, samal ajal kui sihtpoliitika õpib ära kasutama. See eraldamine võimaldab keerukaid uurimisstrateegiaid, nagu epsilon-ahne käitumispoliitika kahanevate ajakavadega või uudishimust juhitud käitumispoliitikad.
Praktilised rakendused
Poliitikapõhised meetodid domineerivad valdkondades, kus simulatsioon on odav ja stabiilsus on oluline, näiteks mänguagentide treenimine ja suurte keelemudelite peenhäälestamine RLHF-i abil. Poliitikavälised meetodid on suurepärased robootikas, kus reaalse maailma andmete kogumine on kulukas, ja soovitussüsteemides, kus massiivsed kasutajainteraktsioonide logid pakuvad rikkalikke treeningandmeid. Valik sõltub sageli sellest, kas teil on rikkalikult simulatsiooni või väärtuslikke reaalse maailma andmeid.
Plussid ja miinused
Poliitikapõhine õppimine
Eelised
+Stabiilsem treening
+Lihtsam rakendamine
+Korduspuhvrit pole vaja
+Otsepoliitika optimeerimine
Kinnitatud
−Madalam proovi efektiivsus
−Nõuab värskeid andmeid
−Aeglasem seinakella treening
−Piiratud andmete taaskasutamine
Poliitikaväline õppimine
Eelised
+Kõrge proovivõtu efektiivsus
+Taaskasutab varasemaid andmeid
+Õpib demonstratsioonidest
+Lahtiseotud uurimine
Kinnitatud
−Treeningu ebastabiilsuse risk
−Suurem mälumaht
−Jaotusnihke probleemid
−Keerukamad algoritmid
Tavalised eksiarvamused
Müüt
Poliitikaväline õppimine on alati parem, sest see taaskasutab andmeid.
Tõelisus
Kuigi poliitikast sõltumatud meetodid on valimite efektiivsemad, kannatavad nad sageli treeningu ebastabiilsuse all ja nõuavad tehnikate, näiteks sihtvõrkude ja olulisuse valimite hoolikat häälestamist. Poliitikast lähtuvad meetodid suudavad poliitikast sõltumatuid lähenemisviise paremini läbi lüüa keskkondades, kus simulatsioon on odav ja stabiilsus on esmatähtis.
Müüt
Poliitikapõhine õppimine ei saa kasutada varasemaid andmeid.
Tõelisus
Poliitikapõhised meetodid saavad tehniliselt kasutada varasemaid andmeid, kuid see nõuab olulisuse valimi korrigeerimist, mis põhjustab suurt dispersiooni. Praktikas toimivad need kõige paremini praeguse poliitika värskete andmetega, mistõttu algoritmid nagu PPO koguvad väljalaskeid, treenivad nende põhjal ja loobuvad neist.
Müüt
Q-õpe on poliitikast väljas, kuna see õpib optimaalset tegevusväärtust.
Tõelisus
Q-õpe liigitatakse poliitikaväliseks, kuna see õpib optimaalse poliitika kohta, järgides uurimise ajal potentsiaalselt erinevat käitumispoliitikat. Sihtmärk, millelt see alglaadimise ajal lähtub, eeldab ahnet tegevuste valikut, mis võib erineda andmete genereerimiseks tegelikult tehtud tegevustest.
Müüt
Kõik süvaõppe algoritmid on poliitikavälised.
Tõelisus
Paljud populaarsed süvaõppe algoritmid on poliitikapõhised, sealhulgas PPO, A2C ja TRPO. Poliitikapõhise ja poliitikavälise algoritmi eristamine eksisteerib sõltumatult sellest, kas kasutatakse närvivõrke, ja mõlemal kategoorial on edukad süvaõppe rakendused.
Müüt
Poliitikaväline õppimine koondub alati kiiremini kui poliitikapõhine õppimine.
Tõelisus
Konvergentsi kiirus sõltub keskkonnast ja implementatsioonist. Poliitikavälised meetodid võivad vajada vähem keskkonnainteraktsioone, kuid sageli vajavad nad rohkem gradientvärskendusi ja hoolikat hüperparameetrite häälestamist. Mõnes ülesandes jõuavad poliitikapõhised meetodid heade poliitikateni kiiremini kui seinakell, hoolimata suurema hulga näidiste kasutamisest.
Sageli küsitud küsimused
Mis on peamine erinevus poliitikapõhise ja poliitikavälise õppimise vahel?
Peamine erinevus seisneb poliitikat genereerivate andmete ja õpitava poliitika vahelises seoses. Poliitikapõhised meetodid täiustavad sama poliitikat, mis kogub kogemusi, samas kui poliitikavälised meetodid õpivad teise poliitika loodud andmetest. See mõjutab valimi efektiivsust, stabiilsust ja andmetüüpe, mida iga lähenemisviis saab kasutada.
Kumb on valimi põhjal efektiivsem, kas poliitikapõhine või poliitikaväline?
Poliitikavälised meetodid on üldiselt valimi efektiivsemad, kuna nad saavad taasesituspuhvrite kaudu varasemaid kogemusi taaskasutada. Algoritmid nagu SAC ja DQN saavad ühest üleminekust mitu korda õppida, samas kui poliitikapõhised meetodid, nagu PPO, kasutavad iga üleminekut tavaliselt ainult üks kord enne selle hülgamist.
Kas PPO on poliitikaga kooskõlas või mitte?
PPO (Proximal Policy Optimization) on poliitikapõhine algoritm. See kogub väljalaskeid praeguse poliitika abil, treenib neid andmeid mõne aja jooksul, seejärel loobub andmetest ja kogub uusi näidiseid. Vaatamata ebaefektiivsusele on PPO endiselt populaarne tänu oma stabiilsusele ja usaldusväärsele jõudlusele mitmesuguste ülesannete puhul.
Kas poliitikaväline õppimine saab kasutada inimeste demonstratsioonide andmeid?
Jah, see on üks poliitikavälise õppimise peamisi eeliseid. Algoritme saab initsialiseerida või eelkoolitada, kasutades inimeste demonstratsiooniandmeid, ja seejärel jätkata õppimist eneseuurimise teel. Seda lähenemisviisi, mida sageli nimetatakse demonstratsioonist õppimiseks või imitatsioonõppe initsialiseerimiseks, kasutatakse laialdaselt robootikas, kus ekspertide näited kiirendavad õppimist.
Miks on poliitikavälise õppimisega stabiilsusprobleeme?
Poliitikavälised meetodid seisavad silmitsi surmava triaadiprobleemiga: funktsioonide lähendamise, alglaadimise ja poliitikaväliste andmete kombineerimine võib viia lahknevusteni. Kui väärtusfunktsiooni lähendatakse närvivõrkudega ja värskendatakse erineva jaotusega sihtmärkide abil, võivad vead süveneda. Selle probleemi lahendamiseks aitavad kasutada selliseid meetodeid nagu sihtmärgivõrgud, topelt-Q-õpe ja konservatiivsed värskendused.
Mis on valimisse panustamise olulisus poliitikavälise õppimise puhul?
Olulisuse valim on statistiline meetod, mis korrigeerib käitumispoliitika ja sihtpoliitika jaotuse mittevastavust. See kaalub uuendusi ümber iga poliitika tõenäosuste suhte võrra, võimaldades poliitika gradiendi meetodites poliitikaväliste korrektsioonide tegemist. Sellel suhtel võib aga olla suur dispersioon, mis piirab praktilist rakendatavust.
Milline lähenemisviis on robootikarakenduste jaoks parem?
Robootikas eelistatakse tavaliselt poliitikaväliseid meetodeid, kuna reaalse maailma interaktsioonid on kallid ja aeganõudvad. Algoritmid nagu SAC ja TD3 suudavad piiratud andmetest õppida keerulisi manipuleerimisülesandeid kogemusi taaskasutades. Siiski kasutatakse roboti simulatsioonis mõnikord poliitikapõhiseid meetodeid enne õpitud poliitikate riistvarale ülekandmist.
Kas Q-õpe on poliitikaga kooskõlas või mitte?
Q-õpe on poliitikaväline. See õpib igas olekus parima võimaliku toimingu väärtust, olenemata sellest, millise toimingu agent uurimise ajal tegelikult tegi. See võimaldab tal õppida optimaalset käitumist isegi juhusliku või uurimusliku poliitika järgimisel, mistõttu see töötab hästi DQN-is kogemuse taasesitusega.
Kuidas on kogemuse kordus seotud poliitikakohase ja poliitikavälise olukorraga?
Kogemuse taasesitamine on peamiselt seotud poliitikavälise õppimisega, kuna see salvestab ja taaskasutab varasemaid üleminekuid, mis võivad olla loodud vanemate poliitikate poolt. Poliitikapõhised meetodid väldivad üldiselt korduspuhvreid, kuna vanade andmete taaskasutamine rikub poliitikapõhise eelduse põhimõtet, kuigi on olemas ka hübriidlähenemisviise.
Kas saate kombineerida poliitikapõhiseid ja poliitikaväliseid meetodeid?
Jah, hübriidlähenemisi on olemas. Mõned algoritmid kasutavad poliitikaväliseid andmeid eelkoolituseks või abieesmärkidena, olles samal ajal peamiselt poliitikakohased. Tegutseja-kriitiku meetodid ühendavad sageli mõlemat, kus kriitik võib õppida poliitikaväliselt, samal ajal kui tegija saab poliitikakohaseid värskendusi. Jätkub uurimistöö meetodite kohta, mis pakuvad parimat mõlemast maailmast.
Otsus
Valige poliitikapõhine õpe, kui vajate treeningu stabiilsust ja teil on juurdepääs odavatele simulatsioonikeskkondadele, eriti selliste ülesannete jaoks nagu mängu tehisintellekt või poliitikagradiendi meetodid keelemudelites. Valige poliitikaväline õpe, kui valimi efektiivsus on kriitilise tähtsusega, andmete kogumine on kallis või peate õppima olemasolevatest andmekogumitest, näiteks demonstratsioonidest või logitud interaktsioonidest.