učenje z okrepitvijostrojno učenjeumetna inteligencaoptimizacija politikrl-algoritmi
Učenje na podlagi politik v primerjavi z učenjem izven politik
Učenje na podlagi politik in učenje izven politik sta dva temeljna pristopa k učenju s krepitvijo, ki se razlikujeta po tem, kako agenti zbirajo in uporabljajo izkušnje. Metode na podlagi politik se učijo iz dejanj, ki jih agent dejansko izvede, medtem ko se metode izven politik lahko učijo iz podatkov, zbranih z drugimi politikami ali preteklim vedenjem.
Poudarki
Metode na podlagi politik se učijo le iz dejanj trenutne politike, medtem ko lahko metode izven politike izkoristijo kateri koli vir podatkov.
Učenje izven politik ponuja vrhunsko učinkovitost vzorcev s ponavljanjem izkušenj, zaradi česar je idealno za robotiko v resničnem svetu.
Algoritmi na podlagi pravilnikov, kot je PPO, zagotavljajo stabilnejše učenje, vendar za ceno potrebe po svežih podatkih pri vsaki iteraciji.
Pristopi izven okvira omogočajo učenje iz človeških demonstracij in zgodovinskih zapisov, ki jih metode, ki so v okviru okvira, ne morejo uporabiti.
Kaj je Učenje na podlagi politik?
Pristop učenja z okrepitvijo, pri katerem se agent uči iz dejanj, ki jih trenutno izvaja v okviru iste politike, ki se izboljšuje.
Metode, ki temeljijo na politiki, ocenjujejo in izboljšujejo isto politiko, ki se uporablja za sprejemanje odločitev med usposabljanjem.
SARSA (State-Action-Reward-State-Action) je klasičen algoritem na podlagi pravilnikov, ki se posodablja glede na naslednje dejansko izvedeno dejanje.
PPO (Proximal Policy Optimization) in A2C (Advantage Actor-Critic) sta široko uporabljena algoritma na podlagi politik v sodobnem globokem RL.
Učenje na podlagi politik običajno zahteva sveže podatke iz trenutne politike, zaradi česar je manj učinkovito pri vzorčenju kot alternative zunaj politik.
Te metode so med učenjem običajno bolj stabilne, ker neposredno optimizirajo uporabljeno politiko.
Kaj je Učenje izven politik?
Pristop učenja z okrepitvijo, pri katerem se agent uči iz izkušenj, ki jih ustvari drugačna politika od tiste, ki se optimizira.
Metode izven politik se lahko učijo iz podatkov, zbranih s strani katere koli politike, vključno z zgodovinskimi podatki ali človeškimi demonstracijami.
Q-učenje je temeljni algoritem izven politik, ki se uči vrednosti optimalnih dejanj ne glede na izvedena dejanja.
Globoka Q-mreža (DQN) je razširila Q-učenje za obravnavo visokodimenzionalnih prostorov stanj z uporabo nevronskih mrež.
Algoritmi izven pravilnikov, kot so DDPG, TD3 in SAC, so postali standard za naloge neprekinjenega krmiljenja v robotiki.
Medpomnilniki za ponovno predvajanje izkušenj omogočajo metodam, ki niso v skladu s pravilniki, ponovno uporabo preteklih prehodov, kar dramatično izboljša učinkovitost vzorčenja.
Primerjalna tabela
Funkcija
Učenje na podlagi politik
Učenje izven politik
Vir podatkov
Samo iz trenutne politike
Vsi podatki o pravilnikih ali zgodovini
Učinkovitost vzorca
Nižje, potrebni so sveži podatki
Višje, ponovno uporablja pretekle izkušnje
Stabilnost treninga
Na splošno bolj stabilno
Lahko je manj stabilno zaradi premika porazdelitve
Raziskovanje
Vezano na trenutno politiko
Ločeno od politike vedenja
Primeri algoritmov
SARSA, PPO, A2C, OKREPITEV
Q-učenje, DQN, DDPG, SAC, TD3
Zahteve glede pomnilnika
Nižje, ni potreben medpomnilnik za ponovno predvajanje
Višje, zahteva velike medpomnilnike za ponovno predvajanje
Pogosti primeri uporabe
Igralna umetna inteligenca, simulacija robotike, jezikovni modeli
Robotika, sistemi priporočil, avtonomna vožnja
Kompromis med pristranskostjo in varianco
Nižja varianca, nekaj pristranskosti
Manjša pristranskost, večja varianca
Podrobna primerjava
Mehanizem osnovnega učenja
Temeljna razlika je v tem, katera politika generira podatke za učenje. Učenje na podlagi politik ocenjuje in izboljšuje natančno politiko, ki se upošteva med raziskovanjem, kar pomeni, da vsaka posodobitev odraža dejanja, ki bi jih agent dejansko izvedel. Učenje izven politik te pomisleke popolnoma ločuje in agentu omogoča, da se nauči optimalnega vedenja iz podatkov, ki jih je morda zbrala starejša različica samega sebe, naključna politika ali celo človeški demonstrator.
Učinkovitost vzorčenja in ponovna uporaba podatkov
Metode, ki ne upoštevajo pravil, so zelo učinkovite, kadar so podatki dragi ali redki. Z shranjevanjem prehodov v medpomnilnik za ponovno predvajanje in večkratnim vzorčenjem iz njega lahko algoritmi, kot sta DQN in SAC, iz vsake interakcije z okoljem izvlečejo največjo učno vrednost. Metode, ki ne upoštevajo pravil, običajno zavržejo podatke po enkratni uporabi, kar dobro deluje v poceni simulacijskih okoljih, vendar postane nepraktično, kadar vsaka interakcija stane realen čas ali denar, na primer v fizični robotiki.
Stabilnost in konvergenca
Pristopi, ki temeljijo na politikah, običajno ponujajo bolj predvidljivo konvergenco, ker politika, ki se optimizira, vedno ustvarja podatke, s čimer se odpravi neskladje v porazdelitvi. Metode, ki ne temeljijo na politikah, se soočajo z izzivom premika porazdelitve, kjer se porazdelitev podatkov razlikuje od tiste, ki bi jo ustvarila trenutna politika, kar včasih povzroči nestabilnost ali razhajanje. Tehnike, kot so ciljna omrežja, vzorčenje po pomembnosti in omejitve politik, pomagajo ublažiti te težave, vendar povečujejo kompleksnost.
Strategije raziskovanja
Pri učenju na podlagi politik je raziskovanje neločljivo povezano s trenutno politiko, kar se pogosto doseže s stohastično izbiro dejanj ali entropijskimi bonusi. Učenje izven politik ločuje raziskovanje od učenja, kar omogoča ločene vedenjske politike, ki lahko raziskujejo na široko, medtem ko se ciljna politika uči izkoriščati. Ta ločitev omogoča sofisticirane strategije raziskovanja, kot so epsilon-pohlepne politike z upadajočimi urniki ali vedenjske politike, ki jih poganja radovednost.
Praktične aplikacije
Metode, ki temeljijo na pravilnikih, prevladujejo na področjih, kjer je simulacija poceni in je stabilnost pomembna, kot sta na primer usposabljanje igralnih agentov in fino uglaševanje velikih jezikovnih modelov z RLHF. Metode, ki ne temeljijo na pravilnikih, so odlične v robotiki, kjer je zbiranje podatkov iz resničnega sveta drago, in v sistemih priporočil, kjer obsežni dnevniki uporabniških interakcij zagotavljajo bogate podatke za učenje. Izbira je pogosto odvisna od tega, ali imate obilo simulacij ali dragocene podatke iz resničnega sveta.
Prednosti in slabosti
Učenje na podlagi politik
Prednosti
+Bolj stabilna vadba
+Enostavnejša izvedba
+Predpomnilnik za ponovno predvajanje ni potreben
+Neposredna optimizacija politik
Vse
−Nižja učinkovitost vzorca
−Zahteva sveže podatke
−Počasnejši trening s stensko uro
−Omejena ponovna uporaba podatkov
Učenje izven politik
Prednosti
+Visoka učinkovitost vzorca
+Ponovno uporablja pretekle podatke
+Uči se iz demonstracij
+Nevezano raziskovanje
Vse
−Tveganje nestabilnosti treninga
−Večji pomnilniški odtis
−Težave s premikom distribucije
−Bolj zapleteni algoritmi
Pogoste zablode
Mit
Učenje izven politik je vedno boljše, ker ponovno uporablja podatke.
Resničnost
Čeprav so metode, ki ne temeljijo na pravilih, učinkovitejše pri vzorčenju, pogosto trpijo zaradi nestabilnosti učenja in zahtevajo skrbno nastavitev tehnik, kot so ciljna omrežja in vzorčenje po pomembnosti. Metode, ki temeljijo na pravilih, lahko prekašajo pristope, ki ne temeljijo na pravilih, v okoljih, kjer je simulacija poceni in je stabilnost najpomembnejša.
Mit
Učenje na podlagi politik ne more uporabljati preteklih podatkov.
Resničnost
Metode, ki so skladne s pravilniki, lahko tehnično uporabljajo pretekle podatke, vendar to zahteva popravke vzorčenja zaradi pomembnosti, ki uvajajo veliko varianco. V praksi najbolje delujejo s svežimi podatki iz trenutnega pravilnika, zato algoritmi, kot je PPO, zbirajo uvedbe, se na njih učijo in jih zavržejo.
Mit
Q-učenje ni v skladu s politiko, ker se uči optimalne vrednosti dejanja.
Resničnost
Q-učenje je razvrščeno kot učenje izven politike, ker se uči o optimalni politiki, medtem ko med raziskovanjem potencialno sledi drugačni politiki vedenja. Cilj, iz katerega se zaganja, predpostavlja pohlepno izbiro dejanj, ki se lahko razlikuje od dejanj, ki so bila dejansko izvedena za ustvarjanje podatkov.
Mit
Vsi algoritmi za globoko učenje z okrepitvijo so izven politike.
Resničnost
Številni priljubljeni algoritmi globokega učenja v realnem času (GLO) so v skladu s pravilniki, vključno s PPO, A2C in TRPO. Razlika med algoritmi v skladu s pravilniki in algoritmi izven pravilnikov obstaja neodvisno od tega, ali se uporabljajo nevronske mreže, in obe kategoriji imata uspešne implementacije globokega učenja.
Mit
Učenje izven politik vedno hitreje konvergira kot učenje na politiki.
Resničnost
Hitrost konvergence je odvisna od okolja in implementacije. Metode, ki niso v skladu s pravilniki, morda potrebujejo manj interakcij z okoljem, vendar pogosto zahtevajo več posodobitev gradientov in skrbno uglaševanje hiperparametrov. Pri nekaterih nalogah metode, ki so v skladu s pravilniki, hitreje dosežejo dobre pravilnike v času stenske ure kljub uporabi več vzorcev.
Pogosto zastavljena vprašanja
Kakšna je glavna razlika med učenjem na podlagi politik in učenjem izven politik?
Ključna razlika je v razmerju med podatki, ki ustvarjajo politiko, in politiko, ki se uči. Metode na podlagi politik izboljšujejo isto politiko, ki zbira izkušnje, medtem ko se metode zunaj politik učijo iz podatkov, ki jih ustvarja druga politika. To vpliva na učinkovitost vzorca, stabilnost in vrste podatkov, ki jih lahko uporabi vsak pristop.
Kaj je bolj učinkovito pri vzorčenju, v skladu s politiko ali zunaj nje?
Metode, ki niso v skladu s pravili, so na splošno učinkovitejše pri vzorčenju, ker lahko ponovno uporabijo pretekle izkušnje prek medpomnilnikov za ponovno predvajanje. Algoritmi, kot sta SAC in DQN, se lahko iz enega samega prehoda učijo večkrat, medtem ko metode, ki so v skladu s pravili, kot je PPO, običajno vsak prehod uporabijo le enkrat, preden ga zavržejo.
Ali je PPO v skladu s politiko ali ne?
PPO (Proximal Policy Optimization) je algoritem, ki deluje na podlagi pravilnika. Zbira uvedbe z uporabo trenutnega pravilnika, se nekaj časovnih obdobij uči na teh podatkih, nato pa podatke zavrže in zbere nove vzorce. Kljub tej neučinkovitosti PPO ostaja priljubljen zaradi svoje stabilnosti in zanesljivega delovanja pri različnih nalogah.
Ali lahko učenje izven politik uporablja podatke iz človeških demonstracij?
Da, to je ena glavnih prednosti učenja izven politik. Algoritme je mogoče inicializirati ali predhodno usposobiti z uporabo demonstracijskih podatkov ljudi, nato pa se učenje nadaljuje s samoraziskovanjem. Ta pristop, pogosto imenovan učenje iz demonstracij ali inicializacija imitacijskega učenja, se pogosto uporablja v robotiki, kjer strokovni primeri pospešujejo učenje.
Zakaj ima učenje izven politik težave s stabilnostjo?
Metode, ki niso v skladu s pravili, se soočajo s smrtonosnim problemom triade: kombiniranje aproksimacije funkcij, samodejnega zagonskega algoritma in podatkov, ki niso v skladu s pravili, lahko privede do razhajanj. Ko se vrednostna funkcija aproksimira z nevronskimi mrežami in posodobi z uporabo ciljev iz druge porazdelitve, se lahko napake seštevajo. Tehnike, kot so ciljne mreže, dvojno Q-učenje in konzervativne posodobitve, pomagajo pri reševanju tega problema.
Kaj je vzorčenje po pomembnosti pri učenju izven politik?
Vzorčenje pomembnosti je statistična tehnika, ki popravi neskladje v porazdelitvi med vedenjsko politiko in ciljno politiko. Posodobitve ponovno ponderira z razmerjem verjetnosti v okviru vsake politike, kar omogoča popravke zunaj politike pri metodah gradienta politik. Vendar ima lahko to razmerje veliko varianco, kar omejuje praktično uporabnost.
Kateri pristop je boljši za robotske aplikacije?
Metode, ki niso povezane s pravilniki, so običajno prednostne za robotiko, ker so interakcije v resničnem svetu drage in dolgotrajne. Algoritmi, kot sta SAC in TD3, se lahko naučijo kompleksnih manipulacijskih nalog iz omejenih podatkov s ponovno uporabo izkušenj. Vendar pa se metode, ki so povezane s pravilniki, včasih uporabljajo v simulaciji robotov, preden se naučene pravilnike prenesejo na strojno opremo.
Ali je Q-učenje v skladu s politiko ali ne?
Q-učenje ni vezano na pravila. Uči se vrednosti najboljšega možnega ukrepanja v vsakem stanju, ne glede na to, katero dejanje je agent dejansko izvedel med raziskovanjem. To mu omogoča, da se nauči optimalnega vedenja tudi pri sledenju naključnemu ali raziskovalnemu pravilu, zato dobro deluje s ponavljanjem izkušenj v DQN.
Kakšna je povezava med ponavljanjem izkušenj in tistimi, ki so v skladu s pravili, in tistimi, ki niso?
Ponovno predvajanje izkušenj je predvsem povezano z učenjem izven pravilnikov, ker shranjuje in ponovno uporablja pretekle prehode, ki so jih morda ustvarili starejši pravilniki. Metode, ki temeljijo na pravilnikih, se običajno izogibajo medpomnilnikom za ponovno predvajanje, saj ponovna uporaba starih podatkov krši predpostavko o pravilnikih, čeprav obstajajo tudi nekateri hibridni pristopi.
Ali lahko kombinirate metode, ki so v skladu s politiko, in metode, ki niso v skladu s politiko?
Da, obstajajo hibridni pristopi. Nekateri algoritmi uporabljajo podatke, ki niso v skladu s pravili, za predhodno učenje ali kot pomožne cilje, medtem ko so primarno v skladu s pravili. Metode akter-kritik pogosto združujejo oboje, kjer se kritik lahko uči izven pravil, medtem ko akter posodablja podatke v skladu s pravili. Raziskave metod, ki združujejo najboljše iz obeh svetov, se nadaljujejo.
Ocena
Izberite učenje na podlagi pravilnikov, kadar potrebujete stabilnost učenja in imate dostop do poceni simulacijskih okolij, zlasti za naloge, kot so umetna inteligenca v igrah ali metode gradienta pravilnikov v jezikovnih modelih. Za učenje zunaj pravilnikov se odločite, kadar je učinkovitost vzorčenja ključnega pomena, kadar je zbiranje podatkov drago ali kadar se morate učiti iz obstoječih naborov podatkov, kot so demonstracije ali zabeležene interakcije.