učenje z okrepitvijostrojno učenjeumetna inteligencaoptimizacija politikrl-algoritmi

Učenje na podlagi politik v primerjavi z učenjem izven politik

Učenje na podlagi politik in učenje izven politik sta dva temeljna pristopa k učenju s krepitvijo, ki se razlikujeta po tem, kako agenti zbirajo in uporabljajo izkušnje. Metode na podlagi politik se učijo iz dejanj, ki jih agent dejansko izvede, medtem ko se metode izven politik lahko učijo iz podatkov, zbranih z drugimi politikami ali preteklim vedenjem.

Poudarki

Metode na podlagi politik se učijo le iz dejanj trenutne politike, medtem ko lahko metode izven politike izkoristijo kateri koli vir podatkov.
Učenje izven politik ponuja vrhunsko učinkovitost vzorcev s ponavljanjem izkušenj, zaradi česar je idealno za robotiko v resničnem svetu.
Algoritmi na podlagi pravilnikov, kot je PPO, zagotavljajo stabilnejše učenje, vendar za ceno potrebe po svežih podatkih pri vsaki iteraciji.
Pristopi izven okvira omogočajo učenje iz človeških demonstracij in zgodovinskih zapisov, ki jih metode, ki so v okviru okvira, ne morejo uporabiti.

Kaj je Učenje na podlagi politik?

Pristop učenja z okrepitvijo, pri katerem se agent uči iz dejanj, ki jih trenutno izvaja v okviru iste politike, ki se izboljšuje.

Metode, ki temeljijo na politiki, ocenjujejo in izboljšujejo isto politiko, ki se uporablja za sprejemanje odločitev med usposabljanjem.
SARSA (State-Action-Reward-State-Action) je klasičen algoritem na podlagi pravilnikov, ki se posodablja glede na naslednje dejansko izvedeno dejanje.
PPO (Proximal Policy Optimization) in A2C (Advantage Actor-Critic) sta široko uporabljena algoritma na podlagi politik v sodobnem globokem RL.
Učenje na podlagi politik običajno zahteva sveže podatke iz trenutne politike, zaradi česar je manj učinkovito pri vzorčenju kot alternative zunaj politik.
Te metode so med učenjem običajno bolj stabilne, ker neposredno optimizirajo uporabljeno politiko.

Kaj je Učenje izven politik?

Pristop učenja z okrepitvijo, pri katerem se agent uči iz izkušenj, ki jih ustvari drugačna politika od tiste, ki se optimizira.

Metode izven politik se lahko učijo iz podatkov, zbranih s strani katere koli politike, vključno z zgodovinskimi podatki ali človeškimi demonstracijami.
Q-učenje je temeljni algoritem izven politik, ki se uči vrednosti optimalnih dejanj ne glede na izvedena dejanja.
Globoka Q-mreža (DQN) je razširila Q-učenje za obravnavo visokodimenzionalnih prostorov stanj z uporabo nevronskih mrež.
Algoritmi izven pravilnikov, kot so DDPG, TD3 in SAC, so postali standard za naloge neprekinjenega krmiljenja v robotiki.
Medpomnilniki za ponovno predvajanje izkušenj omogočajo metodam, ki niso v skladu s pravilniki, ponovno uporabo preteklih prehodov, kar dramatično izboljša učinkovitost vzorčenja.

Primerjalna tabela

Funkcija	Učenje na podlagi politik	Učenje izven politik
Vir podatkov	Samo iz trenutne politike	Vsi podatki o pravilnikih ali zgodovini
Učinkovitost vzorca	Nižje, potrebni so sveži podatki	Višje, ponovno uporablja pretekle izkušnje
Stabilnost treninga	Na splošno bolj stabilno	Lahko je manj stabilno zaradi premika porazdelitve
Raziskovanje	Vezano na trenutno politiko	Ločeno od politike vedenja
Primeri algoritmov	SARSA, PPO, A2C, OKREPITEV	Q-učenje, DQN, DDPG, SAC, TD3
Zahteve glede pomnilnika	Nižje, ni potreben medpomnilnik za ponovno predvajanje	Višje, zahteva velike medpomnilnike za ponovno predvajanje
Pogosti primeri uporabe	Igralna umetna inteligenca, simulacija robotike, jezikovni modeli	Robotika, sistemi priporočil, avtonomna vožnja
Kompromis med pristranskostjo in varianco	Nižja varianca, nekaj pristranskosti	Manjša pristranskost, večja varianca

Podrobna primerjava

Mehanizem osnovnega učenja

Temeljna razlika je v tem, katera politika generira podatke za učenje. Učenje na podlagi politik ocenjuje in izboljšuje natančno politiko, ki se upošteva med raziskovanjem, kar pomeni, da vsaka posodobitev odraža dejanja, ki bi jih agent dejansko izvedel. Učenje izven politik te pomisleke popolnoma ločuje in agentu omogoča, da se nauči optimalnega vedenja iz podatkov, ki jih je morda zbrala starejša različica samega sebe, naključna politika ali celo človeški demonstrator.

Učinkovitost vzorčenja in ponovna uporaba podatkov

Metode, ki ne upoštevajo pravil, so zelo učinkovite, kadar so podatki dragi ali redki. Z shranjevanjem prehodov v medpomnilnik za ponovno predvajanje in večkratnim vzorčenjem iz njega lahko algoritmi, kot sta DQN in SAC, iz vsake interakcije z okoljem izvlečejo največjo učno vrednost. Metode, ki ne upoštevajo pravil, običajno zavržejo podatke po enkratni uporabi, kar dobro deluje v poceni simulacijskih okoljih, vendar postane nepraktično, kadar vsaka interakcija stane realen čas ali denar, na primer v fizični robotiki.

Stabilnost in konvergenca

Pristopi, ki temeljijo na politikah, običajno ponujajo bolj predvidljivo konvergenco, ker politika, ki se optimizira, vedno ustvarja podatke, s čimer se odpravi neskladje v porazdelitvi. Metode, ki ne temeljijo na politikah, se soočajo z izzivom premika porazdelitve, kjer se porazdelitev podatkov razlikuje od tiste, ki bi jo ustvarila trenutna politika, kar včasih povzroči nestabilnost ali razhajanje. Tehnike, kot so ciljna omrežja, vzorčenje po pomembnosti in omejitve politik, pomagajo ublažiti te težave, vendar povečujejo kompleksnost.

Strategije raziskovanja

Pri učenju na podlagi politik je raziskovanje neločljivo povezano s trenutno politiko, kar se pogosto doseže s stohastično izbiro dejanj ali entropijskimi bonusi. Učenje izven politik ločuje raziskovanje od učenja, kar omogoča ločene vedenjske politike, ki lahko raziskujejo na široko, medtem ko se ciljna politika uči izkoriščati. Ta ločitev omogoča sofisticirane strategije raziskovanja, kot so epsilon-pohlepne politike z upadajočimi urniki ali vedenjske politike, ki jih poganja radovednost.

Praktične aplikacije

Metode, ki temeljijo na pravilnikih, prevladujejo na področjih, kjer je simulacija poceni in je stabilnost pomembna, kot sta na primer usposabljanje igralnih agentov in fino uglaševanje velikih jezikovnih modelov z RLHF. Metode, ki ne temeljijo na pravilnikih, so odlične v robotiki, kjer je zbiranje podatkov iz resničnega sveta drago, in v sistemih priporočil, kjer obsežni dnevniki uporabniških interakcij zagotavljajo bogate podatke za učenje. Izbira je pogosto odvisna od tega, ali imate obilo simulacij ali dragocene podatke iz resničnega sveta.

Prednosti in slabosti

Učenje na podlagi politik

Prednosti

+ Bolj stabilna vadba
+ Enostavnejša izvedba
+ Predpomnilnik za ponovno predvajanje ni potreben
+ Neposredna optimizacija politik

Vse

− Nižja učinkovitost vzorca
− Zahteva sveže podatke
− Počasnejši trening s stensko uro
− Omejena ponovna uporaba podatkov

Učenje izven politik

Prednosti

+ Visoka učinkovitost vzorca
+ Ponovno uporablja pretekle podatke
+ Uči se iz demonstracij
+ Nevezano raziskovanje

Vse

− Tveganje nestabilnosti treninga
− Večji pomnilniški odtis
− Težave s premikom distribucije
− Bolj zapleteni algoritmi

Pogoste zablode

Mit

Učenje izven politik je vedno boljše, ker ponovno uporablja podatke.

Resničnost

Čeprav so metode, ki ne temeljijo na pravilih, učinkovitejše pri vzorčenju, pogosto trpijo zaradi nestabilnosti učenja in zahtevajo skrbno nastavitev tehnik, kot so ciljna omrežja in vzorčenje po pomembnosti. Metode, ki temeljijo na pravilih, lahko prekašajo pristope, ki ne temeljijo na pravilih, v okoljih, kjer je simulacija poceni in je stabilnost najpomembnejša.

Mit

Učenje na podlagi politik ne more uporabljati preteklih podatkov.

Resničnost

Metode, ki so skladne s pravilniki, lahko tehnično uporabljajo pretekle podatke, vendar to zahteva popravke vzorčenja zaradi pomembnosti, ki uvajajo veliko varianco. V praksi najbolje delujejo s svežimi podatki iz trenutnega pravilnika, zato algoritmi, kot je PPO, zbirajo uvedbe, se na njih učijo in jih zavržejo.

Mit

Q-učenje ni v skladu s politiko, ker se uči optimalne vrednosti dejanja.

Resničnost

Q-učenje je razvrščeno kot učenje izven politike, ker se uči o optimalni politiki, medtem ko med raziskovanjem potencialno sledi drugačni politiki vedenja. Cilj, iz katerega se zaganja, predpostavlja pohlepno izbiro dejanj, ki se lahko razlikuje od dejanj, ki so bila dejansko izvedena za ustvarjanje podatkov.

Mit

Vsi algoritmi za globoko učenje z okrepitvijo so izven politike.

Resničnost

Številni priljubljeni algoritmi globokega učenja v realnem času (GLO) so v skladu s pravilniki, vključno s PPO, A2C in TRPO. Razlika med algoritmi v skladu s pravilniki in algoritmi izven pravilnikov obstaja neodvisno od tega, ali se uporabljajo nevronske mreže, in obe kategoriji imata uspešne implementacije globokega učenja.

Mit

Učenje izven politik vedno hitreje konvergira kot učenje na politiki.

Resničnost

Hitrost konvergence je odvisna od okolja in implementacije. Metode, ki niso v skladu s pravilniki, morda potrebujejo manj interakcij z okoljem, vendar pogosto zahtevajo več posodobitev gradientov in skrbno uglaševanje hiperparametrov. Pri nekaterih nalogah metode, ki so v skladu s pravilniki, hitreje dosežejo dobre pravilnike v času stenske ure kljub uporabi več vzorcev.

Pogosto zastavljena vprašanja

Kakšna je glavna razlika med učenjem na podlagi politik in učenjem izven politik?

Ključna razlika je v razmerju med podatki, ki ustvarjajo politiko, in politiko, ki se uči. Metode na podlagi politik izboljšujejo isto politiko, ki zbira izkušnje, medtem ko se metode zunaj politik učijo iz podatkov, ki jih ustvarja druga politika. To vpliva na učinkovitost vzorca, stabilnost in vrste podatkov, ki jih lahko uporabi vsak pristop.

Kaj je bolj učinkovito pri vzorčenju, v skladu s politiko ali zunaj nje?

Metode, ki niso v skladu s pravili, so na splošno učinkovitejše pri vzorčenju, ker lahko ponovno uporabijo pretekle izkušnje prek medpomnilnikov za ponovno predvajanje. Algoritmi, kot sta SAC in DQN, se lahko iz enega samega prehoda učijo večkrat, medtem ko metode, ki so v skladu s pravili, kot je PPO, običajno vsak prehod uporabijo le enkrat, preden ga zavržejo.

Ali je PPO v skladu s politiko ali ne?

PPO (Proximal Policy Optimization) je algoritem, ki deluje na podlagi pravilnika. Zbira uvedbe z uporabo trenutnega pravilnika, se nekaj časovnih obdobij uči na teh podatkih, nato pa podatke zavrže in zbere nove vzorce. Kljub tej neučinkovitosti PPO ostaja priljubljen zaradi svoje stabilnosti in zanesljivega delovanja pri različnih nalogah.

Ali lahko učenje izven politik uporablja podatke iz človeških demonstracij?

Da, to je ena glavnih prednosti učenja izven politik. Algoritme je mogoče inicializirati ali predhodno usposobiti z uporabo demonstracijskih podatkov ljudi, nato pa se učenje nadaljuje s samoraziskovanjem. Ta pristop, pogosto imenovan učenje iz demonstracij ali inicializacija imitacijskega učenja, se pogosto uporablja v robotiki, kjer strokovni primeri pospešujejo učenje.

Zakaj ima učenje izven politik težave s stabilnostjo?

Metode, ki niso v skladu s pravili, se soočajo s smrtonosnim problemom triade: kombiniranje aproksimacije funkcij, samodejnega zagonskega algoritma in podatkov, ki niso v skladu s pravili, lahko privede do razhajanj. Ko se vrednostna funkcija aproksimira z nevronskimi mrežami in posodobi z uporabo ciljev iz druge porazdelitve, se lahko napake seštevajo. Tehnike, kot so ciljne mreže, dvojno Q-učenje in konzervativne posodobitve, pomagajo pri reševanju tega problema.

Kaj je vzorčenje po pomembnosti pri učenju izven politik?

Vzorčenje pomembnosti je statistična tehnika, ki popravi neskladje v porazdelitvi med vedenjsko politiko in ciljno politiko. Posodobitve ponovno ponderira z razmerjem verjetnosti v okviru vsake politike, kar omogoča popravke zunaj politike pri metodah gradienta politik. Vendar ima lahko to razmerje veliko varianco, kar omejuje praktično uporabnost.

Kateri pristop je boljši za robotske aplikacije?

Metode, ki niso povezane s pravilniki, so običajno prednostne za robotiko, ker so interakcije v resničnem svetu drage in dolgotrajne. Algoritmi, kot sta SAC in TD3, se lahko naučijo kompleksnih manipulacijskih nalog iz omejenih podatkov s ponovno uporabo izkušenj. Vendar pa se metode, ki so povezane s pravilniki, včasih uporabljajo v simulaciji robotov, preden se naučene pravilnike prenesejo na strojno opremo.

Ali je Q-učenje v skladu s politiko ali ne?

Q-učenje ni vezano na pravila. Uči se vrednosti najboljšega možnega ukrepanja v vsakem stanju, ne glede na to, katero dejanje je agent dejansko izvedel med raziskovanjem. To mu omogoča, da se nauči optimalnega vedenja tudi pri sledenju naključnemu ali raziskovalnemu pravilu, zato dobro deluje s ponavljanjem izkušenj v DQN.

Kakšna je povezava med ponavljanjem izkušenj in tistimi, ki so v skladu s pravili, in tistimi, ki niso?

Ponovno predvajanje izkušenj je predvsem povezano z učenjem izven pravilnikov, ker shranjuje in ponovno uporablja pretekle prehode, ki so jih morda ustvarili starejši pravilniki. Metode, ki temeljijo na pravilnikih, se običajno izogibajo medpomnilnikom za ponovno predvajanje, saj ponovna uporaba starih podatkov krši predpostavko o pravilnikih, čeprav obstajajo tudi nekateri hibridni pristopi.

Ali lahko kombinirate metode, ki so v skladu s politiko, in metode, ki niso v skladu s politiko?

Da, obstajajo hibridni pristopi. Nekateri algoritmi uporabljajo podatke, ki niso v skladu s pravili, za predhodno učenje ali kot pomožne cilje, medtem ko so primarno v skladu s pravili. Metode akter-kritik pogosto združujejo oboje, kjer se kritik lahko uči izven pravil, medtem ko akter posodablja podatke v skladu s pravili. Raziskave metod, ki združujejo najboljše iz obeh svetov, se nadaljujejo.

Ocena

Izberite učenje na podlagi pravilnikov, kadar potrebujete stabilnost učenja in imate dostop do poceni simulacijskih okolij, zlasti za naloge, kot so umetna inteligenca v igrah ali metode gradienta pravilnikov v jezikovnih modelih. Za učenje zunaj pravilnikov se odločite, kadar je učinkovitost vzorčenja ključnega pomena, kadar je zbiranje podatkov drago ali kadar se morate učiti iz obstoječih naborov podatkov, kot so demonstracije ali zabeležene interakcije.

Povezane primerjave

A/B testiranje pri izdajah vsebin v primerjavi z enkratnimi izdajami vsebin

A/B testiranje pri izdajah vsebin vključuje uvajanje različic za različne segmente občinstva in merjenje uspešnosti, medtem ko enkratne izdaje vsebin hkrati vsem ponudijo eno različico. Vsak pristop ustreza različnim ciljem, pri čemer A/B testiranje daje prednost optimizaciji, ki temelji na podatkih, enkratne izdaje pa dajejo prednost hitrosti in preprostosti.

A/B testiranje pri streženju modelov v primerjavi z uvajanjem enega modela

A/B testiranje pri streženju modelov usmerja promet med konkurenčnimi različicami modelov za merjenje učinkovitosti v resničnem svetu, medtem ko uvedba enega modela vsem uporabnikom dostavi en model. Ekipe izbirajo med njimi glede na toleranco tveganja, količino prometa in potrebo po statistični potrditvi pred popolno uvedbo.

Agenti umetne inteligence v primerjavi s tradicionalnimi spletnimi aplikacijami

Agenti umetne inteligence so avtonomni, ciljno usmerjeni sistemi, ki lahko načrtujejo, sklepajo in izvajajo naloge v različnih orodjih, medtem ko tradicionalne spletne aplikacije sledijo fiksnim delovnim procesom, ki jih vodijo uporabniki. Primerjava poudarja premik od statičnih vmesnikov k prilagodljivim, kontekstualno ozaveščenim sistemom, ki lahko proaktivno pomagajo uporabnikom, avtomatizirajo odločitve in dinamično komunicirajo med več storitvami.

Agenti, ki temeljijo na pravilih, v primerjavi z agenti, ki temeljijo na učenju

Ta arhitekturna primerjava primerja deterministično inženirstvo agentov, ki temeljijo na pravilih, s prilagodljivo naravo učnih agentov, ki temeljijo na podatkih, ter ocenjuje njihovo uporabnost v resničnem svetu, omejitve skaliranja in delovanje v negotovosti.

Agentski sistemi umetne inteligence v primerjavi s tradicionalnimi klepetalniki za LLM

Agentni sistemi umetne inteligence lahko načrtujejo, izvajajo večstopenjske naloge in avtonomno komunicirajo z zunanjimi orodji, medtem ko tradicionalni klepetalni roboti LLM primarno ustvarjajo besedilne odgovore v enem samem pogovornem koraku. Ključna razlika je v agenciji: agentni sistemi delujejo na podlagi ciljev, medtem ko klepetalni roboti reagirajo na pozive.