învățare prin consolidareînvățare automatăinteligenţă artificialăoptimizarea politiciloralgoritmi rl

Învățare bazată pe politici vs. învățare în afara politicilor

Învățarea bazată pe politici și învățarea în afara politicilor sunt două abordări fundamentale în învățarea prin consolidare care diferă prin modul în care agenții adună și utilizează experiența. Metodele bazate pe politici învață din acțiunile pe care agentul le întreprinde efectiv, în timp ce metodele în afara politicilor pot învăța din datele colectate de alte politici sau din comportamentul trecut.

Evidențiate

Metodele bazate pe politici învață doar din acțiunile politicii curente, în timp ce metodele în afara politicii pot valorifica orice sursă de date.
Învățarea în afara politicilor oferă o eficiență superioară a eșantionării prin reluarea experienței, fiind ideală pentru robotica din lumea reală.
Algoritmii bazați pe politici, cum ar fi PPO, oferă o instruire mai stabilă cu prețul necesității unor date proaspete la fiecare iterație.
Abordările în afara politicilor permit învățarea din demonstrațiile umane și din jurnalele istorice pe care metodele bazate pe politici nu le pot utiliza.

Ce este Învățare bazată pe politici?

O abordare a învățării prin consolidare în care agentul învață din acțiunile pe care le efectuează în prezent în cadrul aceleiași politici care este îmbunătățită.

Metodele bazate pe politici evaluează și îmbunătățesc aceeași politică utilizată pentru luarea deciziilor în timpul instruirii.
SARSA (State-Action-Reward-State-Action) este un algoritm clasic bazat pe politici care se actualizează în funcție de următoarea acțiune efectiv întreprinsă.
PPO (Proximal Policy Optimization) și A2C (Advantage Actor-Critic) sunt algoritmi on-policy utilizați pe scară largă în RL profund modern.
Învățarea bazată pe politici necesită de obicei date proaspete din politica actuală, ceea ce o face mai puțin eficientă din punct de vedere al eșantionării decât alternativele în afara politicii.
Aceste metode tind să fie mai stabile în timpul antrenamentului, deoarece optimizează direct politica implementată.

Ce este Învățare în afara politicilor?

O abordare a învățării prin consolidare în care agentul învață din experiențele generate de o politică diferită de cea optimizată.

Metodele în afara politicii pot învăța din datele colectate de orice politică, inclusiv date istorice sau demonstrații umane.
Q-learning este algoritmul fundamental în afara politicilor, care învață valoarea acțiunilor optime indiferent de acțiunea întreprinsă.
Rețelele Q profunde (DQN) au extins învățarea Q pentru a gestiona spații de stare de înaltă dimensionalitate folosind rețele neuronale.
Algoritmii în afara politicilor precum DDPG, TD3 și SAC au devenit standard pentru sarcinile de control continuu în robotică.
Bufferele de reluare a experienței permit metodelor care nu respectă politicile să reutilizeze tranzițiile anterioare, îmbunătățind dramatic eficiența eșantionării.

Tabel comparativ

Funcție	Învățare bazată pe politici	Învățare în afara politicilor
Sursă de date	Numai din politica actuală	Orice politică sau date istorice
Eficiența eșantionului	Mai mic, necesită date noi	Mai mare, reutilizează experiența trecută
Stabilitatea antrenamentului	În general, mai stabil	Poate fi mai puțin stabil din cauza schimbării distribuției
Explorare	Legat de politica actuală	Decuplat de politica de comportament
Exemple de algoritmi	SARSA, PPO, A2C, REINFORCE	Q-Learning, DQN, DDPG, SAC, TD3
Cerințe de memorie	Mai mic, nu este nevoie de buffer de redare	Mai mare, necesită buffere de redare mari
Cazuri de utilizare comune	Inteligență artificială în jocuri, simulare robotică, modele lingvistice	Robotică, sisteme de recomandare, conducere autonomă
Compromisul dintre bias și varianță	Varianță mai mică, o oarecare prejudecată	Prejudecată mai mică, varianță mai mare

Comparație detaliată

Mecanismul de învățare de bază

Distincția fundamentală constă în politica care generează datele de antrenament. Învățarea bazată pe politici evaluează și îmbunătățește politica exactă urmată în timpul explorării, ceea ce înseamnă că fiecare actualizare reflectă acțiunile pe care agentul le-ar întreprinde efectiv. Învățarea în afara politicilor separă complet aceste aspecte, permițând agentului să învețe comportamentul optim din datele care ar fi putut fi colectate de o versiune mai veche a sa, de o politică aleatorie sau chiar de un demonstrator uman.

Eficiența eșantionului și reutilizarea datelor

Metodele care nu respectă politicile sunt ideale atunci când datele sunt scumpe sau rare. Prin stocarea tranzițiilor într-un buffer de redare și eșantionarea repetată din acesta, algoritmi precum DQN și SAC pot extrage valoarea maximă de învățare din fiecare interacțiune cu mediul. Metodele care respectă politicile elimină de obicei datele după o singură utilizare, ceea ce funcționează bine în mediile de simulare ieftine, dar devine impracticabil atunci când fiecare interacțiune costă timp real sau bani, cum ar fi în robotica fizică.

Stabilitate și Convergență

Abordările bazate pe politici oferă, în general, o convergență mai previzibilă, deoarece politica optimizată este întotdeauna cea care generează date, eliminând nepotrivirea distribuției. Metodele în afara politicilor se confruntă cu provocarea schimbării distribuției, unde distribuția datelor se abate de la ceea ce ar produce politica actuală, provocând uneori instabilitate sau divergență. Tehnici precum rețelele țintă, eșantionarea importanței și constrângerile politicilor ajută la atenuarea acestor probleme, dar adaugă complexitate.

Strategii de explorare

În învățarea bazată pe politici, explorarea este inerent legată de politica curentă, adesea realizată prin selecție stocastică de acțiuni sau bonusuri de entropie. Învățarea în afara politicilor decuplează explorarea de învățare, permițând politici comportamentale separate care pot explora pe scară largă, în timp ce politica țintă învață să exploateze. Această separare permite strategii sofisticate de explorare, cum ar fi epsilon-greedy cu programe decăzute sau politici comportamentale bazate pe curiozitate.

Aplicații practice

Metodele bazate pe politici (ON-policy) domină în domeniile în care simularea este ieftină, iar stabilitatea contează, cum ar fi antrenarea agenților de jocuri și reglarea fină a modelelor lingvistice mari cu RLHF. Metodele în afara politicilor excelează în robotică, unde colectarea datelor din lumea reală este costisitoare, și în sistemele de recomandare, unde jurnalele masive ale interacțiunilor utilizatorilor oferă date bogate în antrenament. Alegerea depinde adesea de faptul dacă aveți la dispoziție o simulare abundentă sau date valoroase din lumea reală.

Avantaje și dezavantaje

Învățare bazată pe politici

Avantaje

+ Antrenament mai stabil
+ Implementare mai simplă
+ Nu este nevoie de buffer de redare
+ Optimizarea directă a politicilor

Conectare

− Eficiență mai mică a eșantionului
− Necesită date proaspete
− Antrenament mai lent cu ceasul de perete
− Reutilizare limitată a datelor

Învățare în afara politicilor

Avantaje

+ Eficiență ridicată a eșantionării
+ Reutilizează datele anterioare
+ Învață din demonstrații
+ Explorare decuplată

Conectare

− Riscul de instabilitate în antrenament
− Amprentă de memorie mai mare
− Probleme de schimbare a distribuției
− Algoritmi mai complecși

Idei preconcepute comune

Mit

Învățarea în afara politicilor este întotdeauna mai bună deoarece reutilizează datele.

Realitate

Deși metodele în afara politicilor sunt mai eficiente din punct de vedere al eșantionării, acestea suferă adesea de instabilitate a antrenamentului și necesită o ajustare atentă a tehnicilor precum rețelele țintă și eșantionarea importanței. Metodele în funcție de politici pot depăși performanța abordărilor în afara politicilor în mediile în care simularea este ieftină, iar stabilitatea este primordială.

Mit

Învățarea bazată pe politici nu poate utiliza date anterioare.

Realitate

Metodele bazate pe politici pot utiliza din punct de vedere tehnic date anterioare, dar acest lucru necesită corecții de eșantionare a importanței care introduc o varianță ridicată. În practică, acestea funcționează cel mai bine cu date proaspete din politica actuală, motiv pentru care algoritmi precum PPO colectează implementări, se antrenează pe baza lor și le elimină.

Mit

Q-learning este în afara politicii, deoarece învață valoarea optimă a acțiunii.

Realitate

Q-learning este clasificat ca fiind off-policy deoarece învață despre politica optimă în timp ce, eventual, urmează o politică de comportament diferită în timpul explorării. Ținta de la care pornește presupune o selecție greedy a acțiunilor, care poate diferi de acțiunile întreprinse efectiv pentru a genera date.

Mit

Toți algoritmii de învățare prin armare profundă sunt în afara politicii.

Realitate

Mulți algoritmi populari de deep learning sunt on-policy (în conformitate cu politica), inclusiv PPO, A2C și TRPO. Distincția dintre on-policy (în conformitate cu politica) și off-policy (în afara politicii) există independent de utilizarea sau nu a rețelelor neuronale, iar ambele categorii au implementări de succes ale deep learning-ului.

Mit

Învățarea în afara politicilor converge întotdeauna mai rapid decât învățarea în baza politicilor.

Realitate

Viteza de convergență depinde de mediu și de implementare. Metodele care nu respectă politicile pot necesita mai puține interacțiuni cu mediul, dar adesea necesită mai multe actualizări ale gradienților și o reglare atentă a hiperparametrilor. În unele sarcini, metodele care respectă politicile ating politici bune mai rapid în timp util, chiar dacă utilizează mai multe eșantioane.

Întrebări frecvente

Care este principala diferență dintre învățarea bazată pe politici și cea în afara acestora?

Diferența cheie constă în relația dintre politica care generează date și politica care este învățată. Metodele bazate pe politică îmbunătățesc aceeași politică care colectează experiență, în timp ce metodele în afara politicii învață din datele generate de o politică diferită. Acest lucru afectează eficiența eșantionului, stabilitatea și tipurile de date pe care fiecare abordare le poate utiliza.

Care este mai eficient din punct de vedere al eșantionării, conform politicii sau în afara acesteia?

Metodele care nu respectă politicile sunt în general mai eficiente din punct de vedere al eșantionării, deoarece pot reutiliza experiențele anterioare prin intermediul bufferelor de redare. Algoritmii precum SAC și DQN pot învăța de la o singură tranziție de mai multe ori, în timp ce metodele care respectă politicile, precum PPO, utilizează de obicei fiecare tranziție o singură dată înainte de a o elimina.

PPO este conform politicii sau nu?

PPO (Proximal Policy Optimization - Optimizare a Politicilor Proximale) este un algoritm bazat pe politici. Acesta colectează implementări folosind politica curentă, se antrenează pe baza acestor date timp de câteva epoci, apoi elimină datele și colectează mostre noi. În ciuda acestei ineficiențe, PPO rămâne popular datorită stabilității și performanței sale fiabile în diverse sarcini.

Poate învățarea în afara politicilor să utilizeze date din demonstrații umane?

Da, acesta este unul dintre principalele avantaje ale învățării în afara politicilor. Algoritmii pot fi inițializați sau pre-antrenați folosind date demonstrative de la oameni, apoi pot continua învățarea prin auto-explorare. Această abordare, adesea numită învățare din demonstrație sau inițializare a învățării prin imitație, este utilizată pe scară largă în robotică, unde exemplele experte accelerează învățarea.

De ce are probleme de stabilitate învățarea în afara politicilor?

Metodele care nu respectă politicile se confruntă cu problema triadei: combinarea aproximării funcțiilor, a bootstrap-ului și a datelor care nu respectă politicile poate duce la divergență. Atunci când funcția valoare este aproximată cu rețele neuronale și actualizată folosind ținte dintr-o distribuție diferită, erorile se pot acumula. Tehnici precum rețelele țintă, învățarea dublă Q și actualizările conservative ajută la rezolvarea acestei probleme.

Ce este eșantionarea importantă în învățarea în afara politicilor?

Eșantionarea importanței este o tehnică statistică ce corectează nepotrivirea distribuției dintre politica de comportament și politica țintă. Aceasta reponderează actualizările prin raportul probabilităților pentru fiecare politică, permițând corecții în afara politicii în metodele gradientului de politică. Cu toate acestea, acest raport poate avea o varianță mare, limitând aplicabilitatea practică.

Care abordare este mai bună pentru aplicațiile robotice?

Metodele în afara politicilor sunt de obicei preferate în robotică, deoarece interacțiunile din lumea reală sunt costisitoare și consumatoare de timp. Algoritmi precum SAC și TD3 pot învăța sarcini complexe de manipulare din date limitate prin reutilizarea experiențelor. Cu toate acestea, metodele bazate pe politici sunt uneori utilizate în simularea roboților înainte de transferul politicilor învățate către hardware.

Q-learning este conform politicilor sau în afara acestora?

Q-learning este în afara politicilor. Învață valoarea luării celei mai bune acțiuni posibile în fiecare stare, indiferent de acțiunea întreprinsă de agent în timpul explorării. Acest lucru îi permite să învețe comportamentul optim chiar și atunci când urmează o politică aleatorie sau exploratorie, motiv pentru care funcționează bine cu reluarea experienței în DQN.

Cum se leagă reluarea experienței de respectarea politicii față de cea în afara acesteia?

Reluarea experienței este asociată în principal cu învățarea în afara politicilor, deoarece stochează și reutilizează tranzițiile anterioare care ar fi putut fi generate de politici mai vechi. Metodele bazate pe politici evită, în general, bufferele de reluare, deoarece reutilizarea datelor vechi încalcă presupunerea de baza pe politici, deși există unele abordări hibride.

Poți combina metode bazate pe politici și metode în afara acestora?

Da, există abordări hibride. Unii algoritmi folosesc date în afara politicilor pentru pre-antrenament sau ca obiective auxiliare, fiind în principal în conformitate cu politica. Metodele actor-critic combină adesea ambele, criticul putând învăța informații în afara politicilor, în timp ce actorul actualizează informațiile în conformitate cu politica. Cercetările continuă asupra metodelor care obțin ce e mai bun din ambele lumi.

Verdict

Alegeți învățarea bazată pe politici atunci când aveți nevoie de stabilitate în antrenament și aveți acces la medii de simulare ieftine, în special pentru sarcini precum inteligența artificială în jocuri sau metode de gradient de politici în modele lingvistice. Optați pentru învățarea în afara politicilor atunci când eficiența eșantionului este critică, colectarea datelor este costisitoare sau trebuie să învățați din seturi de date existente, cum ar fi demonstrații sau interacțiuni înregistrate.

Comparații conexe

Abordări de învățare prin grafuri temporale vs. modelare secvențială

Această comparație analizează principalele diferențe structurale, cazurile practice de utilizare și compromisurile de performanță dintre învățarea grafică temporală și modelarea secvențială tradițională. În timp ce modelarea secvențială surprinde progresii liniare, cum ar fi textul sau datele din serii temporale, învățarea grafică temporală procesează simultan interacțiunile rețelei și relațiile care evoluează în timp, oferindu-vă un plan complet pentru alegerea arhitecturii potrivite.

Actualizări ale modelului în timp real vs. reantrenarea modelului în loturi

Actualizările modelelor în timp real și reantrenarea modelelor în loturi reprezintă două abordări fundamental diferite pentru menținerea sistemelor de învățare automată la zi. Metodele în timp real se adaptează instantaneu la datele noi, în timp ce reantrenarea în loturi reconstruiește modelele la intervale programate folosind seturi de date acumulate.

Actualizări ale versiunii LLM vs. întreținerea modelului Legacy

Actualizările versiunilor LLM se concentrează pe implementarea unor modele lingvistice mai noi și mai capabile, cu raționament și funcții îmbunătățite, în timp ce întreținerea modelelor vechi menține sistemele de inteligență artificială mai vechi funcționând în mod fiabil. Organizațiile trebuie să cântărească inovația versus stabilitate atunci când decid între actualizarea sau menținerea modelelor existente.

Actualizări de grafice bazate pe evenimente vs. procesare grafică în lot

Această analiză detaliată explorează diferențele fundamentale dintre actualizările grafice bazate pe evenimente și procesarea grafică în loturi în cadrul arhitecturilor de inteligență artificială. În timp ce conductele bazate pe evenimente gestionează fluxul continuu, mutațiile neregulate ale topologiei rețelei, procesarea în loturi consolidează modificările în rulări de calcul programate și complexe pentru a maximiza debitul sistemului și saturația hardware-ului.

Adaptarea domeniului vs. antrenamentul în domeniu

Această comparație analizează alegerile strategice în învățarea automată între Adaptarea Domeniului, care transferă cunoștințe dintr-un mediu sursă etichetat către un mediu țintă diferit, și Antrenamentul în Domeniu, care construiește modele în întregime pe baza datelor colectate din setarea exactă de implementare țintă.