aprenentatge per reforçaprenentatge automàticintel·ligència artificialoptimització de polítiquesalgoritmes rl
Aprenentatge sobre polítiques vs. aprenentatge fora de polítiques
L'aprenentatge basat en polítiques i l'aprenentatge fora de polítiques són dos enfocaments fonamentals en l'aprenentatge per reforç que difereixen en la manera com els agents recopilen i utilitzen l'experiència. Els mètodes basats en polítiques aprenen de les accions que l'agent realment fa, mentre que els mètodes fora de polítiques poden aprendre de les dades recollides per altres polítiques o comportaments passats.
Destacats
Els mètodes basats en polítiques només aprenen de les accions de la política actual, mentre que els mètodes fora de polítiques poden aprofitar qualsevol font de dades.
L'aprenentatge fora de polítiques ofereix una eficiència de mostra superior mitjançant la reproducció de l'experiència, cosa que el fa ideal per a la robòtica del món real.
Els algoritmes basats en polítiques com el PPO proporcionen un entrenament més estable a costa de necessitar dades noves a cada iteració.
Els enfocaments fora de polítiques permeten aprendre de demostracions humanes i registres històrics que els mètodes basats en polítiques no poden utilitzar.
Què és Aprenentatge sobre polítiques?
Un enfocament d'aprenentatge per reforç on l'agent aprèn de les accions que realitza actualment sota la mateixa política que s'està millorant.
Els mètodes basats en polítiques avaluen i milloren la mateixa política utilitzada per prendre decisions durant la formació.
SARSA (Estat-Acció-Recompensa-Estat-Acció) és un algoritme clàssic de política que s'actualitza en funció de la següent acció que es duu a terme.
PPO (Proximal Policy Optimization) i A2C (Advantage Actor-Critic) són algoritmes de política àmpliament utilitzats en l'aprenentatge profund modern.
L'aprenentatge basat en polítiques normalment requereix dades noves de la política actual, cosa que el fa menys eficient a l'hora de mostrar que les alternatives fora de polítiques.
Aquests mètodes tendeixen a ser més estables durant l'entrenament perquè optimitzen directament la política que s'està implementant.
Què és Aprenentatge fora de polítiques?
Un enfocament d'aprenentatge per reforç on l'agent aprèn de les experiències generades per una política diferent de la que s'està optimitzant.
Els mètodes fora de política poden aprendre de les dades recollides per qualsevol política, incloses les dades històriques o les demostracions humanes.
L'aprenentatge Q és l'algoritme fonamental fora de polítiques, que aprèn el valor de les accions òptimes independentment de l'acció realitzada.
Les xarxes Q profundes (DQN) van ampliar l'aprenentatge Q per gestionar espais d'estat d'alta dimensionalitat mitjançant xarxes neuronals.
Els algoritmes fora de política com ara DDPG, TD3 i SAC s'han convertit en estàndard per a tasques de control continu en robòtica.
Els buffers de reproducció d'experiència permeten que els mètodes fora de política reutilitzin transicions anteriors, millorant dràsticament l'eficiència de la mostra.
Taula comparativa
Funcionalitat
Aprenentatge sobre polítiques
Aprenentatge fora de polítiques
Font de dades
Només de la política actual
Qualsevol política o dada històrica
Eficiència de la mostra
Més baix, necessita dades noves
Superior, reutilitza l'experiència passada
Estabilitat d'entrenament
Generalment més estable
Pot ser menys estable a causa del canvi de distribució
Exploració
Vinculat a la política actual
Desvinculat de la política de comportament
Exemples d'algoritmes
SARSA, PPO, A2C, REFORÇ
Q-Learning, DQN, DDPG, SAC, TD3
Requisits de memòria
Més baix, no cal memòria intermèdia de reproducció
Més alt, requereix grans buffers de reproducció
Casos d'ús comuns
IA de jocs, simulació robòtica, models de llenguatge
Robòtica, sistemes de recomanació, conducció autònoma
Compromis entre biaix i variància
Variància més baixa, cert biaix
Menys biaix, més variància
Comparació detallada
Mecanisme bàsic d'aprenentatge
La distinció fonamental rau en quina política genera les dades d'entrenament. L'aprenentatge sobre polítiques avalua i millora la política exacta que es segueix durant l'exploració, és a dir, que cada actualització reflecteix les accions que l'agent realment duria a terme. L'aprenentatge fora de polítiques separa completament aquestes preocupacions, permetent a l'agent aprendre el comportament òptim a partir de dades que poden haver estat recollides per una versió anterior d'ell mateix, una política aleatòria o fins i tot un demostrador humà.
Eficiència de la mostra i reutilització de dades
Els mètodes fora de política destaquen quan les dades són cares o escasses. En emmagatzemar transicions en un buffer de reproducció i mostrejar-ne repetidament, algoritmes com DQN i SAC poden extreure el màxim valor d'aprenentatge de cada interacció amb l'entorn. Els mètodes segons la política solen descartar les dades després d'un sol ús, cosa que funciona bé en entorns de simulació barats però es torna poc pràctica quan cada interacció costa temps o diners reals, com ara en la robòtica física.
Estabilitat i Convergència
Els mètodes basats en polítiques generalment ofereixen una convergència més predictible perquè la política que s'optimitza sempre és la que genera dades, eliminant els desajustos de distribució. Els mètodes fora de polítiques s'enfronten al repte del canvi de distribució, on la distribució de dades es desvia del que produiria la política actual, de vegades causant inestabilitat o divergència. Tècniques com les xarxes objectiu, el mostreig d'importància i les restriccions de polítiques ajuden a mitigar aquests problemes, però afegeixen complexitat.
Estratègies d'exploració
Amb l'aprenentatge basat en polítiques, l'exploració està inherentment lligada a la política actual, sovint aconseguida mitjançant la selecció d'accions estocàstiques o les bonificacions d'entropia. L'aprenentatge fora de polítiques desacobla l'exploració de l'aprenentatge, permetent polítiques de comportament separades que poden explorar àmpliament mentre la política objectiu aprèn a explotar. Aquesta separació permet estratègies d'exploració sofisticades com ara la cobdícia d'èpsilon amb programacions decaients o polítiques de comportament impulsades per la curiositat.
Aplicacions pràctiques
Els mètodes basats en polítiques dominen en dominis on la simulació és barata i l'estabilitat importa, com ara l'entrenament d'agents de jocs i l'afinament de models de llenguatge grans amb RLHF. Els mètodes fora de polítiques excel·leixen en robòtica, on la recopilació de dades del món real és costosa, i en sistemes de recomanació, on registres massius d'interaccions dels usuaris proporcionen dades d'entrenament riques. L'elecció sovint depèn de si es disposa de simulació abundant o de dades valuoses del món real.
Avantatges i Inconvenients
Aprenentatge sobre polítiques
Avantatges
+Entrenament més estable
+Implementació més senzilla
+No cal memòria intermèdia de reproducció
+Optimització de polítiques directes
Consumit
−Menor eficiència de mostra
−Requereix dades noves
−Entrenament més lent amb rellotge de paret
−Reutilització limitada de dades
Aprenentatge fora de polítiques
Avantatges
+Alta eficiència de mostra
+Reutilitza dades anteriors
+Aprèn de les demostracions
+Exploració desacoblada
Consumit
−Risc d'inestabilitat en l'entrenament
−Més petjada de memòria
−Problemes de canvi de distribució
−Algoritmes més complexos
Conceptes errònies habituals
Mite
L'aprenentatge fora de polítiques sempre és millor perquè reutilitza les dades.
Realitat
Tot i que els mètodes fora de política són més eficients en el mostreig, sovint pateixen inestabilitat d'entrenament i requereixen un ajustament acurat de tècniques com les xarxes objectiu i el mostreig d'importància. Els mètodes basats en polítiques poden superar els enfocaments fora de polítiques en entorns on la simulació és barata i l'estabilitat és primordial.
Mite
L'aprenentatge sobre polítiques no pot utilitzar cap dada passada.
Realitat
Els mètodes basats en polítiques poden utilitzar tècnicament dades passades, però fer-ho requereix correccions de mostreig d'importància que introdueixen una alta variància. A la pràctica, funcionen millor amb dades noves de la política actual, motiu pel qual els algoritmes com PPO recopilen desplegaments, s'hi entrenen i els descarten.
Mite
L'aprenentatge qualitatiu està fora de política perquè aprèn el valor d'acció òptim.
Realitat
L'aprenentatge Q es classifica com a fora de política perquè aprèn sobre la política òptima mentre potencialment segueix una política de comportament diferent durant l'exploració. L'objectiu des del qual s'inicia assumeix una selecció d'accions voraces, que pot diferir de les accions realment realitzades per generar dades.
Mite
Tots els algoritmes d'aprenentatge per reforç profund no compleixen amb la política.
Realitat
Molts algoritmes populars d'aprenentatge profund (Deep Learning) estan subjectes a polítiques, com ara PPO, A2C i TRPO. La distinció entre les polítiques subjectes a polítiques i les no subjectes a polítiques existeix independentment de si s'utilitzen xarxes neuronals, i ambdues categories tenen implementacions d'aprenentatge profund reeixides.
Mite
L'aprenentatge fora de polítiques sempre convergeix més ràpid que l'aprenentatge sobre polítiques.
Realitat
La velocitat de convergència depèn de l'entorn i la implementació. Els mètodes fora de política poden necessitar menys interaccions amb l'entorn, però sovint requereixen més actualitzacions de gradient i un ajustament acurat dels hiperparàmetres. En algunes tasques, els mètodes dins de la política aconsegueixen bones polítiques més ràpidament en temps real tot i utilitzar més mostres.
Preguntes freqüents
Quina és la principal diferència entre l'aprenentatge basat en polítiques i l'aprenentatge fora de polítiques?
La diferència clau és la relació entre la política que genera dades i la política que s'aprèn. Els mètodes basats en polítiques milloren la mateixa política que recopila experiència, mentre que els mètodes fora de polítiques aprenen de les dades generades per una política diferent. Això afecta l'eficiència de la mostra, l'estabilitat i els tipus de dades que cada enfocament pot utilitzar.
Què és més eficient a l'hora de mostrar, segons la política o fora de la política?
Els mètodes fora de política generalment són més eficients en la mostra perquè poden reutilitzar experiències passades a través de buffers de reproducció. Els algoritmes com SAC i DQN poden aprendre d'una sola transició diverses vegades, mentre que els mètodes basats en política com PPO solen utilitzar cada transició només una vegada abans de descartar-la.
El PPO està dins o fora de la política?
PPO (Proximal Policy Optimization) és un algoritme basat en polítiques. Recull desplegaments utilitzant la política actual, entrena amb aquestes dades durant unes quantes èpoques, després descarta les dades i recopila mostres noves. Malgrat aquesta ineficiència, PPO continua sent popular per la seva estabilitat i rendiment fiable en diverses tasques.
Pot l'aprenentatge fora de polítiques utilitzar dades de demostracions humanes?
Sí, aquest és un dels principals avantatges de l'aprenentatge fora de polítiques. Els algoritmes es poden inicialitzar o preentrenar utilitzant dades de demostració d'humans i després continuar aprenent a través de l'autoexploració. Aquest enfocament, sovint anomenat aprenentatge a partir de la demostració o inicialització de l'aprenentatge per imitació, s'utilitza àmpliament en robòtica, on els exemples experts acceleren l'aprenentatge.
Per què l'aprenentatge fora de polítiques té problemes d'estabilitat?
Els mètodes fora de política s'enfronten al problema mortal de la tríada: la combinació d'aproximació de funcions, bootstrapping i dades fora de política pot conduir a la divergència. Quan la funció de valor s'aproxima amb xarxes neuronals i s'actualitza utilitzant objectius d'una distribució diferent, els errors es poden agreujar. Tècniques com les xarxes d'objectius, el doble Q-learning i les actualitzacions conservadores ajuden a abordar-ho.
Què és el mostreig important en l'aprenentatge fora de polítiques?
El mostreig d'importància és una tècnica estadística que corregeix la discrepància de distribució entre la política de comportament i la política objectiu. Repesa les actualitzacions per la relació de probabilitats sota cada política, permetent correccions fora de política en mètodes de gradient de política. Tanmateix, aquesta relació pot tenir una variança elevada, cosa que limita l'aplicabilitat pràctica.
Quin enfocament és millor per a aplicacions de robòtica?
Els mètodes fora de polítiques són els preferits per a la robòtica, ja que les interaccions del món real són cares i requereixen molt de temps. Algoritmes com SAC i TD3 poden aprendre tasques de manipulació complexes a partir de dades limitades reutilitzant experiències. Tanmateix, els mètodes basats en polítiques de vegades s'utilitzen en la simulació de robots abans de transferir les polítiques apreses al maquinari.
L'aprenentatge qualitatiu, està dins o fora de les polítiques?
L'aprenentatge qualitatiu (Q-learning) no està relacionat amb les polítiques. Aprèn el valor de prendre la millor acció possible en cada estat, independentment de l'acció que l'agent hagi dut a terme realment durant l'exploració. Això li permet aprendre el comportament òptim fins i tot quan segueix una política aleatòria o exploratòria, motiu pel qual funciona bé amb la reproducció d'experiències a DQN.
Com es relaciona la reproducció de l'experiència amb el compliment de les polítiques i el seu desacord?
La reproducció d'experiències s'associa principalment amb l'aprenentatge fora de polítiques, ja que emmagatzema i reutilitza transicions passades que poden haver estat generades per polítiques més antigues. Els mètodes basats en polítiques generalment eviten els buffers de reproducció, ja que la reutilització de dades antigues viola la suposició de política, tot i que existeixen alguns enfocaments híbrids.
Podeu combinar mètodes relacionats amb les polítiques i mètodes fora d'aquestes?
Sí, existeixen enfocaments híbrids. Alguns algoritmes utilitzen dades fora de política per a l'entrenament previ o com a objectius auxiliars, mentre que principalment estan dins de la política. Els mètodes actor-crític sovint combinen tots dos, on el crític pot aprendre fora de política mentre l'actor actualitza dins de la política. La recerca continua sobre mètodes que aprofiten el millor dels dos mons.
Veredicte
Trieu l'aprenentatge basat en polítiques quan necessiteu estabilitat d'entrenament i tingueu accés a entorns de simulació econòmics, especialment per a tasques com la IA de jocs o els mètodes de gradient de polítiques en models de llenguatge. Opteu per l'aprenentatge fora de polítiques quan l'eficiència de la mostra sigui crítica, la recopilació de dades sigui cara o necessiteu aprendre de conjunts de dades existents com ara demostracions o interaccions registrades.