pastiprinimo mokymasispolitikos gradientasaktorius-kritikasmašininis mokymasisdirbtinis intelektas

Veikėjų-kritikų metodai ir grynojo politikos gradiento metodai

Veikėjų-kritikų metodai sujungia politikos gradientus su išmoktos vertės funkcija, kad sumažintų dispersiją ir pagreitintų mokymąsi, o gryni politikos gradiento metodai remiasi tik politika ir Monte Karlo rezultatais. Pasirinkimas priklauso nuo to, ar jums reikia stabilumo ir imties efektyvumo, ar paprastumo ir nešališkų įverčių.

Akcentai

Veikėjų-kritikų metodai gradiento dispersiją mažina naudodami išmoktos vertės bazinę liniją, o gryni politikos gradientai remiasi triukšmingais Monte Karlo rezultatais.
Grynieji politikos gradiento metodai yra nešališki, bet reikalauja daug imties, o veikėjo-kritiko metodai, siekdami daug geresnio imties efektyvumo, atsisako šiek tiek šališkumo.
Tokie veikėjų-kritikų algoritmai kaip PPO ir SAC yra daugelio šiuolaikinių RL sėkmių pagrindas – nuo „Atari“ iki RLHF dideliems kalbų modeliams.
Grynieji politikos gradiento metodai išlieka populiarūs tyrimams ir paprastoms valdymo užduotims, nes juos lengviau įgyvendinti ir samprotauti.

Kas yra Aktoriaus-kritiko metodai?

Hibridiniai sustiprinimo mokymosi algoritmai, kurie susieja politikos tinklą (vykdytoją) su vertės vertinimo tinklu (kritiku), kad mokymas būtų stabilesnis.

Veikėjų-kritikų metodai buvo formalizuoti XXI a. pradžioje, remiantis ankstesniais tokių tyrėjų kaip Sutton ir Barto darbais apie politikos iteraciją.
Veikėjas atnaujina politiką naudodamas kritiko pasiūlytą gradiento kryptį, o kritikas įvertina vertės funkciją veiksmams įvertinti.
Populiarūs variantai yra A2C (Advantage Actor-Critic), A3C (Asynchronous Advantage Actor-Critic), SAC (Soft Actor-Critic) ir PPO (Proximal Policy Optimization).
Naudodami išmoktą bazinę liniją, veikėjo-kritiko metodai smarkiai sumažina politikos gradiento įverčių dispersiją, palyginti su Monte Karlo grąža.
Šie metodai paskatino proveržius žaidimų, robotikos ir didelių kalbų modelių tikslinimo srityse naudojant RLHF.

Kas yra Grynosios politikos gradiento metodai?

Sustiprinimo mokymosi algoritmai, kurie tiesiogiai optimizuoja parametrizuotą politiką, naudodami gradiento kilimą pagal laukiamą grąžą, be atskiro vertės modelio.

Pagrindinį REINFORCE algoritmą 1992 m. pristatė Ronaldas Williamsas, įtvirtindamas politikos gradiento teoremą.
Grynieji politikos gradiento metodai gradientus įvertina naudodami Monte Karlo metodu pagrįstą diegimą arba viso epizodo grąžą, o ne pagal pagrįstus vertės įverčius.
Jie natūraliai suderinami su stochastinėmis politikomis, todėl puikiai tinka aplinkoms su ištisinėmis arba daugiamačiomis veiksmų erdvėmis.
Kadangi jie remiasi atrinktomis trajektorijomis, šie metodai yra nešališki, tačiau jų gradiento įverčiai paprastai pasižymi dideliu dispersijos lygiu.
Žymūs įgyvendinimai apima originalų REINFORCE, Vanilla Policy Gradient (VPG) ir Trust Region Policy Optimization (TRPO).

Palyginimo lentelė

Funkcija	Aktoriaus-kritiko metodai	Grynosios politikos gradiento metodai
Pagrindinis mechanizmas	Sujungia politikos tinklą (vykdytoją) su vertės tinklu (kritiku)	Optimizuoja politiką tiesiogiai naudodama imties grąžą
Gradiento įverčių dispersija	Mažesnis dispersija dėl išmoktos bazinės linijos	Didesnis nukrypimas nuo Monte Karlo grąžos
Šališkumas	Kritiko aproksimacijos įvestas nedidelis šališkumas	Nešališki gradiento įvertinimai
Imties efektyvumas	Paprastai didesnis, pakartotinai naudoja duomenis per „bootstrapping“	Žemesnis, reikia pilnų epizodų arba daug pavyzdžių
Įgyvendinimo sudėtingumas	Sudėtingesnis, reikalauja dviejų tinklų apmokymo	Paprasčiau, valdyti tik vieną tinklą
Mokymo stabilumas	Stabilesnis dėl mažesnio dispersijos ir pasitikėjimo regionų	Mažiau stabilus, jautrus mokymosi greičiui ir atlygio skalei
Žvalgymo tvarkymas	Gali apimti entropijos premijas arba stochastinius kritikus	Natūraliai stochastinis, lengvai skatina tyrinėjimą
Tipiniai naudojimo atvejai	Didelio masto RL, robotika, RLHF kalbos modeliams	Paprastos kontrolinės užduotys, tyrimo baziniai taškai, epizodinės problemos

Išsamus palyginimas

Gradiento įvertinimas ir dispersija

Didžiausias praktinis skirtumas tarp šių dviejų šeimų priklauso nuo to, kaip jos įvertina tobulėjimo kryptį. Grynieji politikos gradiento metodai remiasi Monte Karlo grąža, surinkta iš visų epizodų, o tai duoda nešališką signalą, tačiau labai svyruojantį priklausomai nuo bet kurio vieno diegimo sėkmės. Veikėjų-kritikų metodai pakeičia šią triukšmingą grąžą išmoktos vertės funkcija, efektyviai atimdami bazinę liniją, kuri fiksuoja laukiamą rezultatą. Rezultatas yra daug mažesnio dispersijos gradientas, leidžiantis mokymui vykti sklandžiau, ypač aplinkose, kuriose atlygiai yra menki arba vėluoja.

Šališkumo ir dispersijos kompromisas

Prekybos dispersija dėl šališkumo yra pagrindinis kompromisas veikėjo ir kritiko projekte. Kritikas pats savaime yra aproksimacija, todėl jo įverčiai gali būti klaidingi, ir ta klaida atsispindi politikos atnaujinime. Grynieji politikos gradiento metodai to visiškai išvengia, nes jie niekada neapytiksliai nesuderina vertės funkcijos, tačiau už šį grynumą jie moka triukšmingesniais atnaujinimais. Praktiškai šiuolaikiniai veikėjo ir kritiko algoritmai, tokie kaip PPO ir SAC, šį kompromisą valdo taip gerai, kad mažas šališkumas retai kada yra problema, todėl jie dominuoja etalonuose.

Imties efektyvumas ir duomenų pakartotinis naudojimas

Imties efektyvumas yra nepaprastai svarbus, kai sąveika su aplinka yra brangi, pavyzdžiui, robotikoje ar realaus pasaulio dialogo sistemose. Čia puikiai veikia veikėjo-kritiko metodai, nes kritikas remiasi savo paties prognozėmis, leisdamas algoritmui mokytis iš kiekvieno perėjimo kelis kartus. Gryniems politikos gradiento metodams paprastai reikia naujų politikos duomenų kiekvienam atnaujinimui, o tai reiškia daugiau aplinkos sąveikų, siekiant to paties politikos patobulinimo. Tai viena iš priežasčių, kodėl REINFORCE stiliaus algoritmai yra labiau paplitę tyrimų aplinkose, kur modeliavimas yra pigus.

Įgyvendinimas ir derinimas

Jei norite greitai sukurti prototipą, patrauklūs yra gryni politikos gradiento metodai. Jums tereikia politikos tinklo, nuostolių funkcijos, sudarytos iš logaritminių tikimybių, įvertintų pagal grąžą, ir būdo rinkti trajektorijas. Veikiančiojo-kritinio tinklo metodai prideda antrojo tinklo mokymo naštą, subalansuojant jo mokymosi greitį su veikėjo mokymosi greičiu ir užtikrinant, kad kritinis tinklas konverguotų pakankamai greitai, kad būtų naudingas. Šis papildomas sudėtingumas atsiperka našumo srityje, tačiau tai pakelia kartelę naujokams.

Žvalgymo ir stochastinė politika

Abu metodai natūraliai tvarko stochastines politikas, tačiau skirtingai skatina tyrinėjimą. Grynieji politikos gradiento metodai tyrinėjimą gauna nemokamai iš pačios politikos entropijos, kuri gerai veikia problemose su aiškiais veiksmų pasiskirstymais. Veikėjo-kritiko metodai dažnai prideda aiškų entropijos bonusą prie tikslo, kaip tai daro „Soft Actor-Critic“ metodas, kad politika nesugriūtų per anksti. Dėl to veikėjo-kritiko variantai yra atsparesni užduotims, kuriose agentas kitaip galėtų įstrigti neoptimaliame elgesyje.

Privalumai ir trūkumai

Aktoriaus-kritiko metodai

Privalumai

+ Mažesnio dispersijos atnaujinimai
+ Geresnis mėginių ėmimo efektyvumas
+ Stabilesnės treniruotės
+ Pritaikoma sudėtingoms užduotims

Pasirinkta

− Sudėtingiau įgyvendinti
− Papildomas hiperparametrų derinimas
− Nedidelis kritiko šališkumas
− Du tinklai, kuriuos reikia apmokyti

Grynosios politikos gradiento metodai

Privalumai

+ Paprastas įgyvendinimas
+ Nešališki gradiento įvertinimai
+ Natūralios stochastinės politikos
+ Puikiai tinka tyrimams

Pasirinkta

− Didelės dispersijos atnaujinimai
− Prastas mėginių našumas
− Reikia pilnų serijų
− Jautrus mokymosi greičiui

Dažni klaidingi įsitikinimai

Mitas

Veikėjų-kritikų metodai yra visiškai kita algoritmų šeima nei politikos gradientai.

Realybė

Veikėjų-kritikų metodai iš tikrųjų yra politikos gradiento metodų pogrupis. Jie apskaičiuoja tą patį politikos gradientą, tačiau dispersijai sumažinti naudoja išmoktos vertės funkciją, o ne pasikliauja neapdorota grąža.

Mitas

Gryni politikos gradiento metodai visada konverguoja greičiau, nes jie yra nešališki.

Realybė

Nešališkumas nereiškia greito konvergavimo. Didelė Monte Karlo įverčių dispersija dažnai smarkiai sulėtina mokymąsi, ypač ilgalaikėse užduotyse, kuriose atlygis gaunamas vėliau.

Mitas

Aktoriaus-kritiko metodai negali veikti su ištisinėmis veiksmo erdvėmis.

Realybė

Daugelis veikėjų-kritikų algoritmų, įskaitant SAC ir DDPG, yra specialiai sukurti nuolatiniam valdymui ir puikiai veikia robotikoje ir fizikos pagrindu sukurtame modeliavime.

Mitas

Norint gerai atlikti sustiprintą mokymąsi, visada reikia kritiko.

Realybė

Grynieji politikos gradiento metodai, tokie kaip REINFORCE ir TRPO, išsprendė daugybę problemų be kritikos. Kritika yra dispersijos mažinimo įrankis, o ne griežtas reikalavimas.

Mitas

PPO yra grynas politikos gradiento metodas.

Realybė

PPO techniškai yra veikėjo-kritiko algoritmas. Politikos pusėje jis naudoja apribotą pakaitinį tikslą, tačiau pranašumams apskaičiuoti ir atnaujinimams vadovautis vertės tinklu.

Dažnai užduodami klausimai

Kuo pagrindinis skirtumas tarp veikėjo-kritiko ir politikos gradiento metodų?

Pagrindinis skirtumas yra tas, ar mokymo metu naudojama vertės funkcija. Veikėjų-kritikų metodai apmoko atskirą kritikų tinklą vertėms įvertinti ir dispersijai sumažinti, o gryni politikos gradiento metodai gradientus įvertina tiesiogiai iš imties grąžos be išmokto vertės modelio.

Kodėl aktoriaus-kritiko metodai turi mažesnę dispersiją?

Prieš apskaičiuodami gradientą, jie iš grąžos atima išmoktą bazinę liniją, paprastai vertės funkciją. Ši bazinė linija atspindi laukiamą rezultatą, todėl likęs pranašumo signalas turi daug mažiau atsitiktinio triukšmo nei neapdoroti Monte Karlo rezultatai.

Ar PPO yra veikėjo-kritiko, ar politikos gradiento metodas?

PPO yra veikėjo-kritiko algoritmas. Jis naudoja apribotą tikslą politikai atnaujinti, tačiau pranašumams apskaičiuoti remiasi vertybių tinklu, o tai yra veikėjo-kritiko šeimos požymis.

Kada turėčiau naudoti grynus politikos gradiento metodus, o ne veikėjo-kritiko metodus?

Grynojo politikos gradiento metodai puikiai tinka trumpoms epizodinėms užduotims, tyrimų bazinėms linijoms arba situacijoms, kai reikia paprasto, nešališko algoritmo. Jie taip pat gerai veikia, kai aplinkos modeliavimas yra pigus ir nereikia maksimalaus imties efektyvumo.

Ar aktoriaus-kritiko metodai veikia nuolatinio veiksmo erdvėse?

Taip, daugelis tai daro. Tokie algoritmai kaip SAC, DDPG ir TD3 yra veikėjo-kritiko metodai, specialiai sukurti nuolatiniam valdymui ir plačiai naudojami robotikoje ir imituojamose fizikos aplinkose.

Ar grynieji politikos gradiento metodai vis dar naudojami šiandien?

Be abejo. „REINFORCE“ ir „Vanilla Policy Gradient“ išlieka populiarūs mokslinių tyrimų ir švietimo srityse, o TRPO vis dar naudojamas saugai jautriose srityse, kur vertingas jo patikimumo srities apribojimas.

Kas yra politikos gradiento teorema?

Suttono ir kolegų įrodyta politikos gradiento teorema pateikia uždaros formos išraišką laukiamos grąžos gradientui, atsižvelgiant į politikos parametrus. Tiek grynojo politikos gradiento, tiek veikėjo-kritiko metodai yra sukurti šios teoremos pagrindu.

Kaip REINFORCE susijęs su aktoriaus-kritiko metodais?

REINFORCE yra kanoninis gryno politikos gradiento algoritmas. Veikėjo-kritiko metodus galima laikyti REINFORCE evoliucija, kuri pakeičia Monte Karlo grąžą išsilavinusio kritiko pagrįstu įvertinimu, o tai sumažina dispersiją tam tikro šališkumo sąskaita.

Ar aktoriaus-kritiko metodai gali būti naudojami RLHF dideliuose kalbų modeliuose?

Taip, veikėjų-kritikų metodai, tokie kaip PPO, yra RLHF srautų „arkliukai“, skirti didelių kalbų modelių derinimui. Jie apdoroja ilgus horizontus ir sudėtingus atlygio signalus, susijusius su kalbos modelių mokymu naudojant žmonių grįžtamąjį ryšį.

Kuris metodas yra geresnis negausaus atlygio aplinkoms?

Veikėjo-kritiko metodai paprastai veikia geriau esant negausiems atlygiams, nes kritikas gali skleisti vertės informaciją atgal laikui bėgant, suteikdamas politikai naudingų mokymosi signalų net tada, kai atlygiai reti.

Nuosprendis

Rinkitės grynus politikos gradiento metodus, kai norite paprasto, nešališko algoritmo trumpalaikėms problemoms spręsti arba kaip aiškaus tyrimo pradinio lygio. Naudokite veikėjo-kritiko metodus, kai jums rūpi imties efektyvumas, mokymo stabilumas arba pritaikymas sudėtingose aplinkose, tokiose kaip robotika ir didelių kalbų modelių tikslinimas.

Susiję palyginimai

„DeepSeek V4“ ir „GPT-4“ klasės modeliai

„DeepSeek V4“ yra kylantis atvirojo svorio didelių kalbų modelis, sukurtas Kinijos dirbtinio intelekto laboratorijoje, o GPT-4 klasės modeliai nurodo „OpenAI“ flagmanines uždarojo kodo sistemas. Šiame palyginime nagrinėjama jų architektūra, galimybės, kainos, prieinamumas ir našumas realiame pasaulyje, siekiant padėti kūrėjams ir įmonėms išmintingai pasirinkti.

„Google“ paieška ir žinių grafiko paieška

„Google“ paieška yra plataus masto žiniatinklio indeksavimo variklis, kurį dauguma žmonių naudoja kasdien, o „Knowledge Graph Search“ yra „Google“ struktūrizuotų objektų duomenų bazė, kurioje pateikiami tiesioginiai atsakymai ir informacijos skydeliai. Supratimas, kuo jie skiriasi, padeda paaiškinti, kodėl kai kurios užklausos pateikia išsamius faktus, o kitos – tradicines mėlynas nuorodas.

„Google“ paieškos algoritmas ir supaprastinti klasės modeliai

„Google“ paieškos algoritmas reitinguoja milijardus tinklalapių, naudodamas mašininį mokymąsi ir šimtus signalų, o supaprastinti klasių modeliai perteikia dirbtinio intelekto koncepcijas į lengvai mokomas, prieinamas sistemas. Viena sistema veikia planetos mastu gamyboje; kita tarnauja kaip pedagoginis tiltas mokiniams, mokantis, kaip iš tikrųjų veikia dirbtinis intelektas.

„Vienas su vienu“ atitikimas aptikimo ir daugelio su vienu atitikimo metodų srityse

„Vienas su vienu“ atitikimo metodas kiekvienam pagrindiniam objektui priskiria vieną numatomą langelį, o „daugelis su vienu“ atitikimo metodas leidžia kelias prognozes suderinti su vienu taikiniu. Abi strategijos formuoja tai, kaip šiuolaikiniai detektoriai, tokie kaip DETR ir „Faster R-CNN“, mokosi lokalizuoti objektus, kiekvienas iš jų turi skirtingus kompromisus tikslumo, mokymo stabilumo ir pasikartojančių aptikimų tvarkymo srityse.

A/B testavimas modelių aptarnavime ir vieno modelio diegime

A/B testavimas modeliuose nukreipia srautą tarp konkuruojančių modelio versijų, kad būtų galima įvertinti realų našumą, o diegiant vieną modelį visiems vartotojams pateikiamas vienas modelis. Komandos renkasi iš jų pagal rizikos toleranciją, srauto kiekį ir statistinio patvirtinimo poreikį prieš visišką diegimą.