Ilgalaikis atlygio optimizavimas ir trumpalaikis tikslumo optimizavimas
Ilgalaikis atlygio optimizavimas (Ilgalaikis atlygio optimizavimas) orientuotas į kaupiamųjų rezultatų maksimalizavimą ilgalaikėje perspektyvoje, o trumpalaikis tikslumo optimizavimas teikia pirmenybę neatidėliotinam individualių užduočių teisingumui. Šios dvi dirbtinio intelekto mokymo filosofijos formuoja, kaip agentai mokosi, apibendrina ir elgiasi dinamiškoje aplinkoje.
Akcentai
Ilgalaikis optimizavimas turi išspręsti kreditų priskyrimo problemą, susijusią su atidėtais atlygiais, o trumpalaikis tikslumas gauna tiesioginį grįžtamąjį ryšį kiekvienu pavyzdžiu.
Tyrinėjimas yra būtinas atlygiu grįstame mokymesi, tačiau jo beveik nėra prižiūrimuose tikslumo mokymuose.
Ilgalaikės sistemos prisitaiko prie pasiskirstymo pokyčių per nuolatinį aplinkos grįžtamąjį ryšį, o trumpalaikiai modeliai gali tyliai degraduoti.
Šiuolaikinis dirbtinis intelektas vis dažniau derina abi paradigmas, naudodamas tikslumo išankstinį mokymą, po kurio seka atlygiu pagrįstas tikslus derinimas.
Kas yra Ilgalaikio atlygio optimizavimas?
Dirbtinio intelekto mokymo metodas, kuris maksimaliai padidina kaupiamąjį atlygį per ilgą laiką, o ne per tiesioginį užduočių atlikimą.
Sudaro sustiprinimo mokymosi matematinį pagrindą per diskontuotas kaupiamąsias atlygio funkcijas.
Maitina tokias proveržio sistemas kaip „DeepMind“ „AlphaGo“ ir „OpenAI“ DALL-E mokymo kanalus.
Pasikliauja atlygio signalais, kurie gali pasirodyti praėjus daug laiko po veiksmų, kurie juos sukėlė, ir taip sukuriama kreditų priskyrimo problema.
Naudoja tokius metodus kaip Q-mokymasis, politikos gradientai ir Monte Karlo medžio paieška, kad vertė būtų perteikta laikui bėgant.
Dažnai reikia žymiai daugiau skaičiavimo išteklių, nes agentai turi imituoti arba patirti ilgas trajektorijas.
Kas yra Trumpalaikis tikslumo optimizavimas?
Mokymo paradigma, kuri teikia pirmenybę neatidėliotinam individualių prognozių ar klasifikavimo užduočių teisingumui.
Sudaro pagrindą daugumai prižiūrimų mokymosi sistemų, įskaitant vaizdų klasifikatorius ir kalbos modelius, apmokytus naudojant paženklintus duomenų rinkinius.
Optimizuoja tokius rodiklius kaip kryžminės entropijos nuostoliai, F1 balas arba geriausiųjų tikslumas kiekvienam pavyzdžiui atskirai.
Suteikia greitus, stabilius gradiento signalus, nes kiekvienas mokymo pavyzdys turi tiesioginį paklaidos matavimą.
Skatina transformatorinių architektūrų sėkmę tokiuose testuose kaip GLUE, ImageNet ir SuperGLUE.
Gali nukentėti nuo paskirstymo poslinkio, kai diegiama aplinkoje, kuri skiriasi nuo mokymo duomenų.
Vidutinis, keičiasi atsižvelgiant į duomenų rinkinio dydį
Žvalgymo reikalavimas
Svarbu atrasti strategijas
Minimalus, atitinka pažymėtus pavyzdžius
Atsparumas pokyčiams
Prisitaiko per nuolatinį atlygio grįžtamąjį ryšį
Sumažėja pasiskirstymo poslinkio metu
Dažnos paraiškos
Žaidimai, robotika, rekomendacijų sistemos
Klasifikavimas, vertimas, vaizdo atpažinimas
Išsamus palyginimas
Pagrindinė filosofija ir tikslų nustatymas
Ilgalaikio atlygio optimizavimo atveju kiekvienas veiksmas traktuojamas kaip didesnės sekos dalis, kur šiandienos pasirinkimas daro įtaką rezultatams po minučių, valandų ar net dienų. Agentas išmoksta vertės funkciją, kuri įvertina, kokia gera situacija būsimam pelnui. Trumpalaikio tikslumo optimizavimo atveju, priešingai, kiekviena įvesties ir išvesties pora traktuojama kaip nepriklausomas įvykis. Modelis tiesiog išmoksta kuo greičiau ir tiksliau susieti įvestis su teisingomis išvestimis, nesijaudindamas dėl tolesnių pasekmių.
Grįžtamasis ryšys ir mokymosi signalai
Ilgalaikėse sistemose atlygis dažnai gaunamas retai ir su dideliu vėlavimu, todėl egzistuoja tokie algoritmai kaip mokymasis pagal laiko skirtumus, siekiant panaikinti atotrūkį tarp veiksmo ir rezultato. Trumpalaikės sistemos naudojasi tankiu, tiesioginiu grįžtamuoju ryšiu per nuostolių funkcijas, kurios kiekviename pavyzdyje lygina prognozes su faktine tiesa. Dėl to trumpalaikis mokymas yra stabilesnis, bet kartu ir trumparegiškesnis, nes modelis niekada neišmoksta palyginti šiandienos tikslumo su rytojaus kaina.
Tyrinėjimas prieš išnaudojimą
Būdingas ilgalaikio optimizavimo bruožas yra poreikis tyrinėti nepažįstamus veiksmus, siekiant atrasti geresnes strategijas, net kai žinomas veiksmas duoda deramą atlygį. Šiam tikslui tinka tokios technikos kaip „epsilono godumo“ politika, entropijos premijos ir viršutinės pasitikėjimo ribos. Trumpalaikiai tikslumo modeliai retai tyrinėja, nes jų mokymo signalas gaunamas iš paženklintų pavyzdžių, o ne iš aplinkos atlygio, todėl jie išnaudoja bet kokius duomenų rinkinyje jau esančius modelius.
Skaičiavimo ir duomenų reikalavimai
Ilgalaikėms atlygio sistemoms paprastai reikalinga interaktyvi aplinka arba sudėtingi simuliatoriai, kuriuos sukurti ir paleisti gali būti brangu. Pavyzdžiui, „AlphaGo“ sukūrė milijonus savarankiškų žaidimų, kol pasiekė antžmogišką našumą. Trumpalaikės tikslumo sistemos remiasi statiniais duomenų rinkiniais, kuriuos galima pakartotinai naudoti daugelyje mokymo ciklų, todėl jas pigiau iteruoti, bet kartu ir apriboti iki bet kokių žinių, kurias tie duomenų rinkiniai koduoja.
Realaus pasaulio stipriosios ir silpnosios pusės
Ilgalaikis optimizavimas išsiskiria nuoseklaus sprendimų priėmimo problemose, tokiose kaip autonominis vairavimas, dinaminis kainodaros nustatymas ir pokalbių agentai, kurie turi planuoti daugiapakopius dialogus. Trumpalaikis tikslumas dominuoja suvokimo užduotyse, tokiose kaip medicininis vaizdavimas, šlamšto aptikimas ir mašininis vertimas, kur kiekvienas įvesties elementas yra atskiras. Šie du metodai nėra vienas kito nepaneigiantys, ir šiuolaikinės sistemos dažnai juos derina, pavyzdžiui, iš anksto apmokydamos modelį tikslumui, o vėliau jį tiksliai derindamos sustiprinto mokymosi iš žmonių atsiliepimų pagalba.
Apibendrinimas ir patikimumas
Kadangi ilgalaikiai agentai nuolat gauna grįžtamąjį ryšį iš savo aplinkos, jie gali prisitaikyti prie kintančių sąlygų taip, kaip negali statiniai tikslumo modeliai. Rekomendacijų sistema, apmokyta naudojant ilgalaikius atlygio signalus, prisitaikys, kai pasikeis vartotojo nuostatos, o klasifikatorius, apmokytas trumpalaikiam tikslumui, gali tyliai sugesti, kai pasikeis įvesties pasiskirstymas. Šis prisitaikymas kainuoja saugumo problemas, nes tyrinėjimas mokymo metu gali sukelti žalingus veiksmus.
Privalumai ir trūkumai
Ilgalaikio atlygio optimizavimas
Privalumai
+Planai dėl būsimų rezultatų
+Prisitaiko prie besikeičiančios aplinkos
+Atranda naujų strategijų
+Gerai sprendžia nuoseklius sprendimus
Pasirinkta
−Retas uždelstas grįžtamasis ryšys
−Didelės skaičiavimo išlaidos
−Sunku priskirti veiksmams nuopelnus
−Rizikingas tyrinėjimo elgesys
Trumpalaikis tikslumo optimizavimas
Privalumai
+Greitas stabilus treniravimas
+Pigu iteruoti
+Tankus tiesioginis grįžtamasis ryšys
+Puikūs etaloniniai rezultatai
Pasirinkta
−Trumparegystė dėl būsimų išlaidų
−Trapus pamainomis
−Riboja duomenų rinkinio šališkumas
−Nėra tyrinėjimo mechanizmo
Dažni klaidingi įsitikinimai
Mitas
Pastiprinimo mokymasis visada pranoksta prižiūrimą mokymąsi, nes jis optimizuoja ilgalaikius tikslus.
Realybė
Ilgalaikis atlygio optimizavimas pranoksta trumpalaikį tikslumą tik tada, kai užduočiai atlikti iš tiesų reikia nuoseklių sprendimų. Nepriklausomos klasifikacijos ar regresijos problemoms spręsti prižiūrimi metodai išlieka greitesni, pigesni ir dažnai tikslesni.
Mitas
Trumpalaikiai tikslumo modeliai negali nieko sužinoti apie būsimas pasekmes.
Realybė
Dideli kalbos modeliai, apmokyti naudojant kito žetono prognozavimą, gali netiesiogiai užfiksuoti ilgalaikes priklausomybes, net jei nuostolių funkcija skaičiuojama po vieną žetoną. Skirtumas slypi mokymo tiksle, o ne būtinai modelio reprezentavimo pajėgume.
Mitas
Ilgalaikiam atlygio optimizavimui nereikia jokių paženklintų duomenų.
Realybė
Daugelyje praktinių sistemų derinami abu metodai, naudojant prižiūrimą išankstinį mokymą, kad būtų sukurta politika prieš taikant sustiprintąjį mokymąsi. Grynas atlygiu pagrįstas mokymasis nuo nulio yra retas, išskyrus žaidimus ir simuliacines sritis.
Mitas
Didesnis bandymų rinkinio tikslumas reiškia, kad modelis geriau veiks diegimo metu.
Realybė
Testo tikslumas matuoja našumą statiniame skirstinyje. Realioje aplinkoje, kurioje įvesties duomenys laikui bėgant kinta, modelis, optimizuotas ilgalaikiam atlygiui per nuolatinį grįžtamąjį ryšį, dažnai pranoksta statinį tikslumo modelį, nepaisant žemesnių etaloninių balų.
Mitas
Atlygio įsilaužimas yra problema tik ilgalaikiam optimizavimui.
Realybė
Bet kuri sistema su tarpinio serverio tikslu gali būti imituojama. Trumpalaikiai tikslumo modeliai taip pat gali išnaudoti duomenų rinkinių artefaktus arba etikečių triukšmą, kad padidintų metrikas nepagerindami realaus naudingumo.
Dažnai užduodami klausimai
Kuo pagrindinis skirtumas tarp ilgalaikio atlygio optimizavimo ir trumpalaikio tikslumo optimizavimo?
Ilgalaikis atlygio optimizavimas maksimaliai padidina bendrą būsimą grąžą per sprendimų seką, o trumpalaikis tikslumo optimizavimas maksimaliai padidina kiekvienos individualios prognozės teisingumą. Pirmasis planuoja į priekį, antrasis reaguoja į dabartį.
Kuris metodas yra geresnis didelių kalbos modelių mokymui?
Šiuolaikiniai kalbos modeliai paprastai pradedami nuo trumpalaikio tikslumo optimizavimo, taikant kito žetono numatymą, o tada pereina antrąjį ilgalaikio atlygio optimizavimo etapą, naudojant sustiprintą mokymąsi iš žmonių grįžtamojo ryšio. Šis hibridinis metodas apjungia abiejų paradigmų stipriąsias puses.
Kodėl ilgalaikis atlygio optimizavimas yra sunkesnis nei trumpalaikis tikslumas?
Sunkumai kyla dėl uždelsto ir negausaus grįžtamojo ryšio. Kai atlygis gaunamas praėjus daug žingsnių po jį sukėlusio veiksmo, algoritmas turi išsiaiškinti, kuris ankstesnis sprendimas nusipelno pripažinimo – šis iššūkis vadinamas įvertinimo priskyrimo problema.
Ar trumpalaikio tikslumo modeliai gali būti naudojami sprendimų priėmimo užduotims?
Taip, bet su apribojimais. Modelis, apmokytas tik neatidėliotinam tikslumui, gali būti naudojamas kaip politika, jei aplinka yra statiška ir kiekvienas sprendimas yra nepriklausomas. Tokiose užduotyse kaip autonominis vairavimas ar daugiapakopis dialogas, ilgalaikis atlygio optimizavimas paprastai sukuria nuoseklesnį elgesį.
Kokie algoritmai naudojami ilgalaikiam atlygio optimizavimui?
Įprasti pasirinkimai apima Q mokymąsi, SARSA, giliuosius Q tinklus, proksimalinį politikos optimizavimą, pranašumo aktorių-kritikų paiešką ir Monte Karlo medžio paiešką. Kiekvienas iš jų skirtingai sprendžia uždelsto atlygio problemą, subalansuodamas imties efektyvumą su skaičiavimo sąnaudomis.
Kaip vertinate ilgalaikio atlygio optimizavimo sėkmę?
Sėkmė matuojama pagal sukauptą atlygį per epizodą arba visą gyvenimą, dažnai diskontuojant jį, kad būtų teikiama pirmenybė trumpalaikiams laimėjimams. Metrika apima vidutinį epizodų grąžą, laimėjimų rodiklius žaidimuose ir ilgalaikių užduočių atlikimo rodiklius.
Ar trumpalaikis tikslumo optimizavimas vis dar aktualus sustiprinimo mokymosi eroje?
Be abejo. Dauguma gamybinių dirbtinio intelekto sistemų, pradedant medicininiu vaizdavimu ir baigiant sukčiavimo aptikimu, remiasi prižiūrimu tikslumo optimizavimu. Tai išlieka dominuojančia paradigma visur, kur egzistuoja žymėti duomenys ir sprendimai priimami nepriklausomai.
Kas yra atlygio įsilaužimas ir kuris metodas labiau kenčia nuo jo?
Atlygio įsilaužimas įvyksta, kai agentas randa būdą maksimaliai padidinti savo atlygio signalą, faktiškai neišsprendęs numatytos užduoties. Tai dažniau pasitaiko ilgalaikiame atlygio optimizavime, nes atlygio funkcija dažnai yra pakaitinis rodiklis, tačiau trumpalaikiai tikslumo modeliai taip pat gali manipuliuoti metrika, išnaudodami duomenų rinkinius.
Ar šie du požiūriai konkuruoja, ar vienas kitą papildo?
Jie dažniau vienas kitą papildo, nei konkuruoja. Išankstinis tikslumo mokymas suteikia modeliui tvirtas pagrindines žinias, o atlygiu pagrįstas tikslinimas suderina tas žinias su tolesniais tikslais. Daugelyje pažangiausių sistemų naudojami abu iš eilės.
Kuriam metodui reikia daugiau duomenų?
Ilgalaikiam atlygio optimizavimui paprastai reikia daug daugiau interaktyvios patirties, dažnai milijonų epizodų, nes kiekvienas epizodas duoda tik kelis atlygio signalus. Trumpalaikiam tikslumo optimizavimui reikia didelių paženklintų duomenų rinkinių, tačiau jie efektyviai pakartotinai naudojami daugelyje epochų.
Nuosprendis
Rinkitės ilgalaikį atlygio optimizavimą, kai jūsų problema susijusi su nuosekliais sprendimais, kur ankstyvieji veiksmai formuoja vėlesnius rezultatus, pavyzdžiui, robotikos, žaidimų ar adaptyvių sistemų srityse. Rinkitės trumpalaikį tikslumo optimizavimą, kai jums reikia patikimų ir greitų prognozių, pagrįstų nepriklausomais pavyzdžiais, tokiais kaip klasifikavimas, aptikimas ar vertimas. Praktiškai stipriausios dirbtinio intelekto sistemos dažnai derina abu šiuos metodus, naudodamos į tikslumą orientuotą išankstinį mokymą, po kurio seka atlygiu pagrįstas tikslinimas.