dirbtinis intelektasmašininis mokymasispastiprinimo mokymasisprižiūrimas mokymasisoptimizavimas

Ilgalaikis atlygio optimizavimas ir trumpalaikis tikslumo optimizavimas

Ilgalaikis atlygio optimizavimas (Ilgalaikis atlygio optimizavimas) orientuotas į kaupiamųjų rezultatų maksimalizavimą ilgalaikėje perspektyvoje, o trumpalaikis tikslumo optimizavimas teikia pirmenybę neatidėliotinam individualių užduočių teisingumui. Šios dvi dirbtinio intelekto mokymo filosofijos formuoja, kaip agentai mokosi, apibendrina ir elgiasi dinamiškoje aplinkoje.

Akcentai

Ilgalaikis optimizavimas turi išspręsti kreditų priskyrimo problemą, susijusią su atidėtais atlygiais, o trumpalaikis tikslumas gauna tiesioginį grįžtamąjį ryšį kiekvienu pavyzdžiu.
Tyrinėjimas yra būtinas atlygiu grįstame mokymesi, tačiau jo beveik nėra prižiūrimuose tikslumo mokymuose.
Ilgalaikės sistemos prisitaiko prie pasiskirstymo pokyčių per nuolatinį aplinkos grįžtamąjį ryšį, o trumpalaikiai modeliai gali tyliai degraduoti.
Šiuolaikinis dirbtinis intelektas vis dažniau derina abi paradigmas, naudodamas tikslumo išankstinį mokymą, po kurio seka atlygiu pagrįstas tikslus derinimas.

Kas yra Ilgalaikio atlygio optimizavimas?

Dirbtinio intelekto mokymo metodas, kuris maksimaliai padidina kaupiamąjį atlygį per ilgą laiką, o ne per tiesioginį užduočių atlikimą.

Sudaro sustiprinimo mokymosi matematinį pagrindą per diskontuotas kaupiamąsias atlygio funkcijas.
Maitina tokias proveržio sistemas kaip „DeepMind“ „AlphaGo“ ir „OpenAI“ DALL-E mokymo kanalus.
Pasikliauja atlygio signalais, kurie gali pasirodyti praėjus daug laiko po veiksmų, kurie juos sukėlė, ir taip sukuriama kreditų priskyrimo problema.
Naudoja tokius metodus kaip Q-mokymasis, politikos gradientai ir Monte Karlo medžio paieška, kad vertė būtų perteikta laikui bėgant.
Dažnai reikia žymiai daugiau skaičiavimo išteklių, nes agentai turi imituoti arba patirti ilgas trajektorijas.

Kas yra Trumpalaikis tikslumo optimizavimas?

Mokymo paradigma, kuri teikia pirmenybę neatidėliotinam individualių prognozių ar klasifikavimo užduočių teisingumui.

Sudaro pagrindą daugumai prižiūrimų mokymosi sistemų, įskaitant vaizdų klasifikatorius ir kalbos modelius, apmokytus naudojant paženklintus duomenų rinkinius.
Optimizuoja tokius rodiklius kaip kryžminės entropijos nuostoliai, F1 balas arba geriausiųjų tikslumas kiekvienam pavyzdžiui atskirai.
Suteikia greitus, stabilius gradiento signalus, nes kiekvienas mokymo pavyzdys turi tiesioginį paklaidos matavimą.
Skatina transformatorinių architektūrų sėkmę tokiuose testuose kaip GLUE, ImageNet ir SuperGLUE.
Gali nukentėti nuo paskirstymo poslinkio, kai diegiama aplinkoje, kuri skiriasi nuo mokymo duomenų.

Palyginimo lentelė

Funkcija	Ilgalaikio atlygio optimizavimas	Trumpalaikis tikslumo optimizavimas
Pagrindinis tikslas	Maksimaliai padidinkite kaupiamąjį būsimą atlygį	Maksimaliai padidinkite tiesioginio prognozavimo tikslumą
Grįžtamojo ryšio signalas	Vėluojantys, menki atlygiai	Tiesioginės, tankios etiketės
Tipiniai algoritmai	Q-mokymasis, PPO, A3C, MCTS	Gradientinis nusileidimas, kryžminė entropija, atgalinis sklidimas
Mokymo duomenų poreikiai	Interaktyvios aplinkos arba simuliatoriai	Dideli paženklinti duomenų rinkiniai
Kredito priskyrimas	Iššūkiai tolimais horizontais	Tiesioginis priskyrimas kiekvienam pavyzdžiui
Skaičiavimo kaina	Aukštas dėl trajektorijos modeliavimo	Vidutinis, keičiasi atsižvelgiant į duomenų rinkinio dydį
Žvalgymo reikalavimas	Svarbu atrasti strategijas	Minimalus, atitinka pažymėtus pavyzdžius
Atsparumas pokyčiams	Prisitaiko per nuolatinį atlygio grįžtamąjį ryšį	Sumažėja pasiskirstymo poslinkio metu
Dažnos paraiškos	Žaidimai, robotika, rekomendacijų sistemos	Klasifikavimas, vertimas, vaizdo atpažinimas

Išsamus palyginimas

Pagrindinė filosofija ir tikslų nustatymas

Ilgalaikio atlygio optimizavimo atveju kiekvienas veiksmas traktuojamas kaip didesnės sekos dalis, kur šiandienos pasirinkimas daro įtaką rezultatams po minučių, valandų ar net dienų. Agentas išmoksta vertės funkciją, kuri įvertina, kokia gera situacija būsimam pelnui. Trumpalaikio tikslumo optimizavimo atveju, priešingai, kiekviena įvesties ir išvesties pora traktuojama kaip nepriklausomas įvykis. Modelis tiesiog išmoksta kuo greičiau ir tiksliau susieti įvestis su teisingomis išvestimis, nesijaudindamas dėl tolesnių pasekmių.

Grįžtamasis ryšys ir mokymosi signalai

Ilgalaikėse sistemose atlygis dažnai gaunamas retai ir su dideliu vėlavimu, todėl egzistuoja tokie algoritmai kaip mokymasis pagal laiko skirtumus, siekiant panaikinti atotrūkį tarp veiksmo ir rezultato. Trumpalaikės sistemos naudojasi tankiu, tiesioginiu grįžtamuoju ryšiu per nuostolių funkcijas, kurios kiekviename pavyzdyje lygina prognozes su faktine tiesa. Dėl to trumpalaikis mokymas yra stabilesnis, bet kartu ir trumparegiškesnis, nes modelis niekada neišmoksta palyginti šiandienos tikslumo su rytojaus kaina.

Tyrinėjimas prieš išnaudojimą

Būdingas ilgalaikio optimizavimo bruožas yra poreikis tyrinėti nepažįstamus veiksmus, siekiant atrasti geresnes strategijas, net kai žinomas veiksmas duoda deramą atlygį. Šiam tikslui tinka tokios technikos kaip „epsilono godumo“ politika, entropijos premijos ir viršutinės pasitikėjimo ribos. Trumpalaikiai tikslumo modeliai retai tyrinėja, nes jų mokymo signalas gaunamas iš paženklintų pavyzdžių, o ne iš aplinkos atlygio, todėl jie išnaudoja bet kokius duomenų rinkinyje jau esančius modelius.

Skaičiavimo ir duomenų reikalavimai

Ilgalaikėms atlygio sistemoms paprastai reikalinga interaktyvi aplinka arba sudėtingi simuliatoriai, kuriuos sukurti ir paleisti gali būti brangu. Pavyzdžiui, „AlphaGo“ sukūrė milijonus savarankiškų žaidimų, kol pasiekė antžmogišką našumą. Trumpalaikės tikslumo sistemos remiasi statiniais duomenų rinkiniais, kuriuos galima pakartotinai naudoti daugelyje mokymo ciklų, todėl jas pigiau iteruoti, bet kartu ir apriboti iki bet kokių žinių, kurias tie duomenų rinkiniai koduoja.

Realaus pasaulio stipriosios ir silpnosios pusės

Ilgalaikis optimizavimas išsiskiria nuoseklaus sprendimų priėmimo problemose, tokiose kaip autonominis vairavimas, dinaminis kainodaros nustatymas ir pokalbių agentai, kurie turi planuoti daugiapakopius dialogus. Trumpalaikis tikslumas dominuoja suvokimo užduotyse, tokiose kaip medicininis vaizdavimas, šlamšto aptikimas ir mašininis vertimas, kur kiekvienas įvesties elementas yra atskiras. Šie du metodai nėra vienas kito nepaneigiantys, ir šiuolaikinės sistemos dažnai juos derina, pavyzdžiui, iš anksto apmokydamos modelį tikslumui, o vėliau jį tiksliai derindamos sustiprinto mokymosi iš žmonių atsiliepimų pagalba.

Apibendrinimas ir patikimumas

Kadangi ilgalaikiai agentai nuolat gauna grįžtamąjį ryšį iš savo aplinkos, jie gali prisitaikyti prie kintančių sąlygų taip, kaip negali statiniai tikslumo modeliai. Rekomendacijų sistema, apmokyta naudojant ilgalaikius atlygio signalus, prisitaikys, kai pasikeis vartotojo nuostatos, o klasifikatorius, apmokytas trumpalaikiam tikslumui, gali tyliai sugesti, kai pasikeis įvesties pasiskirstymas. Šis prisitaikymas kainuoja saugumo problemas, nes tyrinėjimas mokymo metu gali sukelti žalingus veiksmus.

Privalumai ir trūkumai

Ilgalaikio atlygio optimizavimas

Privalumai

+ Planai dėl būsimų rezultatų
+ Prisitaiko prie besikeičiančios aplinkos
+ Atranda naujų strategijų
+ Gerai sprendžia nuoseklius sprendimus

Pasirinkta

− Retas uždelstas grįžtamasis ryšys
− Didelės skaičiavimo išlaidos
− Sunku priskirti veiksmams nuopelnus
− Rizikingas tyrinėjimo elgesys

Trumpalaikis tikslumo optimizavimas

Privalumai

+ Greitas stabilus treniravimas
+ Pigu iteruoti
+ Tankus tiesioginis grįžtamasis ryšys
+ Puikūs etaloniniai rezultatai

Pasirinkta

− Trumparegystė dėl būsimų išlaidų
− Trapus pamainomis
− Riboja duomenų rinkinio šališkumas
− Nėra tyrinėjimo mechanizmo

Dažni klaidingi įsitikinimai

Mitas

Pastiprinimo mokymasis visada pranoksta prižiūrimą mokymąsi, nes jis optimizuoja ilgalaikius tikslus.

Realybė

Ilgalaikis atlygio optimizavimas pranoksta trumpalaikį tikslumą tik tada, kai užduočiai atlikti iš tiesų reikia nuoseklių sprendimų. Nepriklausomos klasifikacijos ar regresijos problemoms spręsti prižiūrimi metodai išlieka greitesni, pigesni ir dažnai tikslesni.

Mitas

Trumpalaikiai tikslumo modeliai negali nieko sužinoti apie būsimas pasekmes.

Realybė

Dideli kalbos modeliai, apmokyti naudojant kito žetono prognozavimą, gali netiesiogiai užfiksuoti ilgalaikes priklausomybes, net jei nuostolių funkcija skaičiuojama po vieną žetoną. Skirtumas slypi mokymo tiksle, o ne būtinai modelio reprezentavimo pajėgume.

Mitas

Ilgalaikiam atlygio optimizavimui nereikia jokių paženklintų duomenų.

Realybė

Daugelyje praktinių sistemų derinami abu metodai, naudojant prižiūrimą išankstinį mokymą, kad būtų sukurta politika prieš taikant sustiprintąjį mokymąsi. Grynas atlygiu pagrįstas mokymasis nuo nulio yra retas, išskyrus žaidimus ir simuliacines sritis.

Mitas

Didesnis bandymų rinkinio tikslumas reiškia, kad modelis geriau veiks diegimo metu.

Realybė

Testo tikslumas matuoja našumą statiniame skirstinyje. Realioje aplinkoje, kurioje įvesties duomenys laikui bėgant kinta, modelis, optimizuotas ilgalaikiam atlygiui per nuolatinį grįžtamąjį ryšį, dažnai pranoksta statinį tikslumo modelį, nepaisant žemesnių etaloninių balų.

Mitas

Atlygio įsilaužimas yra problema tik ilgalaikiam optimizavimui.

Realybė

Bet kuri sistema su tarpinio serverio tikslu gali būti imituojama. Trumpalaikiai tikslumo modeliai taip pat gali išnaudoti duomenų rinkinių artefaktus arba etikečių triukšmą, kad padidintų metrikas nepagerindami realaus naudingumo.

Dažnai užduodami klausimai

Kuo pagrindinis skirtumas tarp ilgalaikio atlygio optimizavimo ir trumpalaikio tikslumo optimizavimo?

Ilgalaikis atlygio optimizavimas maksimaliai padidina bendrą būsimą grąžą per sprendimų seką, o trumpalaikis tikslumo optimizavimas maksimaliai padidina kiekvienos individualios prognozės teisingumą. Pirmasis planuoja į priekį, antrasis reaguoja į dabartį.

Kuris metodas yra geresnis didelių kalbos modelių mokymui?

Šiuolaikiniai kalbos modeliai paprastai pradedami nuo trumpalaikio tikslumo optimizavimo, taikant kito žetono numatymą, o tada pereina antrąjį ilgalaikio atlygio optimizavimo etapą, naudojant sustiprintą mokymąsi iš žmonių grįžtamojo ryšio. Šis hibridinis metodas apjungia abiejų paradigmų stipriąsias puses.

Kodėl ilgalaikis atlygio optimizavimas yra sunkesnis nei trumpalaikis tikslumas?

Sunkumai kyla dėl uždelsto ir negausaus grįžtamojo ryšio. Kai atlygis gaunamas praėjus daug žingsnių po jį sukėlusio veiksmo, algoritmas turi išsiaiškinti, kuris ankstesnis sprendimas nusipelno pripažinimo – šis iššūkis vadinamas įvertinimo priskyrimo problema.

Ar trumpalaikio tikslumo modeliai gali būti naudojami sprendimų priėmimo užduotims?

Taip, bet su apribojimais. Modelis, apmokytas tik neatidėliotinam tikslumui, gali būti naudojamas kaip politika, jei aplinka yra statiška ir kiekvienas sprendimas yra nepriklausomas. Tokiose užduotyse kaip autonominis vairavimas ar daugiapakopis dialogas, ilgalaikis atlygio optimizavimas paprastai sukuria nuoseklesnį elgesį.

Kokie algoritmai naudojami ilgalaikiam atlygio optimizavimui?

Įprasti pasirinkimai apima Q mokymąsi, SARSA, giliuosius Q tinklus, proksimalinį politikos optimizavimą, pranašumo aktorių-kritikų paiešką ir Monte Karlo medžio paiešką. Kiekvienas iš jų skirtingai sprendžia uždelsto atlygio problemą, subalansuodamas imties efektyvumą su skaičiavimo sąnaudomis.

Kaip vertinate ilgalaikio atlygio optimizavimo sėkmę?

Sėkmė matuojama pagal sukauptą atlygį per epizodą arba visą gyvenimą, dažnai diskontuojant jį, kad būtų teikiama pirmenybė trumpalaikiams laimėjimams. Metrika apima vidutinį epizodų grąžą, laimėjimų rodiklius žaidimuose ir ilgalaikių užduočių atlikimo rodiklius.

Ar trumpalaikis tikslumo optimizavimas vis dar aktualus sustiprinimo mokymosi eroje?

Be abejo. Dauguma gamybinių dirbtinio intelekto sistemų, pradedant medicininiu vaizdavimu ir baigiant sukčiavimo aptikimu, remiasi prižiūrimu tikslumo optimizavimu. Tai išlieka dominuojančia paradigma visur, kur egzistuoja žymėti duomenys ir sprendimai priimami nepriklausomai.

Kas yra atlygio įsilaužimas ir kuris metodas labiau kenčia nuo jo?

Atlygio įsilaužimas įvyksta, kai agentas randa būdą maksimaliai padidinti savo atlygio signalą, faktiškai neišsprendęs numatytos užduoties. Tai dažniau pasitaiko ilgalaikiame atlygio optimizavime, nes atlygio funkcija dažnai yra pakaitinis rodiklis, tačiau trumpalaikiai tikslumo modeliai taip pat gali manipuliuoti metrika, išnaudodami duomenų rinkinius.

Ar šie du požiūriai konkuruoja, ar vienas kitą papildo?

Jie dažniau vienas kitą papildo, nei konkuruoja. Išankstinis tikslumo mokymas suteikia modeliui tvirtas pagrindines žinias, o atlygiu pagrįstas tikslinimas suderina tas žinias su tolesniais tikslais. Daugelyje pažangiausių sistemų naudojami abu iš eilės.

Kuriam metodui reikia daugiau duomenų?

Ilgalaikiam atlygio optimizavimui paprastai reikia daug daugiau interaktyvios patirties, dažnai milijonų epizodų, nes kiekvienas epizodas duoda tik kelis atlygio signalus. Trumpalaikiam tikslumo optimizavimui reikia didelių paženklintų duomenų rinkinių, tačiau jie efektyviai pakartotinai naudojami daugelyje epochų.

Nuosprendis

Rinkitės ilgalaikį atlygio optimizavimą, kai jūsų problema susijusi su nuosekliais sprendimais, kur ankstyvieji veiksmai formuoja vėlesnius rezultatus, pavyzdžiui, robotikos, žaidimų ar adaptyvių sistemų srityse. Rinkitės trumpalaikį tikslumo optimizavimą, kai jums reikia patikimų ir greitų prognozių, pagrįstų nepriklausomais pavyzdžiais, tokiais kaip klasifikavimas, aptikimas ar vertimas. Praktiškai stipriausios dirbtinio intelekto sistemos dažnai derina abu šiuos metodus, naudodamos į tikslumą orientuotą išankstinį mokymą, po kurio seka atlygiu pagrįstas tikslinimas.

Susiję palyginimai

„DeepSeek V4“ ir „GPT-4“ klasės modeliai

„DeepSeek V4“ yra kylantis atvirojo svorio didelių kalbų modelis, sukurtas Kinijos dirbtinio intelekto laboratorijoje, o GPT-4 klasės modeliai nurodo „OpenAI“ flagmanines uždarojo kodo sistemas. Šiame palyginime nagrinėjama jų architektūra, galimybės, kainos, prieinamumas ir našumas realiame pasaulyje, siekiant padėti kūrėjams ir įmonėms išmintingai pasirinkti.

„Google“ paieška ir žinių grafiko paieška

„Google“ paieška yra plataus masto žiniatinklio indeksavimo variklis, kurį dauguma žmonių naudoja kasdien, o „Knowledge Graph Search“ yra „Google“ struktūrizuotų objektų duomenų bazė, kurioje pateikiami tiesioginiai atsakymai ir informacijos skydeliai. Supratimas, kuo jie skiriasi, padeda paaiškinti, kodėl kai kurios užklausos pateikia išsamius faktus, o kitos – tradicines mėlynas nuorodas.

„Google“ paieškos algoritmas ir supaprastinti klasės modeliai

„Google“ paieškos algoritmas reitinguoja milijardus tinklalapių, naudodamas mašininį mokymąsi ir šimtus signalų, o supaprastinti klasių modeliai perteikia dirbtinio intelekto koncepcijas į lengvai mokomas, prieinamas sistemas. Viena sistema veikia planetos mastu gamyboje; kita tarnauja kaip pedagoginis tiltas mokiniams, mokantis, kaip iš tikrųjų veikia dirbtinis intelektas.

„Vienas su vienu“ atitikimas aptikimo ir daugelio su vienu atitikimo metodų srityse

„Vienas su vienu“ atitikimo metodas kiekvienam pagrindiniam objektui priskiria vieną numatomą langelį, o „daugelis su vienu“ atitikimo metodas leidžia kelias prognozes suderinti su vienu taikiniu. Abi strategijos formuoja tai, kaip šiuolaikiniai detektoriai, tokie kaip DETR ir „Faster R-CNN“, mokosi lokalizuoti objektus, kiekvienas iš jų turi skirtingus kompromisus tikslumo, mokymo stabilumo ir pasikartojančių aptikimų tvarkymo srityse.

A/B testavimas modelių aptarnavime ir vieno modelio diegime

A/B testavimas modeliuose nukreipia srautą tarp konkuruojančių modelio versijų, kad būtų galima įvertinti realų našumą, o diegiant vieną modelį visiems vartotojams pateikiamas vienas modelis. Komandos renkasi iš jų pagal rizikos toleranciją, srauto kiekį ir statistinio patvirtinimo poreikį prieš visišką diegimą.