Próba-szerencse módszerrel történő tanulás vs. címkézett adatkészlettel történő tanulás
A próbálkozáson és hibán alapuló tanulás, amelyet gyakran megerősítéses tanulásnak is neveznek, a mesterséges intelligenciát jutalmak és büntetések révén képezi a környezettel való interakciókból. A címkézett adatkészlet-tanulás, más néven felügyelt tanulás, előre címkézett példák segítségével tanítja a modelleket. Mindkét megközelítés meghatározza, hogyan sajátítják el a gépek a készségeket, de alapvetően különböznek az adatkövetelményekben és a visszacsatolási mechanizmusokban.
Kiemelt tartalmak
A próbálkozáson és hibán alapuló tanulás környezeti jutalmakon keresztül fedezi fel a stratégiákat, míg a címkézett adathalmazon alapuló tanulás ember által biztosított példákat követ.
A felügyelt tanulás drága, annotált adatokat igényel; a megerősítéses tanuláshoz valósághű környezetekre vagy szimulátorokra van szükség.
A megerősítéses tanulás a szekvenciális döntéshozatalban jeleskedik, és az emberi tudáson túlmutató új megoldásokat képes találni.
modern mesterséges intelligencia egyre inkább ötvözi mindkét módszert, ahogy az az RLHF esetében is látható, amelyet a beszélgetési modellek betanítására használnak.
Mi az a Próba-szerencse módszerrel történő tanulás?
Egy olyan képzési megközelítés, amelyben a mesterséges intelligencia által működtetett ügynökök a környezeti visszajelzések révén tanulják meg az optimális viselkedést, jutalmat kapva a jó cselekedetekért, és büntetést a rosszakért.
Általánosan ismert megerősítéses tanulás, a gépi tanulás egy ága, amelyet a viselkedéspszichológia ihletett
A gyakorlati mesterséges intelligencia úttörő kutatói olyanok voltak, mint Richard Sutton és Andrew Barto, akiknek munkája az 1990-es években formalizálta a területet.
Híres alkalmazások közé tartozik az AlphaGo, amely önálló játékon keresztüli tanulással győzte le a világbajnok Go játékosokat.
Nem igényel előre címkézett adatokat, ehelyett saját tanulójelet generál interakciós eredmények alapján
Széles körben használják robotikában, játékban, önvezető járművekben és dinamikus árképzési rendszerekben
Mi az a Címkézett adatkészlet-tanulás?
Egy olyan betanítási módszer, amelyben a mesterséges intelligencia modellek mintákat tanulnak olyan bemeneti-kimeneti párokat tartalmazó adathalmazokból, amelyeket emberek manuálisan annotáltak a helyes válaszokkal.
Korábban felügyelt tanulásnak nevezték, és továbbra is a legszélesebb körben elterjedt gépi tanulási paradigma az iparban.
Olyan alkalmazásokat működtet, mint az e-mail spamszűrők, képfelismerés, orvosi diagnosztikai eszközök és nyelvi fordítás
Jelentős emberi erőfeszítést igényel a címkézett adatkészletek létrehozása, ami költséges és időigényes lehet.
A modern nagy nyelvi modellek gerince a kurált szövegkorpuszokon végzett kezdeti betanítási fázisaik során
Az algoritmusok közé tartoznak a döntési fák, a support vector machine-ok, a neurális hálózatok és a gradiensnövelő módszerek.
Összehasonlító táblázat
Funkció
Próba-szerencse módszerrel történő tanulás
Címkézett adatkészlet-tanulás
Tanulási paradigma
Megerősítéses tanulás (RL)
Felügyelt tanulás (SL)
Adatkövetelmények
Interakciós környezet vagy szimulátor
Előre címkézett bemenet-kimenet párok
Visszajelző jel
Skaláris jutalmak vagy büntetések a cselekvésekből
A próbálkozáson és hibán alapuló tanulás úgy működik, hogy hagyjuk, hogy az ágens kölcsönhatásba lépjen egy környezettel, és megfigyelje tettei következményeit. Amikor az ágens valami hasznosat tesz, numerikus jutalmat kap; amikor hibázik, büntetést vagy semmit sem kap. Több ezer vagy millió iteráció során az ágens fokozatosan kidolgoz egy olyan szabályzatot, amely maximalizálja a kumulatív jutalmat. A címkézett adathalmazos tanulás teljesen más utat követ. Itt az emberek egy olyan adathalmazt készítenek, ahol minden bemenetet párosítanak a megfelelő kimenettel, és a modell a belső paramétereit úgy módosítja, hogy a lehető legjobban illeszkedjenek ezekhez a válaszokhoz.
Adatelőkészítés és költségek
Az egyik legnagyobb gyakorlati különbség a betanítási adatok forrásának módjában rejlik. A felügyelt tanulás gondosan címkézett adatkészleteket igényel, és ezek létrehozása hatalmas vállalkozás lehet. Az orvosi képalkotó projektek például gyakran megkövetelik, hogy szakértő radiológusok több ezer szkennelést lássanak el jegyzetekkel, ami több százezer dolláros költségeket eredményez. A megerősítéses tanulás ezt a szűk keresztmetszetet úgy kerüli el, hogy interakció révén saját betanítási jelet generál, bár ezt a problémát egy másikra cseréli: egy realisztikus környezet vagy szimulátor szükségességére, ahol az ágens biztonságosan kísérletezhet.
Erősségek különböző forgatókönyvekben
Amikor a cél szekvenciális döntéshozatalt foglal magában, ahol a hosszú távú stratégia számít, a próbálgatáson alapuló tanulás ragyog. Az olyan játékokat, mint a sakk, a Go és a StarCraft, olyan RL ágensek hódították meg, akik olyan stratégiákat fedeztek fel, amelyeket ember soha nem gondolt ki. A felügyelt tanulás dominál, ha egyértelmű példák vannak a helyes viselkedésre, és megbízható előrejelzésekre van szükség az új adatokra vonatkozóan. Az olyan feladatok, mint a csalárd tranzakciók észlelése, az arcok felismerése a fényképeken vagy a nyelvek közötti fordítás nagymértékben támaszkodnak a címkézett tanulóhalmazokra, mivel a bemenet és a kimenet közötti megfeleltetés jól definiált.
Korlátozások és kihívások
megerősítéses tanulás a mintavételezés hatékonyságának hiányával küzd, néha több millió epizódot igényel olyan feladatok megtanulásához, amelyeket egy ember percek alatt megértene. Emellett a felfedezés-kihasználás dilemmával is szembesül, ahol az ágensnek egyensúlyt kell találnia az új cselekvések kipróbálása és az ismert jóknál való ragaszkodás között. A felügyelt tanulást eközben korlátozza a betanítási címkék minősége és sokfélesége. A modellek örökölhetik az emberi elfogultságokat, kudarcot vallhatnak a terjesztésen kívüli bemeneteken, és stagnálhatnak, amikor a címkézett adatok elfogynak. Mindkét megközelítésben közösek az értelmezhetőség és a biztonság kihívásai, bár ezek eltérő módon nyilvánulnak meg.
Hibrid megközelítések a modern mesterséges intelligenciában
Az elmúlt években jelentősen elmosódott a határvonal e paradigmák között. Az olyan technikák, mint az RLHF (Reinforcement Learning from Human Feedback, azaz megerősített tanulás emberi visszajelzésből), mindkét világot ötvözik azáltal, hogy emberi preferenciákat használnak jutalmazási jelekként a kezdetben címkézett adatokon betanított modellek finomhangolásához. Az önfelügyelt tanulás is megjelent egy köztes megoldásként, ahol a modellek saját címkéket hoznak létre címkézetlen adatokból, mielőtt kisebb, kurált halmazokon finomhangolnák őket. Ezek a hibrid módszerek gyakran felülmúlják a tiszta megközelítéseket, ami arra utal, hogy a mesterséges intelligencia betanításának jövője a két stratégia erősségeinek ötvözésében rejlik.
Előnyök és hátrányok
Próba-szerencse módszerrel történő tanulás
Előnyök
+Nincs szükség címkézett adatokra
+Újszerű stratégiákat fedez fel
+Alkalmazkodik a dinamikus környezetekhez
+Hosszú távú optimalizálási fókusz
Tartalom
−A minta nem hatékony
−Szimulációs környezetet igényel
−Instabil képzési folyamat
−Nehéz hibakeresni és értelmezni
Címkézett adatkészlet-tanulás
Előnyök
+Gyors és stabil képzés
+Jól értett elmélet
+Erős előrejelzési pontosság
+Széleskörű szerszámtámogatás
Tartalom
−Drága adatcímkézés
−Korlátozott a betanítási adatok által
−Örökli az emberi elfogultságot
−Gyenge a terjesztésen kívüli adatok terén
Gyakori tévhitek
Mítosz
A megerősítéses tanuláshoz mindig szükség van egy fizikai robot működésére.
Valóság
A modern valós idejű kutatások nagy része teljes egészében szoftverszimulátorokban zajlik. A környezetek a videojátékoktól és fizikai motoroktól az egyedi fejlesztésű virtuális világokig terjednek. Fizikai robotokat csak akkor alkalmaznak, ha a végső alkalmazás valós telepítést igényel, és még akkor is a betanítás jellemzően szimulációban kezdődik, mielőtt hardverre kerülne.
Mítosz
A felügyelt tanulás bármilyen problémát megoldhat, ha elegendő adatot használunk fel.
Valóság
Több adat csak egy bizonyos pontig segít. Ha a címkék zajosak, torzítottak, vagy nem fedik le a fontos szélső eseteket, a modell megtanulja ezeket a hibákat. Az annotációk minősége és sokfélesége ugyanolyan fontos, mint a mennyisége, és egyes problémák egyszerűen nem keretezhetők felügyelt predikciós feladatként.
Mítosz
A próbálgatás-hiba tanulás teljesen felügyelet nélkül történik.
Valóság
A megerősítéses tanulás valójában egy különálló kategória, amely elkülönül mind a felügyelt, mind a felügyelet nélküli tanulástól. Bár nem igényel címkézett bemeneteket, olyan jutalmazási jelekre támaszkodik, amelyeket embereknek kell megtervezniük. Egy jó jutalmazási függvény megalkotása önmagában is kihívást jelentő mérnöki probléma.
Mítosz
A címkézett adathalmazos tanulás elavult az önfelügyelt módszerek miatt.
Valóság
A felügyelt tanulás továbbra is a termelési MI-rendszerek alapvető eszköze. Az önfelügyelt előtanítás gyakran csökkenti a szükséges címkézett adatok mennyiségét, de a címkézett példákon végzett finomhangolás továbbra is elengedhetetlen a legtöbb telepített alkalmazáshoz. A két megközelítés inkább kiegészíti, mint helyettesíti egymást.
Mítosz
megerősítéses tanuláson alapuló ágensek mindig megtalálják az optimális megoldást elegendő idő alatt.
Valóság
Az RL ágensek elakadhatnak a szuboptimális szabályoknál, különösen akkor, ha a jutalmazási jelek ritkák vagy rosszul megtervezettek. A feltárás alapvetően nehéz, és az ágensek soha nem fedezhetnek fel jobb stratégiákat, ha a jutalmak félrevezetőek, vagy ha az állapottér túl nagy az alapos kereséshez.
Gyakran Ismételt Kérdések
Mi a fő különbség a megerősítéses tanulás és a felügyelt tanulás között?
A lényegi különbség a tanulási jel generálásának módjában rejlik. A felügyelt tanulás előre címkézett példákat használ, ahol az emberek minden bemenetre helyes választ adtak. A megerősítéses tanulás saját visszajelzést generál a környezettel való interakció révén, jutalmat kapva a jó cselekedetekért és büntetést a rosszakért. Ez teszi az RL-t alkalmassá szekvenciális döntési problémákra, míg az SL a mintázatfelismerési feladatokban jeleskedik.
Melyik megközelítés igényel több adatot, a próbálkozásokon és hibákon alapuló vagy a címkézett adathalmazokból történő tanulást?
Attól függ, hogyan mérjük. A megerősítéses tanulás gyakran sokkal több interakciót igényel, néha több millió epizódot az összetett feladatok megtanulásához. A felügyelt tanulás azonban előzetesen több emberi erőfeszítést igényel, mivel minden példát manuálisan kell címkézni. Az RL az emberi címkézési időt számítógépes felfedezési időre cseréli, ami olcsóbb lehet, de lassabb.
Működhet a megerősítéses tanulás emberi beavatkozás nélkül?
A tiszta megerősítéses tanulás minimális emberi beavatkozással is lefuthat a betanítás során, de továbbra is emberek tervezik meg a jutalmazási függvényt, építik fel a környezetet és állítják be a betanítási hiperparamétereket. A jutalmazási függvény kritikus fontosságú, mert azt kódolja, hogy mire kell az ágensnek optimalizálnia. A rosszul megtervezett jutalmak nem szándékos viselkedéshez vezetnek, amint azt híresen láthattuk, amikor egy RL ágens megtanult kihasználni egy hibát ahelyett, hogy elvégezte volna a hozzárendelt feladatát.
A ChatGPT-t felügyelt tanulással vagy megerősítéses tanulással képezik?
ChatGPT mindkettőt használja. Az alapmodellt kezdetben önfelügyelt és felügyelt technikákkal képezték ki nagyméretű szöveges adathalmazokon. A finomhangolási szakasz, amely beszélgetési modellé tette, az emberi visszajelzésből származó megerősítéses tanulást (RLHF) használta, ahol az emberi értékelők összehasonlították a modell kimeneteit, és ezek a preferenciák egy jutalmazási modellt képeztek ki. Ez a hibrid megközelítés ötvözi a címkézett adatok betanításának erősségeit a jutalmazáson alapuló optimalizálással.
Melyik módszer jobb a képek osztályozására?
A felügyelt tanulás túlnyomórészt előnyben részesül a képosztályozásban. Az olyan modelleket, mint a konvolúciós neurális hálózatok és a vizuális transzformátorok, olyan adathalmazokon tanítják, mint az ImageNet, ahol minden képet a megfelelő kategóriával jelöltek meg. A megerősítéses tanulást ritkán használják tiszta osztályozásra, mivel sokkal kevésbé lenne mintavétel-hatékony és nehezebben stabilizálható, mint a közvetlen felügyelt betanítás.
Miért olyan népszerű a megerősítéses tanulás a játékalapú mesterséges intelligenciában?
játékok tökéletes környezetet biztosítanak a valódi valós életben való részvételhez (RL), mivel világos szabályokkal, gyors szimulációval és jól definiált jutalmazási jelekkel (győzelem, pontok szerzése) rendelkeznek. Az ágensek több millió játékot játszhatnak párhuzamosan, olyan stratégiákat felfedezve, amelyeket az emberek soha nem vennének figyelembe. A biztonságos kísérletezés és az egyértelmű visszajelzés ezen kombinációja emberfeletti teljesítményt eredményezett a Go-ban, a sakkban, a pókerben, a Dota 2-ben és a StarCraftban.
Honnan tudod, hogy melyik tanulási módszert alkalmazd egy új projekthez?
Kezdjük azzal a kérdéssel, hogy vannak-e címkézett adataink, és hogy a problémánk szekvenciális döntéseket igényel-e. Ha sok címkézett példánk van, és a bemenetekből kell megjósolnunk a kimeneteket, akkor a felügyelt tanulás a természetes választás. Ha a problémánk hosszú távú következményekkel járó cselekvéssorozatot igényel, és szimulálni tudjuk a környezetet, akkor érdemes megvizsgálni a megerősítéses tanulást. Sok projekt végül mindkettőt használja különböző szakaszokban.
Képes-e a címkézett adathalmazon alapuló tanulás valós idejű döntéshozatalt kezelni?
Igen, betanítás után a felügyelt modellek milliszekundumok alatt képesek előrejelzéseket készíteni, ami elég gyors számos valós idejű alkalmazáshoz, mint például a csalásészlelés, az ajánlórendszerek és az autonóm vezetés észlelési moduljai. A betanítási fázis tovább tart, de a következtetés gyors. A megerősítéses tanulást jellemzően olyan helyzetekre tartják fenn, ahol a döntések a jövőbeli állapotokat befolyásolják, nem csak az azonnali előrejelzéseket.
Mi az RLHF, és hogyan ötvözi a két tanulási módszert?
Az RLHF a Reinforcement Learning from Human Feedback (Megerősítő Tanulás Emberi Visszajelzésből) rövidítése. Egy címkézett adatokon betanított modellel kezdődik, majd emberi preferenciákat használ fel egy jutalomjel létrehozásához. A jutalommodell megtanulja megjósolni, hogy az emberek mely kimeneteket részesítik előnyben, és a megerősítéses tanulás finomhangolja az eredeti modellt a megjósolt jutalom maximalizálása érdekében. Ez a technika olyan modellek összehangolását teszi lehetővé, mint a GPT-4 és a Claude.
Vannak olyan problémák, ahol egyik megközelítés sem működik jól?
Igen, bizonyos problémák továbbra is nehézkesek maradnak mindkét paradigma számára. A nyílt végű kreatív feladatok, a józan észen alapuló érvelés új helyzetekben, valamint az olyan problémák, amelyek valódi megértést igényelnek a mintaillesztés helyett, mindkét megközelítést kihívás elé állítják. Ez ösztönözte az olyan új paradigmák kutatását, mint az önállóan felügyelt tanulás, a kevés lövéses tanulás és a neuroszimbolikus módszerek, amelyek célja a több technika erősségeinek ötvözése.
Ítélet
Válassza a próbálkozáson és hibán alapuló tanulást, ha a probléma szekvenciális döntéseket, dinamikus környezeteket vagy olyan helyzeteket foglal magában, ahol a helyes viselkedés előzetes meghatározása nehézkes, például robotika vezérlése vagy stratégiai játékok esetén. Válassza a címkézett adathalmazos tanulást, ha minőségi, jegyzetekkel ellátott adatokhoz fér hozzá, és megbízható előrejelzésekre van szüksége jól definiált feladatokra, például osztályozásra, regresszióra vagy mintázatfelismerésre. Számos valós rendszer számára előnyös a két megközelítés kombinálása, ahelyett, hogy kizárólag az egyiket választaná.