Self-RAG kompletně nahrazuje aportovací komponentu.
Self-RAG stále používá vyhledávač, ale přidává navrch rozhodovací vrstvu. Model volí, kdy spustit vyhledávání, spíše než aby vyhledávání z kanálu zcela odstranil.
Self-RAG zavádí vrstvu sebereflexivního vyhledávání, která umožňuje jazykovým modelům hodnotit a upravovat vlastní výstupy, zatímco standardní RAG kanály se spoléhají na pevný pracovní postup typu „načíst a poté přečíst“. Klíčový rozdíl spočívá v adaptivním řízení versus předvídatelném, lineárním provádění.
Rámec rozšířený o vyhledávání, kde model sám vyhodnocuje a rozhoduje, kdy načíst informace.
Tradiční přístup generování s rozšířeným vyhledáváním, který nejprve vyhledá dokumenty a poté je odešle do jazykového modelu.
| Funkce | Self-RAG | Standardní potrubí RAG |
|---|---|---|
| Strategie vyhledávání | Adaptivní, model rozhoduje, kdy načíst | Vždy se načte před odpovědí |
| Sebehodnocení | Vestavěné reflexní tokeny pro kontrolu kvality | Žádný interní mechanismus kritiky |
| Výpočetní náklady | Nižší, když je vyhledávání přeskočeno | Konzistentní cena za dotaz |
| Přesnost odpovědí | Vyšší úroveň v úlohách složitého uvažování | Silné, ale může obsahovat irelevantní kontext |
| Složitost implementace | Složitější tréninkový proces | Jednodušší nasazení a údržba |
| Flexibilita | Dynamicky se upravuje pro každý dotaz | Opravený pracovní postup bez ohledu na typ dotazu |
| Požadavky na školení | Potřebuje data označená reflexí | Postačí standardní jemné doladění |
| Latence | Variabilní v závislosti na rozhodnutích o vyhledávání | Předvídatelná dvoukroková latence |
Standardní RAG funguje na jednoduchém dvoustupňovém principu, kde vyhledávač načítá relevantní dokumenty a generátor vytváří odpověď podmíněnou tímto kontextem. Self-RAG vrství rozhodovací proces navrch a umožňuje modelu emitovat reflexní tokeny, které určují, zda je vyhledávání potřebné a zda je výstup uzemněný. Díky tomu je Self-RAG modulárnější, zatímco standardní RAG zůstává jednodušší a snáze se o něm uvažuje.
Ve standardním RAG každý dotaz spouští krok vyhledávání bez ohledu na to, zda model již má dané znalosti. Self-RAG to obrací tím, že trénuje model, aby posoudil, kdy jsou externí informace skutečně nezbytné. U faktických otázek, na které model dokáže odpovědět na základě vlastních vah, Self-RAG vyhledávání zcela přeskakuje, což snižuje šum a zrychluje odpovědi.
Self-RAG zavádí čtyři reflexní tokeny, které fungují jako kontrolní body v celém procesu generování. Tyto tokeny umožňují modelu označit nepodložená tvrzení a pokusit se opakovat, když jsou důkazy slabé. Standardní RAG nemá takovou vnitřní zpětnovazební smyčku, takže halucinace nebo odpovědi mimo téma mohou proklouznout, pokud nejsou přidány externí ochranné prvky.
benchmarkových testech, jako jsou PopQA, ARC-Challenge a PubHealth, vykázal Self-RAG měřitelné zlepšení oproti standardním RAG, zejména u otázek vyžadujících vícestupňové uvažování. Standardní RAG si stále vede dobře při jednoduchém vyhledávání faktů, kde vyhledávání spolehlivě odhalí správnou pasáž. Rozdíl ve výkonu se zvětšuje s rostoucí složitostí otázky.
Standardní RAG zůstává výchozí volbou pro většinu produkčních systémů, protože se čistě integruje se stávajícími vektorovými databázemi a nevyžaduje žádná specializovaná trénovací data. Self-RAG vyžaduje více inženýrského úsilí, včetně generování datových sad s reflexním značením a jemného doladění modelu pro emitování správných tokenů. Pro týmy s omezenými zdroji strojového učení je standardní RAG pragmatickou volbou.
Self-RAG kompletně nahrazuje aportovací komponentu.
Self-RAG stále používá vyhledávač, ale přidává navrch rozhodovací vrstvu. Model volí, kdy spustit vyhledávání, spíše než aby vyhledávání z kanálu zcela odstranil.
Standardní RAG je zastaralý a již není užitečný.
Standardní RAG zůstává základem většiny produkčních systémů umělé inteligence. Self-RAG na něm staví, místo aby ho nahrazoval, a mnoho týmů stále dosahuje vynikajících výsledků s klasickým přístupem.
Self-RAG vždy načte více dokumentů než standardní RAG.
Self-RAG často načítá méně dokumentů, protože může přeskočit načítání, když je to zbytečné. Adaptivní povaha znamená, že načítá kontext pouze tehdy, když ho model vyhodnotí jako užitečný.
Pro spuštění Self-RAG potřebujete GPT-4.
Self-RAG lze implementovat s různými open-source modely. Původní článek použil Llama 2 doladěný s reflexními tokeny, což dokazuje, že tento přístup funguje i mimo proprietární systémy.
Standardní RAG si nedokáže poradit se složitým uvažováním.
Standardní RAG si dobře poradí se složitým uvažováním, pokud je spárován se silnými generátory a dobrými strategiemi pro blokování. Self-RAG vylepšuje okrajové případy, ale standardní RAG není ze své podstaty omezen na jednoduché dotazy.
Zvolte Self-RAG, pokud je kvalita odpovědí, snížení halucinací a adaptivní efektivita důležitější než jednoduchost implementace, zejména u složitých úloh uvažování. Standardní RAG pipeline zůstávají vhodnější pro přímočará nasazení, kde jsou nejvyšší prioritou předvídatelná latence a snadná integrace se stávající infrastrukturou.
A/B testování u vydání obsahu zahrnuje zavádění variant pro různé segmenty publika a měření výkonu, zatímco jednorázová vydání obsahu nabídnou jednu verzi všem najednou. Každý přístup vyhovuje jiným cílům, přičemž A/B testování upřednostňuje optimalizaci na základě dat a jednorázová vydání upřednostňují rychlost a jednoduchost.
A/B testování v modelovém servisu směruje provoz mezi konkurenčními verzemi modelů za účelem měření reálného výkonu, zatímco nasazení jednoho modelu dodává jeden model všem uživatelům. Týmy si mezi nimi vybírají na základě tolerance rizika, objemu provozu a potřeby statistického ověření před plným nasazením.
Toto srovnání analyzuje strategické volby v oblasti strojového učení mezi adaptací domény, která přenáší znalosti z označeného zdrojového prostředí do jiného cílového prostředí, a školením v doméně, které vytváří modely výhradně na datech získaných z přesného cílového nastavení nasazení.
Toto podrobné srovnání zkoumá architektonické rozdíly, provozní limity a reálný výkon adaptivních inteligentních systémů v porovnání s automatizačními systémy s pevným chováním. Zaměřujeme se na to, jak se systémy, které se neustále učí z nových environmentálních dat, vyrovnávají s rigidními, předvídatelnými rámci založenými na pravidlech.
Adaptivní vyhledávání dynamicky upravuje, jak a jaké informace systém načítá, na základě dotazu, zatímco statické vyhledávání se řídí pevnými pravidly bez ohledu na kontext. Oba systémy pohánějí moderní aplikace umělé inteligence, ale výrazně se liší ve flexibilitě, nákladech a přesnosti. Výběr mezi nimi závisí na složitosti pracovní zátěže a rozpočtu.