Self-RAG całkowicie zastępuje komponent odzyskujący.
Self-RAG nadal korzysta z funkcji pobierania, ale dodaje warstwę decyzyjną. Model wybiera moment wywołania pobierania zamiast całkowicie usuwać je z potoku.
Self-RAG wprowadza autorefleksyjną warstwę wyszukiwania, która pozwala modelom językowym na krytykę i adaptację własnych wyników, podczas gdy standardowe potoki RAG opierają się na stałym procesie pobierania i odczytu. Kluczowa różnica polega na adaptacyjnej kontroli w porównaniu z przewidywalnym, liniowym wykonywaniem.
Struktura rozszerzona o wyszukiwanie, w której model samodzielnie ocenia i decyduje, kiedy wyszukać informacje.
Tradycyjne podejście do generowania danych wspomagane wyszukiwaniem, które najpierw wyszukuje dokumenty, a następnie przekazuje je do modelu językowego.
| Funkcja | Samo-RAG | Standardowe rurociągi RAG |
|---|---|---|
| Strategia odzyskiwania | Adaptacyjny model decyduje, kiedy pobrać | Zawsze odszukuje przed odpowiedzią |
| Samoocena | Wbudowane tokeny refleksyjne do kontroli jakości | Brak wewnętrznego mechanizmu krytyki |
| Koszt obliczeniowy | Niższy, gdy pobieranie jest pomijane | Stały koszt zapytania |
| Dokładność odpowiedzi | Wyższy poziom w zadaniach wymagających złożonego rozumowania | Mocne, ale może zawierać nieistotny kontekst |
| Złożoność implementacji | Bardziej złożony proces szkoleniowy | Łatwiejsze wdrażanie i konserwacja |
| Elastyczność | Dostosowuje się dynamicznie do zapytania | Stały przepływ pracy niezależnie od typu zapytania |
| Wymagania szkoleniowe | Potrzebne są dane oznaczone etykietą refleksyjną | Wystarczy standardowe dostrajanie |
| Utajenie | Zmienna w zależności od decyzji dotyczących pobierania | Przewidywalne opóźnienie dwuetapowe |
Standard RAG działa w oparciu o prosty, dwuetapowy proces, w którym moduł pobierający pobiera odpowiednie dokumenty, a generator generuje odpowiedź uwarunkowaną tym kontekstem. Self-RAG nakłada na niego proces decyzyjny, pozwalając modelowi emitować tokeny refleksji, które określają, czy pobieranie jest potrzebne i czy dane wyjściowe są uziemione. Dzięki temu Self-RAG jest bardziej modułowy w myśleniu, podczas gdy standardowy RAG pozostaje prostszy i łatwiejszy do zrozumienia.
standardowym algorytmie RAG każde zapytanie uruchamia krok pobierania, niezależnie od tego, czy model posiada już odpowiednią wiedzę. Self-RAG odwraca ten proces, ucząc model oceniania, kiedy informacje zewnętrzne są rzeczywiście potrzebne. W przypadku pytań opartych na faktach, na które model może odpowiedzieć za pomocą własnych wag, Self-RAG całkowicie pomija pobieranie, co redukuje szum i przyspiesza odpowiedzi.
Self-RAG wprowadza cztery tokeny refleksji, które pełnią funkcję punktów kontrolnych w całym procesie generowania. Tokeny te pozwalają modelowi oznaczać niepotwierdzone twierdzenia i ponawiać próby, gdy dowody są słabe. Standardowy RAG nie posiada takiej wewnętrznej pętli sprzężenia zwrotnego, więc halucynacje lub odpowiedzi nie na temat mogą się przedostać, chyba że zostaną dodane zewnętrzne zabezpieczenia.
testach porównawczych, takich jak PopQA, ARC-Challenge i PubHealth, Self-RAG wykazał wymierne korzyści w porównaniu ze standardowymi bazami RAG, szczególnie w przypadku pytań wymagających rozumowania wieloskokowego. Standardowy RAG nadal dobrze radzi sobie z prostymi wyszukiwaniami faktograficznymi, gdzie wyszukiwanie niezawodnie wskazuje właściwy fragment. Różnica w wydajności pogłębia się wraz ze wzrostem złożoności pytań.
Standardowy RAG pozostaje domyślnym wyborem dla większości systemów produkcyjnych, ponieważ integruje się płynnie z istniejącymi bazami danych wektorowych i nie wymaga specjalistycznych danych treningowych. Self-RAG wymaga większego nakładu pracy inżynierskiej, w tym generowania zestawów danych z etykietami odbiciowymi i precyzyjnego dostrajania modelu w celu emisji odpowiednich tokenów. Dla zespołów z ograniczonymi zasobami ML standardowy RAG jest pragmatycznym rozwiązaniem.
Self-RAG całkowicie zastępuje komponent odzyskujący.
Self-RAG nadal korzysta z funkcji pobierania, ale dodaje warstwę decyzyjną. Model wybiera moment wywołania pobierania zamiast całkowicie usuwać je z potoku.
Standard RAG jest przestarzały i nieprzydatny.
Standard RAG pozostaje fundamentem większości produkcyjnych systemów AI. Self-RAG rozwija go, zamiast go zastępować, a wiele zespołów nadal osiąga doskonałe rezultaty, stosując klasyczne podejście.
Self-RAG zawsze pobiera więcej dokumentów niż standardowy RAG.
Self-RAG często pobiera mniej dokumentów, ponieważ może pominąć wyszukiwanie, gdy jest to niepotrzebne. Adaptacyjny charakter oznacza, że pobiera kontekst tylko wtedy, gdy model uzna go za pomocny.
Do uruchomienia Self-RAG potrzebny jest GPT-4.
Self-RAG można wdrożyć za pomocą różnych modeli open source. W oryginalnym artykule wykorzystano Llama 2 dostrojoną za pomocą tokenów refleksyjnych, co dowodzi, że podejście to działa poza systemami zastrzeżonymi.
Standard RAG nie jest w stanie obsłużyć złożonego rozumowania.
Standardowy RAG dobrze radzi sobie ze złożonym rozumowaniem w połączeniu z silnymi generatorami i dobrymi strategiami fragmentacji. Self-RAG poprawia przypadki brzegowe, ale standardowy RAG nie jest z natury ograniczony do prostych zapytań.
Wybierz Self-RAG, gdy jakość odpowiedzi, redukcja halucynacji i efektywność adaptacyjna są ważniejsze niż prostota implementacji, szczególnie w przypadku złożonych zadań rozumowania. Standardowe potoki RAG nadal lepiej sprawdzają się w przypadku prostych wdrożeń, gdzie priorytetem są przewidywalne opóźnienia i łatwa integracja z istniejącą infrastrukturą.
W tym porównaniu analizuje się strategiczne wybory w uczeniu maszynowym między adaptacją domeny, która przenosi wiedzę z oznaczonego środowiska źródłowego do innego środowiska docelowego, a uczeniem w domenie, które buduje modele wyłącznie w oparciu o dane zebrane w konkretnym środowisku wdrożenia docelowego.
Adaptacja językowa w sztucznej inteligencji koncentruje się na uczeniu modeli obsługi konkretnych języków poprzez precyzyjne dostrajanie i transfer wiedzy, podczas gdy systemy sztucznej inteligencji niezależne od języka dążą do przetwarzania dowolnego języka bez szkolenia językowego. Oba podejścia radzą sobie z wyzwaniami wielojęzyczności, ale różnią się zasadniczo pod względem architektury, danych szkoleniowych i wdrożenia w warunkach rzeczywistych.
Adaptacyjne pobieranie dynamicznie dostosowuje sposób i rodzaj informacji pobieranych przez system na podstawie zapytania, podczas gdy statyczne potoki pobierania podążają za stałymi regułami niezależnie od kontekstu. Oba te rozwiązania napędzają nowoczesne aplikacje AI, ale różnią się znacząco elastycznością, kosztami i dokładnością. Wybór między nimi zależy od złożoności obciążenia i budżetu.
Agenci AI to autonomiczne, zorientowane na cel systemy, które potrafią planować, wnioskować i wykonywać zadania w różnych narzędziach, podczas gdy tradycyjne aplikacje internetowe podążają za sztywnymi, sterowanymi przez użytkownika przepływami pracy. Porównanie podkreśla przejście od statycznych interfejsów do adaptacyjnych, kontekstowych systemów, które mogą proaktywnie wspierać użytkowników, automatyzować decyzje i dynamicznie wchodzić w interakcje z wieloma usługami.
Agenci AI zorientowani na zadania są stworzeni do autonomicznego wykonywania określonych przepływów pracy, podczas gdy uniwersalne modele językowe służą jako wszechstronne generatory tekstu, reagujące na szeroki zakres podpowiedzi. Wybór między nimi zależy od tego, czy potrzebujesz niezawodnego wykonywania zadań, czy elastycznej inteligencji konwersacyjnej.