RAG (generacja wspomagana wyszukiwaniem) kontra dostrojone LLM
Zarówno RAG, jak i dostrojone modele LLM poprawiają jakość wyników AI, ale działają zasadniczo w różny sposób. RAG pobiera informacje zewnętrzne w momencie zapytania, podczas gdy dostrajanie wbudowuje nową wiedzę bezpośrednio w wagi modelu. Wybór między nimi zależy od częstotliwości zmian danych i wymaganej dokładności.
Najważniejsze informacje
RAG pobiera informacje na żywo z zewnętrznych źródeł, a proces dostrajania polega na osadzaniu wiedzy w wagach modelu.
RAG oferuje wbudowaną funkcję atrybucji źródła, dzięki czemu weryfikacja i audyt odpowiedzi sztucznej inteligencji są łatwiejsze.
Dostrajanie doskonale sprawdza się w nauczaniu spójnego stylu, tonu i ustrukturyzowanych formatów wyjściowych.
Wiele systemów produkcyjnych łączy oba te podejścia, stosując dostrajanie zachowań i RAG do uzasadniania faktów.
Czym jest RAG (Generacja Wzbogacona o Odzyskiwanie)?
Technika łącząca modele językowe z zewnętrznymi bazami wiedzy, dzięki czemu mogą one pobierać aktualne informacje przed wygenerowaniem odpowiedzi.
Koncepcja RAG została przedstawiona w artykule z 2020 r. przez Patricka Lewisa i współpracowników z Facebook AI Research.
Łączy komponent odzyskiwania z modelem generatora w celu uziemienia odpowiedzi w pobranych dokumentach.
Podejście to redukuje halucynacje poprzez zakotwiczenie odpowiedzi w sprawdzalnym materiale źródłowym.
Popularne struktury obsługujące RAG to LangChain, LlamaIndex i Haystack.
Bazy danych wektorowych, takie jak Pinecone, Weaviate i FAISS, są powszechnie używane do przechowywania osadzeń w celu późniejszego pobrania.
Czym jest Dopracowane studia LLM?
Modele językowe, które przeszły dodatkowe szkolenie na zestawach danych specyficznych dla danej dziedziny, aby wyspecjalizować ich zachowanie i wiedzę.
Dokładne dostrajanie polega na dostosowywaniu wewnętrznych wag wstępnie wytrenowanego modelu przy użyciu oznaczonych przykładów.
OpenAI, Meta i Mistral oferują interfejsy API umożliwiające precyzyjne dostrajanie lub modele bazowe nadające się do personalizacji.
Do powszechnie stosowanych metod zalicza się pełne dostrajanie, LoRA i QLoRA służące do efektywnego treningu pod względem parametrów.
Dokładnie dostrojone modele mogą uczyć się konkretnych formatów wyjściowych, tonów i terminologii dziedzinowej.
Proces ten zwykle wymaga starannie dobranych danych szkoleniowych obejmujących od setek do milionów przykładów.
Tabela porównawcza
Funkcja
RAG (Generacja Wzbogacona o Odzyskiwanie)
Dopracowane studia LLM
Metoda aktualizacji wiedzy
Pobiera dokumenty zewnętrzne w czasie wykonywania
Aktualizacje wbudowywane w wagi modelu podczas treningu
Świeżość danych
Prawie w czasie rzeczywistym, wystarczy zaktualizować bazę wiedzy
Wymaga przekwalifikowania w celu włączenia nowych informacji
Koszt wdrożenia
Niższy początkowy poziom, głównie konfiguracja przechowywania i pobierania wektorów
Wyższy poziom początkowy wymaga obliczeń GPU i oznaczonych danych
Ryzyko halucynacji
Niżej, odpowiedzi opierają się na odzyskanych źródłach
Wyżej, model może wymyślać fakty poza danymi szkoleniowymi
Przypisanie źródła
Wbudowane cytowania pobranych dokumentów
Brak śledzenia natywnego źródła, chyba że zostanie ono wyraźnie przeszkolone
Wymagane dane treningowe
Minimalny, tylko korpus do indeksowania
Znaczna liczba, od setek do tysięcy starannie wyselekcjonowanych przykładów
Najlepszy przypadek użycia
Dynamiczne bazy wiedzy, pytania i odpowiedzi dotyczące dokumentów zastrzeżonych
Stałe domeny, określone style, ustrukturyzowane wyniki
Skalowalność
Skalowanie poprzez rozszerzanie bazy danych wektorowych
Skalowanie poprzez ponowne szkolenie lub używanie większych modeli bazowych
Szczegółowe porównanie
Jak działają pod maską
RAG działa dwuetapowo: najpierw wyszukiwarka przeszukuje bazę danych wektorów lub magazyn dokumentów w poszukiwaniu treści istotnych dla zapytania użytkownika, a następnie model języka generuje odpowiedź uwarunkowaną tym wyszukanym kontekstem. Dostrajanie natomiast modyfikuje parametry modelu bezpośrednio, kontynuując trenowanie na wyselekcjonowanym zbiorze danych, dzięki czemu nowe zachowanie staje się częścią wewnętrznej wiedzy modelu, a nie czymś, co on sam wyszukuje.
Obsługa zmieniających się informacji
Gdy materiał źródłowy jest często aktualizowany, RAG ma wyraźną przewagę. Można odświeżać bazę wiedzy, dodając, usuwając lub edytując dokumenty, a system natychmiast uwzględnia te zmiany w kolejnym zapytaniu. Modele precyzyjnie dostrojone wiedzą natomiast tylko to, na czym zostały wytrenowane, więc każda aktualizacja wymaga zebrania nowych przykładów i uruchomienia kolejnego cyklu treningowego, który może trwać od kilku godzin do kilku dni, w zależności od rozmiaru zbioru danych.
Dokładność i wiarygodność
Systemy RAG mają tendencję do mniejszej ilości halucynacji, ponieważ model jest wyraźnie oparty na pobranym tekście i można wskazać użytkownikom, które dokumenty dokładnie dostarczyły odpowiedzi. Dopracowane modele mogą być bardzo dokładne w ramach rozkładu treningowego, ale mogą z dużym prawdopodobieństwem generować błędne odpowiedzi, gdy są pytane o przypadki brzegowe lub tematy spoza tego rozkładu, ponieważ nie mają mechanizmu weryfikacji w źródłach zewnętrznych.
Wymagania dotyczące kosztów i zasobów
Rozpoczęcie korzystania z RAG jest stosunkowo tanie: potrzebne są osadzenia, magazyn wektorów i API LLM, a koszty skalują się głównie wraz z wolumenem zapytań i rozmiarem pamięci masowej. Dostrajanie wymaga większych początkowych inwestycji w czas GPU, przygotowanie danych i eksperymentowanie, choć późniejsze koszty wnioskowania mogą być niższe, ponieważ nie trzeba przesyłać dużych okien kontekstowych pobranych dokumentów przy każdym wywołaniu.
Kiedy połączyć oba
Wiele systemów produkcyjnych faktycznie wykorzystuje oba podejścia jednocześnie. Dopracowany model może obsługiwać styl konwersacji, formatowanie i specyficzne dla danej dziedziny wzorce rozumowania, podczas gdy RAG zapewnia warstwę wiedzy faktograficznej. Ta hybrydowa konfiguracja często przewyższa każdą z tych metod osobno, szczególnie w aplikacjach korporacyjnych, gdzie liczy się zarówno kontrola tonu, jak i dokładność faktograficzna.
Zalety i wady
RAG (Generacja Wzbogacona o Odzyskiwanie)
Zalety
+Zawsze aktualne dane
+Niższy wskaźnik halucynacji
+Wbudowane cytowania
+Tanie w aktualizacji
Zawartość
−Większe opóźnienie wnioskowania
−Zależna od jakości pobierania
−Większe tokeny kontekstowe
−Konserwacja bazy danych Vector
Dopracowane studia LLM
Zalety
+Spójny styl wyjściowy
+Niższy koszt wnioskowania
+Nie ma potrzeby pobierania
+Wbudowana wiedza specjalistyczna
Zawartość
−Drogie przekwalifikowanie
−Wiedza staje się nieaktualna
−Ryzyko nadmiernego dopasowania
−Potrzebne są starannie dobrane dane
Częste nieporozumienia
Mit
RAG i dostrajanie to konkurencyjne podejścia, pomiędzy którymi należy dokonać wyboru.
Rzeczywistość
Rozwiązują różne problemy i często są stosowane łącznie. RAG zajmuje się wyszukiwaniem wiedzy, a dostrajanie – zachowaniem i stylem. Wiele systemów produkcyjnych łączy obie techniki, aby uzyskać najlepsze rezultaty.
Mit
Dokładnie dostrojone modele nigdy nie mają halucynacji, ponieważ zostały wytrenowane na Twoich danych.
Rzeczywistość
Dopracowane modele wciąż mogą wywoływać halucynacje, zwłaszcza w odniesieniu do tematów spoza ich rozkładu szkoleniowego lub w przypadku nieoczekiwanych podpowiedzi. Brakuje im mechanizmu uziemienia, który RAG zapewnia poprzez odzyskany kontekst.
Mit
RAG całkowicie eliminuje halucynacje.
Rzeczywistość
RAG redukuje halucynacje, ale ich nie eliminuje. Model nadal może błędnie interpretować odzyskane dokumenty, niepoprawnie łączyć informacje lub generować wiarygodnie brzmiące, ale niepoparte dowodami twierdzenia.
Mit
Aby skutecznie dostroić model, potrzebne są miliony przykładów.
Rzeczywistość
Nowoczesne metody efektywnego parametryzacji, takie jak LoRA i QLoRA, mogą dawać dobre wyniki już przy kilkuset lub kilku tysiącach wysokiej jakości przykładów, w zależności od złożoności zadania.
Mit
Do uruchomienia systemów RAG nie jest wymagane żadne szkolenie ani specjalistyczna wiedza.
Rzeczywistość
Efektywne potoki RAG wymagają przemyślanych strategii fragmentacji, doboru modelu osadzania, dostrajania wyszukiwania i szybkiego projektowania. Niewłaściwa konfiguracja może prowadzić do nieistotnych wyszukiwań i błędnych odpowiedzi, pomimo posiadania dobrych dokumentów źródłowych.
Często zadawane pytania
Jaka jest główna różnica pomiędzy RAG a dostrajaniem?
RAG pobiera istotne dokumenty z zewnętrznej bazy wiedzy w momencie zapytania i przekazuje je do modelu jako kontekst. Dostrajanie dostosowuje wewnętrzne wagi modelu poprzez dodatkowe trenowanie na niestandardowym zestawie danych. RAG koncentruje się na dostępie do wiedzy zewnętrznej, podczas gdy dostrajanie koncentruje się na zmianie zachowania modelu.
Co jest tańsze, RAG czy dostrajanie?
RAG jest generalnie tańszy na początek, ponieważ płaci się głównie za osadzenia, przechowywanie wektorów i wywołania API. Dostrajanie wymaga początkowej inwestycji w moc obliczeniową GPU, przygotowanie danych i eksperymentowanie. Jednak dostrojone modele mogą mieć niższe koszty wnioskowania na zapytanie, ponieważ nie muszą przetwarzać dużych, pobranych kontekstów.
Czy można używać RAG i dostrajania jednocześnie?
Tak, i wiele systemów produkcyjnych robi dokładnie to samo. Można dostroić model, aby przyjął określony ton, stosował się do formatów wyjściowych lub obsługiwał wnioskowanie specyficzne dla danej dziedziny, a następnie nałożyć na niego RAG, aby dostarczać faktyczne, aktualne informacje. Ta kombinacja często przewyższa każde z tych podejść stosowanych osobno.
Ile danych jest potrzebnych do dopracowania LLM?
Zależy to od zadania, ale nowoczesne techniki, takie jak LoRA i QLoRA, mogą dać dobre rezultaty przy kilkuset do kilku tysięcy wysokiej jakości przykładów. Bardziej złożone zadania lub pełne dostrajanie zazwyczaj wymagają dziesiątek tysięcy przykładów. W większości przypadków jakość danych jest ważniejsza niż ich ilość.
Czy RAG współpracuje z jakimkolwiek programem LLM?
RAG działa z praktycznie każdym generatywnym modelem języka, ponieważ jest wzorcem architektonicznym, a nie cechą specyficzną dla danego modelu. Można go używać z modelami GPT-4, Claude, Llama, Mistral lub modelami open source. Komponenty Retriever i Generator są w dużej mierze niezależne.
W jaki sposób dbasz o aktualność wiedzy dopracowanego modelu?
Trzeba ponownie wytrenować lub kontynuować trenowanie modelu z wykorzystaniem nowych danych, co jest kosztowne i czasochłonne. Niektóre zespoły stosują okresowe harmonogramy dostrajania, podczas gdy inne łączą dostrajanie z RAG, dzięki czemu model radzi sobie ze stylem i zachowaniem, a RAG dostarcza nowych faktów.
Które podejście jest lepsze dla aplikacji korporacyjnych?
Większość wdrożeń korporacyjnych korzysta z podejścia hybrydowego. RAG zajmuje się pytaniami i odpowiedziami dotyczącymi dokumentów zastrzeżonych, kwestiami zgodności oraz wszelkimi przypadkami użycia wymagającymi cytowania źródeł. Dostrajanie obejmuje głos marki, ustrukturyzowane wyniki i specjalistyczną terminologię. Wybór zależy od rozwiązywanego problemu.
Jakie są implikacje RAG w zakresie opóźnień?
RAG zwiększa opóźnienie, ponieważ system musi wykonać krok pobierania przed wygenerowaniem. W zależności od bazy danych wektorowych, modelu osadzania i liczby dokumentów, może to wydłużyć czas od 50 ms do kilku sekund. Modele precyzyjnie dostrojone całkowicie pomijają ten krok, dlatego zazwyczaj reagują szybciej.
Czy RAG obsługuje dane prywatne i poufne?
Tak, RAG doskonale nadaje się do przetwarzania danych prywatnych, ponieważ baza wiedzy pozostaje pod Twoją kontrolą. Możesz korzystać z samodzielnie hostowanych modeli osadzania i lokalnych baz danych wektorowych, aby zachować wszystko w ramach swojej infrastruktury. To jeden z powodów, dla których RAG jest popularny w aplikacjach korporacyjnych i opieki zdrowotnej.
Które podejście skuteczniej redukuje halucynacje?
Metoda RAG generalnie skuteczniej redukuje halucynacje, ponieważ odpowiedzi opierają się na odzyskanych dokumentach, które można zweryfikować i zacytować. Modele precyzyjnie dostrojone nadal mogą wywoływać halucynacje, zwłaszcza poza zasięgiem treningowym. Niemniej jednak, żadna z metod nie eliminuje halucynacji całkowicie i obie wymagają starannej oceny.
Wynik
Wybierz RAG, gdy Twoje informacje często się zmieniają, potrzebujesz cytowań źródeł lub pracujesz z dużymi, zastrzeżonymi zbiorami dokumentów. Wybierz dostrajanie, gdy potrzebujesz modelu, który konsekwentnie mówi określonym tonem, stosuje się do ścisłych formatów wyjściowych lub działa w wąskiej domenie ze stabilną wiedzą. Dla większości zespołów rozpoczęcie od RAG jest szybsze i tańsze, a zawsze możesz później dodać dostrajanie w celu udoskonalenia stylu i działania.