inteligenţă artificialăînvățare automatăcârpămasterat în dreptinstruire prin inteligență artificială
IA augmentată prin căutare vs. antrenament bazat doar pe seturi de date
Inteligența artificială augmentată prin căutare extrage informații live din surse externe în momentul interogării, în timp ce antrenamentul bazat exclusiv pe seturi de date se bazează în întregime pe cunoștințele integrate în ponderile modelului în timpul antrenamentului. Fiecare abordare prezintă compromisuri distincte în ceea ce privește acuratețea, costul, actualitatea și cât de bine gestionează întrebările din afara domeniului său de antrenament original.
Evidențiate
Inteligența artificială augmentată prin căutare poate accesa informații publicate cu câteva momente în urmă, în timp ce modelele care conțin doar seturi de date sunt blocate la momentul limită de antrenament.
Sistemele bazate pe recuperare au de obicei mai puține halucinații deoarece se bazează pe documente sursă reale, mai degrabă decât pe memoria parametrică.
RAG vă permite să actualizați cunoștințele unui model prin schimbul de documente dintr-o bază de date, evitând costul reinstruirii complete.
Modelele bazate exclusiv pe seturi de date sunt mai rapide per interogare și funcționează offline, ceea ce le face mai potrivite pentru sarcini creative sau sensibile la latență.
Ce este Căutare augmentată cu inteligență artificială?
Sisteme de inteligență artificială care preiau și încorporează informații externe din motoarele de căutare sau baze de date în timp real atunci când generează răspunsuri.
Generarea augmentată de recuperare, denumită în mod obișnuit RAG, a fost introdusă într-o lucrare din 2020 de Patrick Lewis și colegii săi de la Facebook AI Research.
Sistemele cu funcție de căutare augmentată pot accesa informații publicate după data limită de antrenament, ceea ce le oferă un avantaj major în ceea ce privește actualitatea.
Modele precum Perplexity AI și Bing Chat se bazează foarte mult pe căutarea live pe web pentru a-și baza răspunsurile pe surse actuale.
Arhitecturile RAG asociază de obicei o componentă de recuperare cu un generator, permițând sistemului să citeze documente specifice.
Ratele halucinațiilor tind să scadă vizibil atunci când modelele se bazează pe dovezi recuperate, mai degrabă decât să se bazeze doar pe memoria parametrică.
Ce este Antrenament doar pentru seturi de date?
Modele de inteligență artificială care generează răspunsuri exclusiv pe baza tiparelor învățate în timpul antrenamentului, fără recuperare externă sau acces la date live.
GPT-3, GPT-4 și majoritatea modelelor lingvistice mari lansate înainte de 2023 au fost antrenate exclusiv pe seturi de date statice, fără recuperare în momentul inferenței.
Cunoștințele integrate în ponderile modelului devin învechite în momentul în care antrenamentul se termină, creând o dată limită fixă pentru cunoștințe.
Modelele parametrice pure pot fi mai rapide la inferență, deoarece sar complet peste etapa de recuperare.
Antrenarea unui model mare de la zero poate costa milioane de dolari și poate necesita săptămâni de calcul pe mii de GPU-uri.
Fără recuperare, aceste modele fabrică uneori fapte plauzibile, dar incorecte, un comportament cunoscut sub numele de halucinație.
Tabel comparativ
Funcție
Căutare augmentată cu inteligență artificială
Antrenament doar pentru seturi de date
Sursă de cunoștințe
Recuperare în timp real din baze de date externe sau de pe web
Cunoștințe statice încorporate în ponderile modelului
Prospețimea informațiilor
Poate accesa datele publicate cu câteva momente în urmă
Limitat de data limită de instruire
Riscul de halucinații
Mai mic atunci când este conectat la surse recuperate
Mai sus, în special pentru subiecte de nișă sau recente
Viteză de inferență
Mai lent din cauza costurilor suplimentare de recuperare
Trecere mai rapidă, cu o singură mișcare înainte, prin model
Costul computațional
Costuri de instruire mai mici, costuri per interogare mai mari
Cost de instruire foarte mare, cost per interogare scăzut
Transparenţă
Poate cita surse și documente specifice
Opac, fără mecanism de citare încorporat
Capacitate offline
Necesită acces la rețea sau la bază de date
Funcționează complet offline odată ce este antrenat
Scalabilitatea cunoștințelor
Baza de cunoștințe poate crește fără recalificare
Cunoștințele cresc doar prin recalificare costisitoare
Cele mai bune cazuri de utilizare
Cercetare, asistență clienți, verificare a faptelor, știri
Inteligența artificială augmentată prin căutare funcționează în două etape: mai întâi, preia documente relevante dintr-un index de căutare, o bază de date vectorială sau de pe web, apoi introduce aceste pasaje într-un model lingvistic care sintetizează un răspuns. Modelele bazate exclusiv pe seturi de date sar complet peste etapa de recuperare și se bazează pe modele comprimate în miliarde de parametri în timpul antrenamentului. Diferența practică este că un sistem RAG poate cita un articol de știri publicat acum o oră, în timp ce un model static nu ar avea nicio idee că există.
Precizie și halucinații
Bazarea unui model pe dovezi recuperate tinde să reducă halucinațiile, în special pentru întrebările factuale. Studiile realizate de Meta AI și alții au arătat că sistemele RAG produc răspunsuri mai verificabile, deoarece modelul se poate baza pe textul sursă real, în loc să ghicească. Modelele bazate exclusiv pe seturi de date, prin contrast, inventează uneori statistici, citări sau detalii biografice care sună corect, dar sunt complet fabricate. Acestea fiind spuse, recuperarea datelor nu elimină complet halucinațiile; un model poate totuși interpreta greșit sau cita greșit sursele pe care le extrage.
Cost și infrastructură
Antrenarea unui model lingvistic extins de la zero este extrem de costisitoare, adesea implicând costuri de calcul de milioane de dolari, iar modelul rezultat are totuși o limită de cunoaștere. Sistemele augmentate de căutare inversează această ecuație: modelul subiacent poate fi mai mic și mai ieftin de antrenat, dar fiecare interogare costă mai mult din cauza etapei de recuperare și a token-urilor suplimentare introduse în fereastra contextuală. Pentru organizații, aceasta înseamnă că RAG este adesea mai rentabil atunci când aveți nevoie de informații actuale fără a reantrena un model de frontieră.
Prospețime și Adaptabilitate
Unul dintre cele mai mari avantaje ale inteligenței artificiale augmentate prin căutare este că puteți actualiza cunoștințele acesteia pur și simplu prin actualizarea documentelor din indexul său de recuperare. Doriți ca modelul să fie informat despre o nouă linie de produse sau o modificare recentă a politicii? Adăugați pur și simplu documentele. Cu instruirea doar pentru setul de date, actualizarea cunoștințelor înseamnă colectarea de date noi, reinstruirea sau reglarea fină și redistribuirea, un proces care poate dura săptămâni. Acest lucru face ca RAG să fie mult mai practic pentru domenii în continuă evoluție, cum ar fi finanțele, dreptul și știrile.
Transparență și încredere
Deoarece sistemele augmentate prin căutare pot indica documentele specifice pe care le-au folosit, utilizatorii pot verifica afirmațiile și pot accesa sursele. Aceasta este o victorie uriașă pentru încredere, în special în jurnalism, cercetare și aplicațiile enterprise. Modelele bazate exclusiv pe seturi de date nu oferă o modalitate încorporată de a urmări de unde provine un răspuns, ceea ce îngreunează auditarea. Unele modele statice mai noi încearcă să estimeze încrederea, dar nu pot egala verificabilitatea unui sistem care își arată literalmente funcționarea.
Când fiecare abordare strălucește
Inteligența artificială augmentată prin căutare excelează atunci când acuratețea, recenta și atribuirea sursei contează cel mai mult, de exemplu, asistenții de cercetare medicală, analiza documentelor juridice sau roboții de asistență clienți care extrag informații dintr-o bază de cunoștințe. Instruirea exclusivă bazată pe seturi de date este încă avantajoasă pentru sarcinile care nu necesită informații externe, cum ar fi scrierea creativă, brainstorming-ul, generarea de cod sau conversațiile ocazionale. Multe sisteme de producție din prezent combină de fapt ambele: un model de bază puternic augmentat cu recuperare de date pentru a obține ce e mai bun din ambele lumi.
Avantaje și dezavantaje
Căutare augmentată cu inteligență artificială
Avantaje
+Întotdeauna actual
+Citează surse
+Instruire mai ieftină
+Actualizări mai ușoare
Conectare
−Inferență mai lentă
−Necesită infrastructură
−Erori de recuperare
−Cost mai mare per interogare
Antrenament doar pentru seturi de date
Avantaje
+Inferență rapidă
+Funcționează offline
+Implementare simplă
+Raționament puternic
Conectare
−Limita de cunoștințe
−Risc mai mare de halucinații
−Recalificare costisitoare
−Fără citări de surse
Idei preconcepute comune
Mit
Inteligența artificială augmentată prin căutare nu are deloc halucinații.
Realitate
RAG reduce halucinațiile, dar nu le elimină. Modelul poate totuși să citească greșit, să citeze greșit sau să combine pasaje recuperate în moduri înșelătoare. Calitatea recuperării contează enorm; sursele proaste duc la răspunsuri proaste.
Mit
Modelele bazate exclusiv pe seturi de date nu pot ști nimic nou după antrenament.
Realitate
Deși cunoștințele lor parametrice sunt fixe, pot fi ajustate sau li se pot oferi informații noi prin intermediul solicitărilor și mesajelor de sistem. Limitarea este că acest lucru nu este automat și necesită un efort deliberat.
Mit
RAG este doar un motor de căutare sofisticat.
Realitate
Inteligența artificială augmentată prin căutare combină recuperarea datelor cu un model generativ care sintetizează, rezumă și analizează conținutul recuperat. Nu doar returnează linkuri; produce răspunsuri originale, contextuale, bazate pe sursele respective.
Mit
Modelele mai mari, antrenate pe mai multe date, nu necesită recuperare.
Realitate
Chiar și cele mai mari modele, inclusiv GPT-4 și Claude, beneficiază de recuperarea datelor pentru acuratețea și recenta informațiilor. Scala ajută la raționament și fluență, dar nu rezolvă problema limitei de cunoaștere și nici nu garantează precizia factuală.
Mit
Sistemele augmentate prin căutare sunt întotdeauna mai precise.
Realitate
Precizia depinde în mare măsură de calitatea indexului de recuperare și de capacitatea modelului de a utiliza contextul recuperat. O conductă RAG configurată prost poate avea performanțe mai slabe decât un model static bine antrenat în anumite sarcini.
Întrebări frecvente
Ce este Generarea Augmentată prin Recuperare (RAG)?
RAG este o tehnică prin care un model de inteligență artificială preia documente relevante dintr-o sursă externă, cum ar fi o bază de date vectorială sau web-ul, înainte de a genera un răspuns. Pasajele prelevate sunt introduse în contextul modelului, bazând răspunsul pe informații reale. Această abordare a fost formalizată într-un articol din 2020 de Facebook AI Research și a devenit de atunci o piatră de temelie a aplicațiilor moderne de inteligență artificială.
De ce au halucinații modelele de inteligență artificială?
Halucinațiile apar atunci când un model generează informații care par plauzibile, dar incorecte din punct de vedere factual. Modelele lingvistice sunt antrenate să prezică următorul token, nu să verifice adevărul, așa că uneori umplu golurile cu presupuneri care par sigure. Bazarea răspunsurilor în sursele recuperate, așa cum face RAG, reduce semnificativ această problemă, oferind modelului dovezi concrete pe baza cărora să lucreze.
Poate funcționa IA augmentată prin căutare offline?
Nu în sensul tradițional. Sistemele augmentate de căutare au nevoie de acces la un index de recuperare, ceea ce înseamnă de obicei o bază de date, un depozit vectorial sau o conexiune web. Cu toate acestea, puteți rula o configurare RAG complet offline utilizând o bază de date vectorială locală, cum ar fi FAISS sau Chroma, cu documente stocate pe propriul computer. Modelul în sine nu are nevoie de internet, dar componenta de recuperare are nevoie de o sursă de date accesibilă.
Cât costă antrenarea unui model lingvistic mare?
Antrenarea unui model de frontieră precum GPT-4 sau Gemini poate costa între zeci de milioane și peste o sută de milioane de dolari, în funcție de dimensiune și durata antrenamentului. Modelele open-source mai mici, cu parametri cuprinsi între 7 și 70 de miliarde de dolari, pot fi antrenate pentru costuri cuprinse între zeci de mii și câteva milioane de dolari. Abordările augmentate prin căutare evită adesea acest cost în întregime prin utilizarea de modele mai mici, asociate cu recuperarea datelor.
Care este mai bun pentru chatboții de asistență clienți?
Inteligența artificială augmentată prin căutare este, în general, alegerea mai bună pentru asistența clienți, deoarece poate extrage răspunsuri direct din baza de cunoștințe, documentația produsului sau articolele din centrul de ajutor. Aceasta înseamnă că răspunsurile rămân actualizate pe măsură ce produsele și politicile dvs. evoluează, iar botul poate cita exact articolul pe care un client ar trebui să îl citească. Un model bazat exclusiv pe seturi de date ar necesita o re-instruire constantă pentru a ține pasul cu schimbările.
Toate sistemele moderne de inteligență artificială folosesc RAG?
Nu toate, dar un număr tot mai mare o fac. Produse precum Perplexity, Bing Chat și Notion AI se bazează în mare măsură pe recuperare. Altele, precum versiunile de bază ale GPT-4 sau Claude, funcționează fără recuperare în mod implicit, dar pot fi asociate cu instrumente de recuperare prin API-uri și framework-uri precum LangChain sau LlamaIndex. Multe implementări la nivel de întreprindere combină acum ambele abordări.
Ce este o limită de cunoștințe?
O limită de cunoaștere este data dincolo de care un model nu mai are informații din datele sale de antrenament. De exemplu, datele de antrenament ale GPT-4 se extind până la o anumită dată, iar orice este publicat după aceasta nu va mai fi în memoria sa parametrică. Sistemele augmentate de căutare evită această limitare prin recuperarea informațiilor noi în momentul interogării, practic neimprimându-le nicio limită.
Pot adăuga RAG la un model existent?
Da, și este de fapt destul de comun. Puteți încadra aproape orice model lingvistic într-un strat de recuperare folosind framework-uri precum LangChain, LlamaIndex sau Haystack. Modelul în sine nu trebuie să fie reantrenat; aveți nevoie doar de o bază de date vectorială a documentelor dvs. și de un program de recuperare care găsește pasaje relevante pentru a le injecta în prompt. Aceasta este una dintre cele mai rapide modalități de a oferi unui model static acces la informații proprietare sau actualizate.
Este inteligența artificială augmentată prin căutare mai sigură?
Depinde de configurație. RAG poate fi mai sigur în anumite privințe, deoarece datele sensibile rămân în baza de date controlată, în loc să fie integrate în ponderile modelului. Cu toate acestea, introduce și noi suprafețe de atac, cum ar fi injectarea promptă prin documentele recuperate. Modelele bazate exclusiv pe seturi de date păstrează totul într-un singur loc, dar pot scurge date de antrenament prin memorare. Ambele abordări necesită un design atent al securității.
Va înlocui RAG antrenamentul tradițional pe modele?
Improbabil, cel puțin nu în întregime. RAG completează antrenamentul, mai degrabă decât să îl înlocuiască. Un model bine antrenat are nevoie în continuare de raționament puternic, înțelegere a limbajului și abilități de urmărire a instrucțiunilor, pe care recuperarea datelor nu le oferă. Cele mai eficiente sisteme utilizează un model de bază capabil, îmbunătățit prin recuperare, obținând puterea de raționament a antrenamentului și prospețimea căutării.
Verdict
Dacă aplicația dvs. are nevoie de informații actuale, surse verificabile și capacitatea de a actualiza cunoștințele fără re-antrenament, inteligența artificială augmentată prin căutare este alegerea mai bună. Dacă prioritizați viteza de inferență brută, operarea offline sau sarcinile creative în care baza factuală contează mai puțin, antrenarea doar pe seturi de date rămâne o opțiune solidă și adesea mai simplă. În practică, cele mai capabile sisteme moderne combină ambele abordări, în loc să se angajeze într-o extremă.