intel·ligència artificialmodels de llenguatge granrecuperació-generació-augmentadaaprenentatge automàticllm-arquitectura
Recuperació de context vs. memòria paramètrica en LLM
La recuperació de context extreu informació externa a demanda, mentre que la memòria paramètrica emmagatzema coneixement integrat en els pesos del model durant l'entrenament. Ambdues influeixen en la manera com els models de llenguatge gran responen a les preguntes, però difereixen notablement en flexibilitat, precisió i actualització. Comprendre els seus inconvenients ajuda a explicar per què els sistemes d'IA moderns sovint combinen ambdós enfocaments.
Destacats
La recuperació actualitza el coneixement en minuts; les actualitzacions paramètriques de la memòria requereixen setmanes d'entrenament.
La memòria paramètrica permet l'accés al coneixement amb latència zero; la recuperació afegeix entre 50 i 200 ms per consulta.
La recuperació permet citacions de fonts; la memòria paramètrica no pot rastrejar respostes a dades d'entrenament.
Escales de memòria paramètriques amb paràmetres; escales de recuperació amb la mida de la base de dades
Què és Recuperació de context?
Un mètode en què els LLM obtenen informació externa rellevant en el moment de la inferència per fonamentar les seves respostes en coneixements actualitzats o especialitzats.
La Generació Augmentada de Recuperació (RAG) és la implementació més comuna, introduïda per Facebook AI Research el 2020.
Es basa en bases de dades vectorials com FAISS, Pinecone o Weaviate per emmagatzemar incrustacions de documents per a la cerca de similituds.
El context recuperat s'injecta a la indicació, permetent al model citar fonts i reduir les al·lucinacions.
El coneixement es pot actualitzar simplement afegint nous documents, sense haver de tornar a entrenar el model subjacent.
Funciona amb models congelats, cosa que el fa rendible per a implementacions empresarials amb dades pròpies.
Què és Memòria paramètrica en LLM?
Coneixement codificat directament en els milers de milions de paràmetres d'un model de llenguatge mitjançant entrenament previ i ajustament fi.
Segons sembla, GPT-4 conté més d'un bilió de paràmetres, cadascun dels quals emmagatzema fragments de coneixement après.
La memòria paramètrica s'adquireix durant l'entrenament autosupervisat en corpora de text massius com Common Crawl.
Permet una inferència ràpida, ja que no cal fer cap cerca externa per a consultes de coneixement general.
Actualitzar aquesta memòria requereix un reentrenament o un ajust fi costós, que sovint costa milions de dòlars.
Té problemes amb esdeveniments molt recents perquè les dades d'entrenament tenen una data límit fixa.
Taula comparativa
Funcionalitat
Recuperació de context
Memòria paramètrica en LLM
Ubicació d'emmagatzematge de coneixement
Base de dades vectorial externa o magatzem de documents
Codificat dins dels pesos del model (paràmetres)
Mètode d'actualització
Afegir o modificar documents a l'índex
Reentrenar o ajustar el model
Impacte de la latència
Afegeix una sobrecàrrega de recuperació (normalment de 50 a 200 ms)
Sense latència addicional més enllà de la inferència del model
Risc d'al·lucinacions
Més baix quan la recuperació és precisa
Més alt per fets obscurs o recents
Escalabilitat del coneixement
Escala amb la mida de la base de dades, gairebé il·limitada
Delimitat pel recompte de paràmetres i les dades d'entrenament
Cost d'actualització
Baix (només costos d'emmagatzematge i indexació)
Molt alt (hores de GPU, preparació de dades)
Atribució de la font
Pot citar passatges i documents exactes
No es pot assenyalar a fonts de formació específiques
Millor cas d'ús
Dades específiques del domini que canvien amb freqüència
Raonament general, fluïdesa lingüística, coneixements comuns
Comparació detallada
Com s'adquireix el coneixement
La recuperació de context crea coneixement dinàmicament indexant documents i cercant-los en el moment de la consulta. El model en si es manté sense canvis, però el seu coneixement efectiu creix cada vegada que s'amplia la col·lecció de documents. La memòria paramètrica funciona a l'inrevés: el coneixement es comprimeix en actualitzacions de pes durant l'entrenament, de manera que el model ho porta tot internament. Aquesta diferència fonamental ho configura tot, des del cost fins a la precisió.
Precisió i al·lucinacions
Els sistemes de recuperació tendeixen a tenir menys al·lucinacions en preguntes factuals perquè el model es pot basar en el text font real en lloc d'endevinar a partir de patrons. Tanmateix, si el recuperador extreu documents irrellevants, el model encara pot produir respostes errònies amb confiança. La memòria paramètrica és més propensa a la fabricació, especialment per a temes de nínxol o esdeveniments recents, ja que el model ha de reconstruir els fets a partir de representacions comprimides.
Frescor i manteniment
Mantenir la memòria paramètrica actualitzada és difícil. Afegir informació nova normalment significa ajustar el model, cosa que requereix conjunts de dades seleccionats, temps de càlcul i una avaluació acurada. La recuperació de context evita completament això permetent intercanviar documents dins i fora de l'índex. Una organització de notícies, per exemple, pot proporcionar al seu chatbot els titulars d'avui mitjançant la recuperació sense tocar els pesos del model.
Cost i infraestructura
La memòria paramètrica exigeix una forta inversió inicial en infraestructura d'entrenament, però té els seus beneficis amb una inferència barata a escala. La recuperació desplaça els costos cap al manteniment d'una base de dades vectorial i la gestió d'una latència per consulta lleugerament més alta. Per a les startups, la recuperació sovint és l'opció pragmàtica perquè evita les execucions d'entrenament multimilionàries que absorbeixen els proveïdors de models de base.
Flexibilitat i especialització
Un únic model base pot servir dominis molt diferents mitjançant la recuperació, ja que només cal intercanviar l'índex del document. Voleu un assistent legal avui i un de mèdic demà? Canvieu el corpus de recuperació. La memòria paramètrica integra l'especialització al propi model, motiu pel qual existeixen models específics de domini com BloombergGPT, però adaptar-los a nous dominis requereix un nou entrenament.
Enfocaments híbrids
La majoria de sistemes de producció actuals combinen tots dos. La recuperació gestiona la base factual i les dades pròpies, mentre que la memòria paramètrica proporciona la fluïdesa del llenguatge, la capacitat de raonament i el coneixement general del món que fa que les respostes siguin coherents. Marcs com LangChain i LlamaIndex faciliten la superposició de capes de recuperació sobre qualsevol model fonamental, tractant el coneixement paramètric com a línia de base i la recuperació com a millora.
Avantatges i Inconvenients
Recuperació de context
Avantatges
+Fàcil d'actualitzar
+Cita fonts
+Redueix les al·lucinacions
+Escalabilitat rendible
Consumit
−Latència afegida
−Errors del recuperador
−Despeses generals d'infraestructura
−Limitat per la qualitat de l'índex
Memòria paramètrica
Avantatges
+Inferència ràpida
+Sense dependència externa
+Raonament fort
+Generalitza àmpliament
Consumit
−Car d'actualitzar
−Límits de coneixement
−Al·lucina fets
−Font de coneixement opaca
Conceptes errònies habituals
Mite
La RAG elimina completament les al·lucinacions en els LLM.
Realitat
La recuperació redueix les al·lucinacions per a consultes factuals però no les elimina. Si el recuperador recupera documents irrellevants o si el model ignora el context, les al·lucinacions encara es produeixen. RAG desplaça el problema de les llacunes de coneixement a la qualitat de la recuperació.
Mite
Els models més grans recorden més fets amb més precisió.
Realitat
Els models més grans emmagatzemen més coneixement en cert sentit, però també al·lucinen amb més confiança. Els estudis mostren que fins i tot GPT-4 fabrica cites i inventa estadístiques, especialment sobre temes poc representats a les dades d'entrenament.
Mite
La memòria paramètrica i la recuperació són enfocaments que competeixen entre si.
Realitat
Són complementaris. Els sistemes d'IA moderns gairebé sempre combinen tots dos, utilitzant coneixement paramètric per al raonament i la fluïdesa del llenguatge mentre utilitzen la recuperació per a la fonamentació factual i les dades pròpies.
Mite
L'afinament ensenya a un model fets nous de manera fiable.
Realitat
L'afinament és millor per ensenyar estil i format que injectar nous coneixements. Els models sovint no aconsegueixen recordar de manera consistent els fets apresos mitjançant l'afinament, un fenomen que els investigadors anomenen la "maledicció de la recència" o l'oblit catastròfic.
Mite
Les bases de dades vectorials entenen el significat del text.
Realitat
Les bases de dades vectorials emmagatzemen incrustacions numèriques i realitzen cerques de similitud. No entenen la semàntica; només troben vectors que són matemàticament propers. El significat prové del model d'incrustació que va crear aquests vectors.
Preguntes freqüents
Quina és la principal diferència entre la recuperació de context i la memòria paramètrica?
La recuperació de context obté informació de fonts externes en el moment de la consulta, mentre que la memòria paramètrica emmagatzema coneixement dins dels pesos del model des de l'entrenament. La recuperació és dinàmica i actualitzable; la memòria paramètrica és estàtica i s'integra durant l'entrenament.
Per què les persones amb memòria paramètrica al·lucinen si tenen memòria paramètrica?
La memòria paramètrica comprimeix el coneixement en patrons a través de milers de milions de paràmetres, de manera que el model reconstrueix les respostes en lloc de recordar-les literalment. Aquest procés de reconstrucció pot produir afirmacions que semblen plausibles però incorrectes, especialment per a fets o temes obscurs amb dades d'entrenament escasses.
Pots utilitzar la memòria de recuperació i la memòria paramètrica alhora?
Absolutament. La majoria d'aplicacions LLM de producció utilitzen un enfocament híbrid on el coneixement paramètric del model gestiona el raonament i el llenguatge, mentre que la recuperació proporciona fets específics, informació recent o dades pròpies. Els marcs de treball com LangChain fan que aquesta combinació sigui senzilla d'implementar.
Quant costa actualitzar la memòria paramètrica en comparació amb la recuperació?
L'actualització de la recuperació pot costar uns quants dòlars en emmagatzematge i càlcul d'indexació. L'actualització de la memòria paramètrica mitjançant el reentrenament pot costar entre milers i milions de dòlars, depenent de la mida del model, a més de setmanes de temps d'enginyeria. Aquesta diferència de costos és el motiu pel qual la recuperació s'ha tornat tan popular.
RAG funciona amb qualsevol LLM?
Sí, la generació augmentada per recuperació funciona amb pràcticament qualsevol model de llenguatge, inclosos els de codi obert com Llama i Mistral, així com les API propietàries com GPT-4 i Claude. El model només ha de seguir les instruccions i utilitzar el context recuperat a la seva indicació.
Què és una base de dades vectorial i per què cal una per a la recuperació?
Una base de dades vectorial emmagatzema text com a incrustacions numèriques que capturen el significat semàntic. Quan la consulteu, troba documents les incrustacions dels quals són matemàticament similars a la vostra pregunta. Això permet que la recuperació coincideixi en funció del significat en lloc de les coincidències exactes de paraules clau, cosa que és crucial per a les consultes en llenguatge natural.
Quanta mida pot arribar a tenir la memòria paramètrica d'un model?
Teòricament il·limitat, però pràcticament limitat per la computació i les dades d'entrenament. S'estima que GPT-4 té més d'un bilió de paràmetres, mentre que els models de codi obert com Llama 3 arriben als 405.000 milions. Cada paràmetre emmagatzema petits fragments de coneixement, però la capacitat total és enorme.
La recuperació és més lenta que utilitzar només memòria paramètrica?
Sí, la recuperació afegeix latència, normalment entre 50 i 200 mil·lisegons, depenent de la mida de la base de dades i del model d'incrustació. Per a la majoria d'aplicacions, això és insignificant, però els sistemes en temps real com els assistents de veu de vegades prefereixen enfocaments paramètrics purs per minimitzar el retard de resposta.
Pot l'afinament substituir la recuperació de coneixement propietari?
No de manera fiable. L'afinament sovint no aconsegueix ensenyar fets específics de manera consistent, i els models tendeixen a oblidar o confondre detalls. La recuperació és molt més fiable per al coneixement propietari perquè mostra documents exactes en lloc de confiar en el model per recordar la informació apresa.
Què passa quan la recuperació no troba documents rellevants?
El model recorre a la seva memòria paramètrica, la qual cosa significa que pot tenir al·lucinacions si la pregunta està fora de les seves dades d'entrenament. Els bons sistemes RAG gestionen això amb elegància, ja sigui admetent la incertesa o negant-se a respondre quan la confiança de recuperació és baixa.
Els LLM més nous encara necessiten recuperació?
Sí, fins i tot els models més avançats es beneficien de la recuperació perquè les seves dades d'entrenament tenen una data límit i no tenen accés a informació privada o pròpia. La recuperació estén el seu coneixement efectiu sense necessitat de reentrenament, cosa que el fa valuós independentment de la capacitat del model base.
Veredicte
Trieu la recuperació de context quan les vostres dades canviïn amb freqüència, quan necessiteu cites de fonts o quan treballeu amb coneixement propietari o especialitzat que no estava al conjunt d'entrenament del model. Recolzeu-vos en la memòria paramètrica per al raonament general, la fluïdesa conversacional i els escenaris on la baixa latència importa més que la precisió factual perfecta. A la pràctica, els sistemes més potents combinen tots dos, utilitzant la recuperació per a fonamentar fets i el coneixement paramètric per gestionar tota la resta.