intel·ligència artificialaprenentatge automàticrecuperació-generació-augmentadamodels de llenguatge granArquitectura d'IA
Augment de memòria externa vs. memòria de model interna
L'augment de memòria externa proporciona als sistemes d'IA un magatzem de coneixement separat i amb capacitat de cerca que poden extreure en el moment de la inferència, mentre que la memòria interna del model incorpora el coneixement directament als pesos de la xarxa neuronal durant l'entrenament. Cada enfocament compensa la flexibilitat, la latència i la profunditat del raonament de maneres diferents.
Destacats
La memòria externa es pot actualitzar en qüestió de minuts; la memòria interna requereix un costós reentrenament.
La memòria interna ofereix una inferència més ràpida, ja que no cal cap pas de recuperació.
La memòria externa redueix les al·lucinacions fonamentant les respostes en les fonts recuperades.
Les arquitectures híbrides que combinen ambdós enfocaments s'estan convertint en l'estàndard de producció.
Què és Augment de memòria externa?
Un enfocament basat en la recuperació on els models d'IA accedeixen a la informació emmagatzemada de fonts externes durant la inferència en lloc de confiar únicament en paràmetres apresos.
La Generació Augmentada de Recuperació (RAG) és la forma més àmpliament adoptada, introduïda per Facebook AI Research el 2020.
La memòria externa normalment pren la forma de bases de dades vectorials com FAISS, Pinecone o Weaviate que emmagatzemen incrustacions de documents.
El coneixement es pot actualitzar en temps real simplement afegint o modificant entrades al magatzem extern, sense haver de tornar a entrenar el model.
Sistemes com el mode de navegació de ChatGPT i Search-Augmented Factuality de Google es basen en la recuperació externa per fonamentar les respostes en la informació actual.
L'enfocament redueix dràsticament les al·lucinacions quan el context recuperat és rellevant i ben estructurat.
Què és Memòria interna del model?
Coneixement codificat directament dins dels paràmetres d'una xarxa neuronal mitjançant l'entrenament, permetent que el model recordi informació sense cerques externes.
Els grans models de llenguatge com GPT-4, Claude i Llama emmagatzemen la major part del seu coneixement factual en milers de milions de pesos apresos.
La memòria interna s'adquireix durant el preentrenament en corpora de text massius i es refina mitjançant l'afinament i l'aprenentatge per reforç.
Un cop finalitzat l'entrenament, el coneixement es fixa tret que el model se sotmeti a un entrenament addicional o un ajustament fi.
La recuperació de la memòria interna es produeix mitjançant passos directes que activen les vies neuronals rellevants, produint resultats en un sol pas.
Una investigació del MIT i Anthropic suggereix que el record factual a partir de pesos sovint és associatiu i pot ser inconsistent entre frases.
Taula comparativa
Funcionalitat
Augment de memòria externa
Memòria interna del model
Ubicació d'emmagatzematge de coneixement
Base de dades vectorial o magatzem de documents separat
Codificat dins dels paràmetres del model (pesos)
Mètode d'actualització
Afegir o editar documents al magatzem extern
Reentrenar o ajustar el model
Latència d'inferència
Més alt a causa del pas de recuperació
Pas inferior, únic cap endavant
Escalabilitat del coneixement
Pràcticament il·limitades, bàscules amb emmagatzematge
Limitat per la mida del model i les dades d'entrenament
Risc d'al·lucinacions
Més baix quan la recuperació és precisa
Més alt, especialment per a fets obscurs o recents
Cost computacional
Cost de formació més baix, cost per consulta més alt
Cost de formació elevat, cost per consulta baix
Transparència
Es poden citar directament les fonts
Opac, el coneixement es distribueix entre pesos
Més adequat per a
Coneixement dinàmic, cerca empresarial, preguntes i respostes factuals
Raonament general, tasques creatives, fluïdesa conversacional
Comparació detallada
Com s'adquireix i emmagatzema el coneixement
L'augment de memòria externa crea coneixement fora del model, normalment incrustant documents en vectors i emmagatzemant-los en una base de dades que el model consulta quan cal. La memòria interna del model funciona de manera contrària: els fets s'absorbeixen en milers de milions de pesos numèrics durant l'entrenament, convertint-se en part del teixit neuronal del model. El primer enfocament tracta la memòria com una biblioteca que el model visita, mentre que el segon la tracta com una experiència viscuda que el model porta amb ell.
Actualització i manteniment del coneixement
Quan sorgeix informació nova, els sistemes de memòria externa es poden actualitzar en qüestió de minuts actualitzant la base de dades. Els models de memòria interna requereixen un reentrenament o un ajust precís que poden trigar setmanes i costar milions de dòlars. Això fa que l'augment extern sigui molt més pràctic per a dominis on la informació canvia ràpidament, com ara bases de dades legals, directrius mèdiques o catàlegs de productes.
Precisió i comportament d'al·lucinació
La memòria externa tendeix a fonamentar les respostes en fonts verificables, cosa que redueix significativament les respostes fabricades quan el pas de recuperació retorna passatges rellevants. Els models de memòria interna poden produir amb confiança fets que semblen plausibles però incorrectes, especialment per a temes de nínxol o qualsevol cosa que hagi sorgit després del seu tall d'entrenament. Els sistemes híbrids que combinen ambdós enfocaments sovint superen qualsevol dels dos per si sols en punts de referència factuals.
Compromisos entre rendiment i cost
La memòria interna guanya en velocitat d'inferència en brut perquè no cal cap pas de recuperació, cosa que la fa ideal per a aplicacions sensibles a la latència com ara chatbots i assistents de codificació. La memòria externa afegeix un salt de recuperació que pot afegir de 100 a 500 mil·lisegons per consulta, però redueix dràsticament el nombre de paràmetres necessaris per a una amplitud de coneixement determinada. Molts sistemes de producció ara utilitzen models més petits amb memòria externa rica en lloc de models massius amb tot integrat.
Raonament i generalització
La memòria interna destaca en el raonament abstracte, l'analogia i la síntesi creativa perquè el coneixement està profundament integrat amb els circuits de raonament del model. La memòria externa és més aviat una eina de cerca, ideal per a fets però menys efectiva per combinar idees de maneres innovadores. La frontera de la recerca en IA se centra cada cop més en sistemes que combinen ambdues coses, utilitzant la memòria interna per al raonament i la memòria externa per a la fonamentació.
Avantatges i Inconvenients
Augment de memòria externa
Avantatges
+Actualitzacions en temps real
+Citació de la font
+Menor cost de formació
+Escala de coneixement il·limitada
Consumit
−Latència de consulta més alta
−Depenent de la qualitat de recuperació
−Despeses generals d'infraestructura
−Raonament menys eficaç
Memòria interna del model
Avantatges
+Inferència ràpida
+Capacitat de raonament profund
+Sense dependències externes
+Implementació compacta
Consumit
−Car d'actualitzar
−Límits de coneixement
−Risc més elevat d'al·lucinacions
−Emmagatzematge de coneixement opac
Conceptes errònies habituals
Mite
L'augment de memòria externa elimina completament les al·lucinacions en els sistemes d'IA.
Realitat
Tot i que l'arrelament a la recuperació redueix significativament les al·lucinacions, no les elimina. Si el pas de recuperació retorna documents irrellevants o de baixa qualitat, el model encara pot produir respostes incorrectes. L'eficàcia depèn en gran mesura de la qualitat de les incrustacions, l'estratègia de segmentació i la classificació de rellevància del recuperador.
Mite
Els models més grans recorden més fets de manera fiable que els més petits.
Realitat
L'escalabilitat millora el record mitjà però no garanteix la consistència. La recerca ha demostrat que fins i tot els models grans poden no recordar fets que han trobat clarament durant l'entrenament, especialment quan les preguntes es formulen de manera diferent al context original. La memorització a les xarxes neuronals és associativa i fràgil en comparació amb l'emmagatzematge explícit de bases de dades.
Mite
Els sistemes RAG no necessiten cap formació ni ajustament fi.
Realitat
Tot i que la base de coneixement en si mateixa no requereix formació, els sistemes RAG de producció es beneficien enormement de l'afinament del recuperador, el model d'incrustació i, de vegades, del generador. Els pipelines RAG estàndard sovint tenen un rendiment inferior al dels ajustats a mida per marges significatius en tasques específiques del domini.
Mite
La memòria interna del model es fixa per sempre un cop finalitza l'entrenament.
Realitat
Tècniques modernes com l'aprenentatge continu, l'afinament de LoRA i l'edició de models permeten actualitzacions específiques del coneixement intern d'un model sense un reentrenament complet. Mètodes com ROME i MEMIT poden editar directament fets específics en els pesos del model, tot i que aquests enfocaments encara són menys fiables que simplement actualitzar una base de dades externa.
Mite
La memòria externa i la memòria interna són enfocaments mútuament excloents.
Realitat
La majoria de sistemes d'IA d'última generació utilitzen tots dos simultàniament. Un model pot confiar en pesos interns per al raonament general i la fluïdesa del llenguatge mentre extreu fets específics d'un magatzem extern. Frameworks com LangChain i LlamaIndex estan dissenyats explícitament per orquestrar aquest comportament híbrid.
Preguntes freqüents
Quina és la principal diferència entre l'augment de memòria externa i la memòria de model interna?
L'augment de memòria externa emmagatzema el coneixement en una base de dades separada que el model consulta en temps d'execució, mentre que la memòria interna del model codifica el coneixement directament en els pesos de la xarxa neuronal durant l'entrenament. El primer és com donar accés al model a una biblioteca i el segon és com fer que el model memoritzi tot el que ha llegit.
Quin enfocament redueix les al·lucinacions de la IA de manera més eficaç?
L'augment de memòria externa generalment redueix les al·lucinacions de manera més eficaç perquè les respostes es basen en documents recuperats que es poden citar i verificar. Els models de memòria interna encara poden al·lucinar amb confiança, especialment sobre fets o temes obscurs fora de la seva distribució d'entrenament. Dit això, la qualitat de la recuperació és enormement important, i un mal recuperador pot introduir els seus propis errors.
Es pot combinar l'augment de memòria externa amb la memòria interna del model?
Sí, i la majoria de sistemes d'IA de producció fan exactament això. El model utilitza els seus pesos interns per al raonament, la generació de llenguatge i el reconeixement de patrons, mentre extreu fets específics d'un magatzem extern. Aquest enfocament híbrid és la base dels assistents moderns amb tecnologia RAG i està recolzat per marcs com LangChain, LlamaIndex i Haystack.
Quant costa actualitzar els coneixements en cada sistema?
L'actualització de la memòria externa és essencialment gratuïta en termes de computació, només cal afegir o modificar documents a la base de dades. L'actualització de la memòria interna mitjançant el reentrenament pot costar entre milers i milions de dòlars, depenent de la mida del model, i tècniques més lleugeres com l'afinament de LoRA encara requereixen hores de GPU i una avaluació acurada.
RAG és el mateix que l'augment de memòria externa?
RAG és la implementació més popular d'augment de memòria externa, però el concepte és més ampli. La memòria externa també pot incloure l'ús d'eines, crides API, blocs de notes i buffers de memòria episòdica. RAG es refereix específicament a la recuperació de passatges de text d'una base de dades vectorial per condicionar la resposta del model.
Quin mètode és més ràpid en temps d'inferència?
La memòria interna del model és més ràpida perquè només requereix una única passada directa a través de la xarxa neuronal. L'augment de memòria externa afegeix un pas de recuperació que normalment triga entre 100 i 500 mil·lisegons, depenent de la mida de la base de dades i del mètode de cerca d'incrustació. Per a aplicacions en temps real, aquesta diferència de latència pot ser significativa.
Els models de llenguatge grans utilitzen memòria externa?
Sí, cada cop més. ChatGPT utilitza la recuperació per a la seva navegació i funcions GPT personalitzades, Claude pot cercar documents i eines, i Gemini integra directament els resultats de la cerca de Google. Fins i tot els models amb una memòria interna massiva es beneficien de la recuperació externa d'esdeveniments actuals i informació pròpia.
Què passa quan falla la recuperació de memòria externa?
Quan la recuperació no retorna res rellevant, el model normalment recorre a la seva memòria interna, cosa que significa que encara es poden produir al·lucinacions. Els sistemes RAG robustos gestionen això reconeixent la incertesa, fent preguntes aclaratòries o negant-se a respondre quan la confiança és baixa. Per tant, la qualitat del recuperador és el component més important d'un pipeline RAG.
Es pot editar la memòria interna del model sense tornar a entrenar-lo?
Sí, mitjançant tècniques d'edició de models com ROME, MEMIT i mètodes de destil·lació de coneixement que es centren en fets específics en els pesos. Aquests enfocaments poden inserir, modificar o suprimir fets individuals, però són menys fiables que l'actualització d'una base de dades externa i, de vegades, poden degradar el rendiment general del model.
Quin enfocament és millor per a les aplicacions d'IA empresarials?
L'augment de memòria externa sol ser la millor opció per a les aplicacions empresarials, ja que permet a les empreses mantenir dades pròpies a les seves pròpies bases de dades segures sense haver de reentrenar els models. També proporciona auditoria mitjançant citacions de fonts, cosa que és important per a indústries regulades com les finances, la salut i el dret.
Veredicte
Trieu l'augment de memòria externa quan la vostra aplicació requereixi informació actualitzada, atribució de fonts i la capacitat d'actualitzar el coneixement sense necessitat de reentrenament. Trieu la memòria interna del model quan necessiteu una inferència ràpida, una forta capacitat de raonament i un sistema autònom que no depengui d'una infraestructura externa. A la pràctica, els sistemes d'IA més capaços actualment combinen tots dos, utilitzant la recuperació per fonamentar fets i pesos interns per raonar sobre ells.