Intelligenza artificiale potenziata dalla ricerca vs. addestramento basato esclusivamente su set di dati
L'intelligenza artificiale potenziata dalla ricerca acquisisce informazioni in tempo reale da fonti esterne al momento della query, mentre l'addestramento basato esclusivamente su dataset si affida interamente alle conoscenze incorporate nei pesi del modello durante l'addestramento. Ciascun approccio presenta compromessi distinti in termini di accuratezza, costi, aggiornamento e capacità di gestire domande al di fuori del suo ambito di addestramento originale.
In evidenza
L'intelligenza artificiale potenziata dalla ricerca può accedere a informazioni pubblicate pochi istanti prima, mentre i modelli basati esclusivamente su set di dati rimangono bloccati al momento del loro addestramento.
I sistemi basati sul recupero delle informazioni tendono a generare meno allucinazioni perché si affidano a documenti originali anziché alla memoria parametrica.
RAG consente di aggiornare le conoscenze di un modello scambiando documenti in un database, evitando così i costi di un addestramento completo.
I modelli basati esclusivamente su dataset sono più veloci per ogni query e funzionano offline, il che li rende più adatti a compiti creativi o sensibili alla latenza.
Cos'è Ricerca potenziata dall'intelligenza artificiale?
Sistemi di intelligenza artificiale che recuperano e integrano informazioni esterne da motori di ricerca o database in tempo reale durante la generazione delle risposte.
La Retrieval-Augmented Generation, comunemente chiamata RAG, è stata introdotta in un articolo del 2020 da Patrick Lewis e colleghi di Facebook AI Research.
sistemi potenziati dalla ricerca possono accedere a informazioni pubblicate dopo la data limite di addestramento, ottenendo così un notevole vantaggio in termini di attualità.
Modelli come Perplexity AI e Bing Chat si basano in larga misura sulla ricerca web in tempo reale per fondare le proprie risposte su fonti aggiornate.
Le architetture RAG in genere abbinano un componente di recupero a un generatore, consentendo al sistema di citare documenti specifici.
La frequenza delle allucinazioni tende a diminuire sensibilmente quando i modelli si basano su prove concrete piuttosto che affidarsi esclusivamente alla memoria parametrica.
Cos'è Addestramento basato esclusivamente sul set di dati?
Modelli di intelligenza artificiale che generano risposte basandosi esclusivamente su schemi appresi durante l'addestramento, senza ricorrere a dati esterni o accedere a dati in tempo reale.
GPT-3, GPT-4 e la maggior parte dei modelli linguistici di grandi dimensioni rilasciati prima del 2023 sono stati addestrati esclusivamente su dataset statici, senza recupero di informazioni in fase di inferenza.
Le informazioni incorporate nei pesi del modello diventano obsolete nel momento stesso in cui termina l'addestramento, creando una data limite fissa per la validità delle conoscenze.
modelli puramente parametrici possono essere più veloci nell'inferenza poiché saltano completamente la fase di recupero.
Addestrare un modello di grandi dimensioni da zero può costare milioni di dollari e richiedere settimane di elaborazione su migliaia di GPU.
Senza un adeguato recupero delle informazioni, questi modelli a volte inventano fatti che sembrano plausibili ma sono errati, un comportamento noto come allucinazione.
Tabella di confronto
Funzionalità
Ricerca potenziata dall'intelligenza artificiale
Addestramento basato esclusivamente sul set di dati
Fonte di conoscenza
Recupero in tempo reale da database esterni o dal web
Conoscenza statica incorporata nei pesi del modello
Aggiornamento delle informazioni
È possibile accedere ai dati pubblicati pochi istanti fa
Limitato alla data limite di formazione
Rischio di allucinazioni
Minore quando basato su fonti recuperate
Più alto, soprattutto per argomenti di nicchia o recenti
Velocità di inferenza
Più lento a causa del sovraccarico di recupero
Passaggio singolo e più veloce attraverso il modello.
Costo computazionale
Minori costi di formazione, maggiori costi per singola query.
Costo di formazione molto elevato, costo per query basso.
Trasparenza
Può citare fonti e documenti specifici
Opaco, senza meccanismo di citazione integrato
Funzionalità offline
Richiede l'accesso alla rete o al database
Funziona completamente offline una volta addestrato
Scalabilità della conoscenza
Le basi di conoscenza possono crescere senza bisogno di riqualificazione professionale.
La conoscenza cresce solo attraverso costosi corsi di aggiornamento.
Casi d'uso ottimali
Ricerca, assistenza clienti, verifica dei fatti, notizie
Scrittura creativa, programmazione, conversazione generale
Confronto dettagliato
Come accedono alla conoscenza
L'intelligenza artificiale potenziata dalla ricerca funziona in due fasi: prima recupera i documenti pertinenti da un indice di ricerca, un database vettoriale o dal web in tempo reale, poi inserisce questi passaggi in un modello linguistico che sintetizza una risposta. I modelli basati esclusivamente su dataset saltano completamente la fase di recupero e si affidano a schemi compressi in miliardi di parametri durante l'addestramento. La differenza pratica è che un sistema RAG (Research-Augmentation-Grid) può citare un articolo di notizie pubblicato un'ora prima, mentre un modello statico non ne avrebbe idea.
Accuratezza e allucinazione
Basare un modello su prove recuperate tende a ridurre le incongruenze, soprattutto per le domande fattuali. Studi di Meta AI e altri hanno dimostrato che i sistemi RAG producono risposte più verificabili perché il modello può fare affidamento su testi di origine reali anziché su supposizioni. I modelli basati esclusivamente su dataset, al contrario, a volte inventano statistiche, citazioni o dettagli biografici che sembrano corretti ma sono completamente inventati. Detto questo, il recupero di informazioni non elimina del tutto le incongruenze; un modello può comunque interpretare o citare erroneamente le fonti che utilizza.
Costo e infrastrutture
Addestrare da zero un modello linguistico di grandi dimensioni è estremamente costoso, spesso con costi di calcolo che ammontano a milioni di dollari, e il modello risultante presenta comunque un limite di conoscenza. I sistemi di ricerca potenziata ribaltano questa equazione: il modello sottostante può essere più piccolo e meno costoso da addestrare, ma ogni query ha un costo maggiore a causa della fase di recupero e dei token aggiuntivi inseriti nella finestra di contesto. Per le organizzazioni, questo significa che RAG è spesso più conveniente quando si necessitano informazioni aggiornate senza dover riaddestrare un modello di frontiera.
Freschezza e adattabilità
Uno dei maggiori vantaggi dell'IA potenziata dalla ricerca è la possibilità di aggiornarne le conoscenze semplicemente aggiornando i documenti nel suo indice di recupero. Volete che il modello venga a conoscenza di una nuova linea di prodotti o di una recente modifica normativa? Basta aggiungere i documenti. Con l'addestramento basato esclusivamente su dataset, l'aggiornamento delle conoscenze implica la raccolta di nuovi dati, il riaddestramento o la messa a punto e la ridistribuzione, un processo che può richiedere settimane. Questo rende l'IA potenziata dalla ricerca molto più pratica per settori in rapida evoluzione come la finanza, il diritto e l'informazione.
Trasparenza e fiducia
Poiché i sistemi di ricerca avanzata possono indicare i documenti specifici utilizzati, gli utenti possono verificare le affermazioni e approfondire le fonti. Questo rappresenta un enorme vantaggio in termini di fiducia, soprattutto nel giornalismo, nella ricerca e nelle applicazioni aziendali. I modelli basati esclusivamente su dataset non offrono un modo integrato per risalire alla provenienza di una risposta, il che rende difficile la verifica. Alcuni modelli statici più recenti tentano di stimare l'affidabilità, ma non possono eguagliare la verificabilità di un sistema che mostra concretamente il suo funzionamento.
Quando ogni approccio brilla
L'intelligenza artificiale potenziata dalla ricerca eccelle quando accuratezza, attualità e attribuzione della fonte sono fondamentali, come ad esempio negli assistenti alla ricerca medica, nell'analisi di documenti legali o nei bot di assistenza clienti che attingono a una base di conoscenza. L'addestramento basato esclusivamente su dataset rimane la soluzione migliore per attività che non richiedono informazioni esterne, come la scrittura creativa, il brainstorming, la generazione di codice o le conversazioni informali. Molti sistemi di produzione odierni combinano entrambi gli approcci: un solido modello di base potenziato dal recupero delle informazioni, per ottenere il meglio da entrambi i mondi.
Pro e Contro
Ricerca potenziata dall'intelligenza artificiale
Vantaggi
+Frequenza di ricarica
+Cita le fonti
+Formazione più economica
+Aggiornamenti più semplici
Consentiti
−Inferenza più lenta
−Necessaria infrastruttura
−Errori di recupero
−Costo per query più elevato
Addestramento basato esclusivamente sul set di dati
Vantaggi
+Inferenza rapida
+Funziona offline
+Implementazione semplice
+ragionamento forte
Consentiti
−soglia di conoscenza
−Maggiore rischio di allucinazioni
−Riqualificazione professionale costosa
−Nessuna citazione delle fonti
Idee sbagliate comuni
Mito
L'intelligenza artificiale potenziata dalla ricerca non ha affatto allucinazioni.
Realtà
Il metodo RAG riduce le allucinazioni, ma non le elimina del tutto. Il modello può comunque interpretare, citare o combinare in modo errato i passaggi recuperati, generando risultati fuorvianti. La qualità delle fonti utilizzate è di fondamentale importanza; fonti inaffidabili portano a risultati errati.
Mito
modelli basati esclusivamente su un dataset non possono apprendere nulla di nuovo dopo l'addestramento.
Realtà
Sebbene le loro conoscenze parametriche siano fisse, possono comunque essere affinate o arricchite di nuove informazioni tramite prompt e messaggi di sistema. Il limite è che questo processo non è automatico e richiede uno sforzo deliberato.
Mito
RAG è semplicemente un motore di ricerca sofisticato.
Realtà
L'intelligenza artificiale applicata alla ricerca combina il recupero di informazioni con un modello generativo che sintetizza, riassume e analizza i contenuti recuperati. Non si limita a restituire link, ma produce risposte originali e contestualizzate, basate su tali fonti.
Mito
I modelli più grandi, addestrati su una maggiore quantità di dati, non necessitano di recupero.
Realtà
Anche i modelli più grandi, inclusi GPT-4 e Claude, traggono vantaggio dal recupero delle informazioni per una maggiore accuratezza e attualità. La scalabilità favorisce il ragionamento e la fluidità, ma non risolve il problema del limite di conoscenza né garantisce la precisione fattuale.
Mito
I sistemi potenziati dalla ricerca sono sempre più precisi.
Realtà
L'accuratezza dipende in larga misura dalla qualità dell'indice di recupero e dalla capacità del modello di utilizzare il contesto recuperato. Una pipeline RAG configurata in modo inadeguato può ottenere prestazioni inferiori rispetto a un modello statico ben addestrato in determinate attività.
Domande frequenti
Che cos'è la Generazione Aumentata dal Recupero (RAG)?
RAG è una tecnica in cui un modello di intelligenza artificiale recupera documenti pertinenti da una fonte esterna, come un database vettoriale o il web, prima di generare una risposta. I passaggi recuperati vengono inseriti nel contesto del modello, basando la risposta su informazioni reali. Questo approccio è stato formalizzato in un articolo del 2020 di Facebook AI Research ed è da allora diventato un pilastro delle moderne applicazioni di intelligenza artificiale.
Perché i modelli di intelligenza artificiale hanno allucinazioni?
Le allucinazioni si verificano quando un modello genera informazioni che sembrano plausibili ma che sono di fatto errate. I modelli linguistici sono addestrati per prevedere il token successivo, non per verificarne la veridicità, quindi a volte colmano le lacune con ipotesi che sembrano sicure di sé. Basare le risposte su fonti recuperate, come fa RAG, riduce significativamente questo problema fornendo al modello prove concrete su cui lavorare.
L'intelligenza artificiale applicata alla ricerca può funzionare offline?
Non nel senso tradizionale. I sistemi di ricerca aumentata necessitano dell'accesso a un indice di recupero, che di solito implica un database, un archivio vettoriale o una connessione web. Tuttavia, è possibile eseguire una configurazione RAG completamente offline utilizzando un database vettoriale locale come FAISS o Chroma con documenti memorizzati sul proprio computer. Il modello in sé non necessita di Internet, ma il componente di recupero richiede una fonte di dati accessibile.
Quanto costa addestrare un modello linguistico di grandi dimensioni?
L'addestramento di un modello di frontiera come GPT-4 o Gemini può costare da decine di milioni a oltre cento milioni di dollari, a seconda delle dimensioni e della durata dell'addestramento. Modelli open-source più piccoli, con un numero di parametri compreso tra 7 e 70 miliardi, possono essere addestrati per poche decine di migliaia o qualche milione di dollari. Gli approcci basati sulla ricerca spesso evitano completamente questo costo, utilizzando modelli più piccoli abbinati al recupero delle informazioni.
Quale è la soluzione migliore per i chatbot di assistenza clienti?
L'intelligenza artificiale potenziata dalla ricerca è generalmente la scelta migliore per l'assistenza clienti perché può attingere le risposte direttamente dalla knowledge base, dalla documentazione del prodotto o dagli articoli del centro assistenza. Ciò significa che le risposte rimangono aggiornate man mano che i prodotti e le politiche si evolvono, e il bot può citare l'articolo esatto che un cliente dovrebbe leggere. Un modello basato esclusivamente su un dataset richiederebbe un costante riaddestramento per stare al passo con i cambiamenti.
Tutti i moderni sistemi di intelligenza artificiale utilizzano il grafo aciclico diretto (RAG)?
Non tutti, ma un numero crescente lo fa. Prodotti come Perplexity, Bing Chat e Notion AI si basano fortemente sul recupero delle informazioni. Altri, come le versioni base di GPT-4 o Claude, funzionano senza recupero per impostazione predefinita, ma possono essere abbinati a strumenti di recupero tramite API e framework come LangChain o LlamaIndex. Molte implementazioni aziendali ora combinano entrambi gli approcci.
Che cos'è un limite di conoscenza?
Il limite di conoscenza è la data oltre la quale un modello non dispone di informazioni provenienti dai suoi dati di addestramento. Ad esempio, i dati di addestramento di GPT-4 si estendono fino a una certa data e qualsiasi informazione pubblicata successivamente non sarà presente nella sua memoria parametrica. I sistemi di ricerca aumentata aggirano questa limitazione recuperando informazioni aggiornate al momento della query, eliminando di fatto qualsiasi limite di conoscenza.
Posso aggiungere RAG a un modello esistente?
Sì, ed è una pratica piuttosto comune. È possibile integrare quasi qualsiasi modello linguistico con un livello di recupero informazioni utilizzando framework come LangChain, LlamaIndex o Haystack. Il modello stesso non necessita di essere riaddestrato; è sufficiente un database vettoriale dei documenti e un sistema di recupero che individui i passaggi pertinenti da inserire nel prompt. Questo è uno dei metodi più rapidi per consentire a un modello statico di accedere a informazioni proprietarie o aggiornate.
L'intelligenza artificiale applicata alla ricerca è più sicura?
Dipende dalla configurazione. RAG può essere più sicuro sotto certi aspetti perché i dati sensibili rimangono nel database controllato anziché essere incorporati nei pesi del modello. Tuttavia, introduce anche nuove superfici di attacco, come l'iniezione di prompt tramite documenti recuperati. I modelli basati solo su dataset mantengono tutto in un unico posto, ma possono divulgare dati di training tramite la memorizzazione. Entrambi gli approcci richiedono un'attenta progettazione della sicurezza.
Il metodo RAG sostituirà la formazione basata su modelli tradizionali?
Improbabile, o almeno non del tutto. RAG integra l'addestramento anziché sostituirlo. Un modello ben addestrato necessita comunque di solide capacità di ragionamento, comprensione del linguaggio e di esecuzione delle istruzioni, nessuna delle quali è fornita dal recupero delle informazioni. I sistemi più efficaci utilizzano un modello di base performante potenziato dal recupero delle informazioni, ottenendo così la potenza di ragionamento dell'addestramento e la freschezza della ricerca.
Verdetto
Se la tua applicazione necessita di informazioni aggiornate, fonti verificabili e la capacità di aggiornare le conoscenze senza dover riaddestrare il sistema, l'IA potenziata dalla ricerca è la scelta migliore. Se invece la priorità è la velocità di inferenza, il funzionamento offline o le attività creative in cui la precisione dei dati è meno importante, l'addestramento basato esclusivamente su dataset rimane un'opzione valida e spesso più semplice. In pratica, i sistemi moderni più performanti combinano entrambi gli approcci anziché concentrarsi esclusivamente su uno dei due estremi.