Apprendimento automaticoScienza dei datiSviluppo dell'IABig Data
Qualità dei dati vs quantità dei dati nell'addestramento dei modelli
Sebbene un tempo l'obiettivo principale per la creazione di potenti sistemi di intelligenza artificiale fosse l'elevato volume di dati, l'attenzione si è ora spostata verso set di dati ad alta fedeltà. La qualità enfatizza la precisione e la rilevanza delle informazioni, mentre la quantità fornisce l'ampiezza statistica necessaria affinché i modelli di deep learning possano generalizzare a scenari complessi del mondo reale.
In evidenza
La qualità riduce il debito tecnico creato dalla correzione dei bug in produzione.
La quantità è il "carburante" che ha permesso l'esplosione dell'intelligenza artificiale generativa.
L'IA incentrata sui dati sostiene che l'80% del tempo debba essere dedicato alla qualità, non alla programmazione.
modelli di maggior successo oggi utilizzano una combinazione "ideale" di entrambi.
Cos'è Qualità dei dati?
La misura di quanto un set di dati sia accurato, pulito e rappresentativo per un compito specifico.
Dati di alta qualità riducono al minimo il rischio di ottenere risultati errati ("garbage in, garbage out") durante l'addestramento del modello.
I set di dati puliti richiedono meno potenza di calcolo perché il modello converge più rapidamente.
La qualità si concentra sull'eliminazione dei duplicati, sulla correzione degli errori e sulla garanzia di etichette bilanciate.
L'ingegneria delle caratteristiche è più efficace quando i punti dati sottostanti sono affidabili.
Le tendenze recenti nell'ambito dell'"IA incentrata sui dati" privilegiano il miglioramento delle etichette rispetto all'aumento del volume.
Cos'è Quantità di dati?
L'enorme volume di singole osservazioni o punti dati disponibili per l'elaborazione da parte di un algoritmo.
I grandi insiemi di dati consentono ai modelli linguistici di grandi dimensioni di apprendere schemi complessi e casi limite.
La quantità contribuisce a prevenire l'overfitting fornendo esempi più vari per il modello.
I big data sono essenziali per architetture come i Transformer, che hanno miliardi di parametri.
Un volume elevato può talvolta compensare un rumore di lieve entità attraverso la media statistica.
L'estrazione di dati su larga scala e la generazione di dati sintetici sono metodi comuni per aumentare la quantità di informazioni.
Distorsione dovuta a campioni di piccole dimensioni
Distorsione algoritmica e rumore
Costo di acquisizione
Alto (etichettatura manuale)
Variabile (estrazione automatica dei dati)
Impatto sulla logica
Rapporto causa-effetto più chiaro
Scopre correlazioni nascoste
Confronto dettagliato
Il dibattito sulla legge di scala
Per anni, il settore ha seguito le "leggi di scala" secondo cui una maggiore quantità di dati porta quasi sempre a prestazioni migliori. Tuttavia, i ricercatori stanno scoprendo che l'aggiunta di dati di bassa qualità in realtà peggiora il ragionamento del modello. Si pensi a uno studente che legge dieci libri di testo di alta qualità rispetto a mille post di blog scritti male: la profondità di comprensione è generalmente maggiore nel primo caso.
Gestione del rumore e dei valori anomali
Un approccio basato su grandi quantità di dati presuppone che il rumore si annulli col tempo su milioni di campioni. Sebbene questo metodo funzioni per compiti semplici, l'addestramento focalizzato sulla qualità rimuove in modo proattivo i valori anomali che potrebbero indurre un modello a conclusioni errate. In settori cruciali come la diagnostica medica, un'immagine perfettamente etichettata vale spesso più di mille immagini sfocate.
Costo ed efficienza computazionale
L'addestramento su set di dati enormi è incredibilmente costoso, richiedendo settimane di tempo GPU e un consumo energetico ingente. Selezionando un set di dati più piccolo e di alta qualità, gli sviluppatori possono spesso ottenere risultati simili o superiori con una frazione dell'hardware necessario. Questo cambiamento rende l'intelligenza artificiale più sofisticata accessibile anche alle organizzazioni più piccole che non possono permettersi enormi server farm.
Rappresentazione del caso limite
La quantità eccelle nel catturare la "coda lunga", ovvero quegli eventi rari che si verificano solo una volta su un milione. Anche il set di dati più piccolo e pulito potrebbe non rilevare questi casi limite critici. Per costruire un sistema veramente robusto, come un'auto a guida autonoma, è necessario un volume enorme di dati per garantire che il modello abbia visto ogni possibile condizione meteorologica anomala o scenario di traffico.
Pro e Contro
Qualità dei dati
Vantaggi
+Maggiore accuratezza del modello
+Costi di elaborazione inferiori
+Risultati spiegabili
+Minore distorsione algoritmica
Consentiti
−Richiede molto tempo
−Difficile da scalare
−È richiesto lavoro manuale
−Mancanza di scenari rari
Quantità di dati
Vantaggi
+Migliore generalizzazione
+Cattura i casi limite
+Più facile da automatizzare
+Standard per i LLM
Consentiti
−Costi di stoccaggio elevati
−Più difficile da debuggare
−Rischio di contenuto tossico
−Rendimenti decrescenti
Idee sbagliate comuni
Mito
Se ho dati a sufficienza, la qualità non ha importanza.
Realtà
Si tratta di una trappola pericolosa. Dati errati portano all'"amplificazione del bias", per cui il modello apprende e addirittura esagera gli errori o i pregiudizi presenti nell'enorme set di dati.
Mito
I dati sintetici aiutano solo in termini di quantità.
Realtà
In realtà, i dati sintetici di alta qualità vengono spesso utilizzati per risolvere problemi di qualità. Possono riequilibrare un set di dati creando esempi "perfetti" di gruppi sottorappresentati.
Mito
La pulizia dei dati è un'operazione da eseguire una sola volta.
Realtà
La qualità dei dati è un ciclo continuo. Poiché le condizioni del mondo reale cambiano (deriva dei dati), è necessario verificare costantemente che i dati rappresentino ancora accuratamente la realtà attuale.
Mito
I set di dati di piccole dimensioni non potranno mai competere con quelli di grandi dimensioni.
Realtà
In numerosi test di benchmark, i modelli addestrati sul 10% di un dataset, accuratamente selezionato in base a "difficoltà" e qualità, hanno ottenuto risultati migliori rispetto ai modelli addestrati sul 100% dell'intero dataset.
Domande frequenti
Cosa definisce concretamente la "qualità" di un set di dati?
La qualità viene solitamente misurata in base a cinque pilastri: accuratezza (è vero?), completezza (manca qualcosa?), coerenza (è formattato allo stesso modo?), tempestività (è aggiornato?) e rilevanza (risolve effettivamente il problema?). Un set di dati può essere enorme ma non superare nessuno di questi controlli.
I big data sono in grado di risolvere autonomamente i propri problemi di qualità?
In un certo senso, sì. Tecniche come la "riduzione del rumore" utilizzano il peso statistico della maggioranza dei dati per ignorare i pochi valori anomali che sono chiaramente errati. Tuttavia, se la maggior parte dei "big data" è errata, il modello imparerà semplicemente a essere sicuro di sbagliare.
È meglio acquistare un set di dati di grandi dimensioni o assumere persone per etichettare un set di dati di piccole dimensioni?
Se il tuo compito è molto specifico, come ad esempio identificare i difetti in un processo di produzione proprietario, affidarsi a esperti per creare un set di dati di piccole dimensioni e di alta qualità è quasi sempre la soluzione migliore. I set di dati acquistati sono spesso troppo generici per offrire un vantaggio competitivo in problemi di nicchia.
In che modo la quantità di dati influisce sull'overfitting?
L'overfitting si verifica quando un modello "memorizza" un piccolo set di dati anziché apprendere i pattern. Disporre di più dati funge da rete di sicurezza; costringe il modello a trovare regole più generali che si applichino a molti esempi diversi, anziché solo a pochi specifici.
Che cos'è esattamente l'intelligenza artificiale incentrata sui dati?
Si tratta di una filosofia, resa popolare da Andrew Ng, che suggerisce di non modificare costantemente codice e algoritmi, ma di mantenere il codice invariato e concentrarsi esclusivamente sul miglioramento della qualità dei dati. Considera l'ingegneria dei dati come il principale motore del successo dell'intelligenza artificiale.
La quantità contribuisce a contrastare le "allucinazioni" nell'intelligenza artificiale?
È un'arma a doppio taglio. Più dati forniscono al modello più elementi su cui basarsi, il che può ridurre gli errori. Tuttavia, se questi dati includono informazioni contraddittorie o non verificate, possono in realtà indurre il modello a mescolare i fatti per creare una menzogna convincente.
Qual è l'aspetto più importante per una startup?
Le startup dovrebbero quasi sempre concentrarsi prima di tutto sulla qualità. Probabilmente non avrete le risorse per competere con i giganti della tecnologia in termini di volume, ma potrete creare uno strumento specializzato ed estremamente efficace disponendo dei dati più puliti e accuratamente selezionati nella vostra nicchia specifica.
Come si inserisce in questo contesto la "maledizione della dimensionalità"?
Man mano che si aggiungono caratteristiche (qualità), spesso è necessario un numero di dati esponenzialmente maggiore (quantità) per riempire lo "spazio" tra questi punti. Ecco perché aggiungere troppi dettagli a un set di dati di piccole dimensioni può effettivamente peggiorare le prestazioni del modello: non ci sono abbastanza esempi per collegare i punti.
È possibile automatizzare il processo di verifica della qualità dei dati?
Sì, esistono strumenti di "osservabilità dei dati" che segnalano automaticamente valori mancanti, modifiche allo schema o anomalie statistiche. Sebbene non possano stabilire se un'etichetta sia "moralmente" corretta, sono ottimi per individuare errori tecnici prima che influiscano sul processo di addestramento.
Che ruolo gioca la "diversità dei dati"?
La diversità è il ponte tra i due. Si può avere una grande quantità di dati ma priva di diversità (ad esempio, milioni di foto di un solo tipo di albero), il che porta a una scarsa qualità perché il modello non sarà in grado di capire che aspetto hanno gli altri alberi. La vera qualità richiede una quantità diversificata.
Verdetto
Scegli un approccio basato sulla qualità dei dati se lavori in settori specializzati come quello legale o medico, dove la precisione è imprescindibile. Opta invece per un approccio basato sulla quantità dei dati quando crei modelli generici che devono gestire una vasta e imprevedibile gamma di input umani.