Apprentissage automatiqueScience des donnéesDéveloppement de l'IABig Data

Qualité des données vs quantité des données dans l'entraînement des modèles

Si le volume important de données était autrefois l'objectif principal du développement d'IA performantes, l'accent est désormais mis sur les ensembles de données de haute qualité. La qualité met l'accent sur la précision et la pertinence des informations, tandis que la quantité fournit l'étendue statistique nécessaire aux modèles d'apprentissage profond pour généraliser à des scénarios complexes et réalistes.

Points forts

L'amélioration de la qualité permet de réduire la dette technique engendrée par la correction des bugs en production.
La quantité est le « carburant » qui a permis l'explosion de l'IA générative.
L'IA centrée sur les données préconise de consacrer 80 % du temps à la qualité, et non au codage.
Les modèles les plus performants aujourd'hui utilisent un mélange « idéal » des deux.

Qu'est-ce que Qualité des données ?

La mesure de la précision, de la qualité et de la représentativité d'un ensemble de données pour une tâche spécifique.

Des données de haute qualité minimisent le risque de « données d'entrée erronées, résultats erronés » lors de l'entraînement du modèle.
Les jeux de données propres nécessitent moins de puissance de calcul car le modèle converge plus rapidement.
Le contrôle qualité vise à supprimer les doublons, à corriger les erreurs et à garantir des étiquettes équilibrées.
L'ingénierie des caractéristiques est plus efficace lorsque les points de données sous-jacents sont fiables.
Les tendances récentes en matière d'« IA centrée sur les données » privilégient l'amélioration des étiquettes plutôt que l'augmentation du volume.

Qu'est-ce que Quantité de données ?

Le volume considérable d'observations individuelles ou de points de données disponibles pour un algorithme.

Les ensembles de données massifs permettent aux grands modèles de langage d'apprendre des schémas nuancés et des cas limites.
La quantité permet d'éviter le surapprentissage en fournissant des exemples plus variés au modèle.
Le Big Data est essentiel pour les architectures comme les Transformers qui comportent des milliards de paramètres.
Un volume sonore élevé peut parfois compenser un bruit mineur par moyennage statistique.
Le web scraping à grande échelle et la génération de données synthétiques sont des méthodes courantes pour augmenter la quantité de données.

Tableau comparatif

Fonctionnalité	Qualité des données	Quantité de données
Objectif principal	Précision et fiabilité	Diversité et généralisation
Vitesse d'entraînement	Convergence rapide	Lent et gourmand en ressources
Type de modèle idéal	Apprentissage automatique traditionnel (SVM, arbres de décision)	Apprentissage profond (réseaux neuronaux)
Risque clé	biais lié aux petits échantillons	Biais algorithmique et bruit
coût d'acquisition	Élevé (Étiquetage manuel)	Variable (extraction automatisée)
Impact sur la logique	Une relation de cause à effet plus claire	Découvre des corrélations cachées

Comparaison détaillée

Le débat sur la loi d'échelle

Pendant des années, le secteur a suivi des « lois d'échelle » suggérant que davantage de données conduisent presque toujours à de meilleures performances. Or, les chercheurs constatent que l'ajout de données de faible qualité dégrade en réalité le raisonnement des modèles. Imaginez un étudiant lisant dix manuels de grande qualité plutôt qu'un millier d'articles de blog mal écrits : la compréhension sera généralement plus approfondie avec les premiers.

Gestion du bruit et des valeurs aberrantes

Une approche basée sur la quantité suppose que le bruit finira par s'annuler sur des millions d'échantillons. Si cette méthode fonctionne pour des tâches simples, un entraînement axé sur la qualité élimine proactivement les valeurs aberrantes susceptibles d'induire un modèle en erreur. Dans des domaines critiques comme le diagnostic médical, une image parfaitement étiquetée vaut souvent plus qu'un millier d'images floues.

Coût et efficacité de calcul

L'entraînement sur des ensembles de données massifs est extrêmement coûteux, nécessitant des semaines de calcul GPU et une consommation énergétique considérable. En sélectionnant un ensemble de données plus restreint mais de haute qualité, les développeurs peuvent souvent obtenir des résultats similaires, voire supérieurs, avec des ressources matérielles bien moindres. Cette évolution rend l'IA sophistiquée plus accessible aux petites structures qui ne peuvent pas se permettre d'investir dans d'immenses fermes de serveurs.

Représentation des cas limites

La quantité de données est essentielle pour détecter les cas exceptionnels, ces événements rares qui ne se produisent qu'une fois sur un million. Même un petit ensemble de données, aussi précis soit-il, peut passer à côté de ces situations critiques. Pour concevoir un système véritablement robuste, comme une voiture autonome, il faut un volume considérable de données afin que le modèle ait pu observer toutes les conditions météorologiques ou les scénarios de circulation atypiques.

Avantages et inconvénients

Qualité des données

Avantages

+ Précision accrue du modèle
+ Coûts de calcul réduits
+ Résultats explicables
+ Moins de biais algorithmiques

Contenu

− Très chronophage
− Difficile à mettre à l'échelle
− Travail manuel requis
− Scénarios rares manquants

Quantité de données

Avantages

+ meilleure généralisation
+ Capture les cas limites
+ Plus facile à automatiser
+ Norme pour les LLM

Contenu

− coûts de stockage élevés
− Plus difficile à déboguer
− Risque de contenu toxique
− Rendements décroissants

Idées reçues courantes

Mythe

Si j'ai suffisamment de données, la qualité n'a pas d'importance.

Réalité

Il s'agit d'un piège dangereux. Des données de mauvaise qualité entraînent une « amplification des biais », où le modèle apprend et même exagère les erreurs ou les préjugés présents dans l'ensemble de données massif.

Mythe

Les données synthétiques ne sont utiles que pour la quantité.

Réalité

En réalité, les données synthétiques de haute qualité sont souvent utilisées pour corriger les problèmes de qualité. Elles permettent de rééquilibrer un ensemble de données en créant des exemples « parfaits » de groupes sous-représentés.

Mythe

Le nettoyage des données est une tâche ponctuelle.

Réalité

La qualité des données est un processus continu. Face à l'évolution des conditions réelles (dérive des données), il est impératif de vérifier constamment que vos données reflètent toujours fidèlement la réalité actuelle.

Mythe

Les petits ensembles de données ne pourront jamais rivaliser avec les grands.

Réalité

Dans de nombreux tests de référence, les modèles entraînés sur 10 % d'un ensemble de données — soigneusement sélectionnés pour leur « difficulté » et leur qualité — ont surpassé les modèles entraînés sur la totalité des 100 %.

Questions fréquemment posées

Qu’est-ce qui définit réellement la « qualité » d’un ensemble de données ?

La qualité est généralement évaluée selon cinq critères : l’exactitude (les données sont-elles exactes ?), l’exhaustivité (manquent-elles des informations ?), la cohérence (le format est-il uniforme ?), l’actualité (les données sont-elles à jour ?) et la pertinence (répondent-elles réellement à votre problème ?). Un ensemble de données peut être volumineux sans pour autant satisfaire à aucun de ces critères.

Le big data peut-il résoudre ses propres problèmes de qualité ?

Dans une certaine mesure, oui. Des techniques comme le « débruitage » exploitent le poids statistique de la majorité des données pour ignorer les quelques valeurs aberrantes manifestement erronées. Cependant, si la majorité de vos données sont erronées, le modèle finira par se tromper avec certitude.

Vaut-il mieux acheter un grand ensemble de données ou embaucher des personnes pour étiqueter un petit ensemble ?

Pour des tâches très spécifiques, comme l'identification de défauts dans un processus de fabrication exclusif, il est presque toujours préférable de faire appel à des experts pour créer un petit ensemble de données de haute qualité. Les ensembles de données achetés sont souvent trop génériques pour offrir un avantage concurrentiel sur des problèmes de niche.

Comment la quantité de données influence-t-elle le surapprentissage ?

Le surapprentissage se produit lorsqu'un modèle « mémorise » un petit ensemble de données au lieu d'en apprendre les régularités. Disposer de davantage de données agit comme un filet de sécurité ; cela oblige le modèle à trouver des règles plus générales qui s'appliquent à de nombreux exemples différents plutôt qu'à quelques cas spécifiques.

Qu’est-ce que l’« IA centrée sur les données » exactement ?

Cette philosophie, popularisée par Andrew Ng, suggère qu'au lieu de constamment modifier le code et les algorithmes, il vaut mieux maintenir le code inchangé et se concentrer entièrement sur l'amélioration de la qualité des données. Elle considère l'ingénierie des données comme le principal moteur du succès de l'IA.

La quantité permet-elle de lutter contre les « hallucinations » en IA ?

C'est une arme à double tranchant. Plus de données permettent au modèle d'exploiter davantage d'éléments, ce qui peut réduire les erreurs. Cependant, si ces données contiennent des informations contradictoires ou non vérifiées, cela peut inciter le modèle à mélanger les faits pour construire un mensonge convaincant.

Qu'est-ce qui est le plus important pour une startup ?

Les startups devraient presque toujours privilégier la qualité. Vous n'aurez probablement pas les ressources nécessaires pour rivaliser avec les géants de la tech en termes de volume, mais vous pouvez créer un outil spécialisé et très performant en vous appuyant sur les données les plus fiables et les mieux organisées de votre niche.

Quel est le rôle de la « malédiction de la dimensionnalité » dans tout cela ?

Plus on ajoute de caractéristiques (qualité), plus on a besoin de données (quantité) pour combler l'espace entre ces points. C'est pourquoi ajouter trop de détails à un petit ensemble de données peut en réalité dégrader les performances du modèle : il ne dispose pas d'assez d'exemples pour établir les liens nécessaires.

Est-il possible d'automatiser le processus de vérification de la qualité des données ?

Oui, il existe des outils d'« observabilité des données » qui signalent automatiquement les valeurs manquantes, les modifications de schéma ou les anomalies statistiques. Bien qu'ils ne puissent pas déterminer si une étiquette est moralement correcte, ils sont très efficaces pour détecter les erreurs techniques avant qu'elles n'affectent votre processus d'entraînement.

Quel rôle joue la « diversité des données » ?

La diversité est le lien entre les deux. On peut disposer d'une grande quantité de données sans diversité (par exemple, des millions de photos d'une seule espèce d'arbre), ce qui entraîne une qualité médiocre car le modèle ne pourra pas reconnaître les autres espèces. Une qualité optimale exige une grande diversité de données.

Verdict

Privilégiez une approche axée sur la qualité des données si vous travaillez dans des domaines spécialisés comme le droit ou la médecine, où la précision est essentielle. Optez plutôt pour une approche axée sur la quantité des données pour la conception de modèles généralistes devant gérer un large éventail d'entrées humaines, souvent imprévisibles.

Comparaisons associées

Accès aux données en temps réel vs rapports différés

L'accès aux données en temps réel et la production de rapports différés représentent deux approches différentes du calendrier analytique. Les systèmes en temps réel fournissent des informations instantanément dès la génération des données, tandis que la production de rapports différés traite les informations par lots, souvent des heures ou des jours plus tard, privilégiant l'exactitude, la validation et une analyse approfondie à la réactivité immédiate dans les contextes décisionnels.

Agrégation de données en temps réel vs sources d'information statiques

L'agrégation de données en temps réel et les sources d'information statiques représentent deux approches fondamentalement différentes du traitement des données. L'agrégation en temps réel collecte et traite en continu des données en direct provenant de multiples flux, tandis que les sources statiques s'appuient sur des ensembles de données fixes et pré-collectés qui changent rarement, privilégiant la stabilité et la cohérence à l'immédiateté.

Analyse de corrélation vs projection vectorielle

L'analyse de corrélation mesure la force linéaire et la direction d'une relation entre deux variables, tandis que la projection vectorielle détermine la portion d'un vecteur multidimensionnel alignée sur la direction d'un autre. Le choix entre ces deux méthodes détermine si l'analyste recherche de simples associations statistiques ou s'il transforme un espace de grande dimension pour des chaînes de traitement d'apprentissage automatique avancées.

Analyse de startups basée sur les données vs analyse de startups basée sur le récit

L'analyse des startups basée sur les données s'appuie sur des indicateurs mesurables tels que la croissance, le chiffre d'affaires et la fidélisation pour évaluer les entreprises, tandis que l'analyse narrative privilégie le storytelling, la vision et les signaux qualitatifs. Ces deux approches sont largement utilisées par les investisseurs et les fondateurs pour évaluer le potentiel, mais elles diffèrent dans l'interprétation des données et la justification des décisions.

Analyse des tendances du marché par rapport à l'analyse au niveau de l'entreprise

L'analyse des tendances du marché examine les grandes orientations sectorielles, le comportement des consommateurs et les fluctuations économiques, tandis que l'analyse au niveau de l'entreprise se concentre sur la performance et la stratégie d'une entreprise spécifique. Ces deux approches sont largement utilisées en matière d'investissement, de planification stratégique et d'analyse concurrentielle, mais elles répondent à des questions très différentes.