Apprentissage automatiqueScience des donnéesDéveloppement de l'IABig Data
Qualité des données vs quantité des données dans l'entraînement des modèles
Si le volume important de données était autrefois l'objectif principal du développement d'IA performantes, l'accent est désormais mis sur les ensembles de données de haute qualité. La qualité met l'accent sur la précision et la pertinence des informations, tandis que la quantité fournit l'étendue statistique nécessaire aux modèles d'apprentissage profond pour généraliser à des scénarios complexes et réalistes.
Points forts
L'amélioration de la qualité permet de réduire la dette technique engendrée par la correction des bugs en production.
La quantité est le « carburant » qui a permis l'explosion de l'IA générative.
L'IA centrée sur les données préconise de consacrer 80 % du temps à la qualité, et non au codage.
Les modèles les plus performants aujourd'hui utilisent un mélange « idéal » des deux.
Qu'est-ce que Qualité des données ?
La mesure de la précision, de la qualité et de la représentativité d'un ensemble de données pour une tâche spécifique.
Des données de haute qualité minimisent le risque de « données d'entrée erronées, résultats erronés » lors de l'entraînement du modèle.
Les jeux de données propres nécessitent moins de puissance de calcul car le modèle converge plus rapidement.
Le contrôle qualité vise à supprimer les doublons, à corriger les erreurs et à garantir des étiquettes équilibrées.
L'ingénierie des caractéristiques est plus efficace lorsque les points de données sous-jacents sont fiables.
Les tendances récentes en matière d'« IA centrée sur les données » privilégient l'amélioration des étiquettes plutôt que l'augmentation du volume.
Qu'est-ce que Quantité de données ?
Le volume considérable d'observations individuelles ou de points de données disponibles pour un algorithme.
Les ensembles de données massifs permettent aux grands modèles de langage d'apprendre des schémas nuancés et des cas limites.
La quantité permet d'éviter le surapprentissage en fournissant des exemples plus variés au modèle.
Le Big Data est essentiel pour les architectures comme les Transformers qui comportent des milliards de paramètres.
Un volume sonore élevé peut parfois compenser un bruit mineur par moyennage statistique.
Le web scraping à grande échelle et la génération de données synthétiques sont des méthodes courantes pour augmenter la quantité de données.
Tableau comparatif
Fonctionnalité
Qualité des données
Quantité de données
Objectif principal
Précision et fiabilité
Diversité et généralisation
Vitesse d'entraînement
Convergence rapide
Lent et gourmand en ressources
Type de modèle idéal
Apprentissage automatique traditionnel (SVM, arbres de décision)
Apprentissage profond (réseaux neuronaux)
Risque clé
biais lié aux petits échantillons
Biais algorithmique et bruit
coût d'acquisition
Élevé (Étiquetage manuel)
Variable (extraction automatisée)
Impact sur la logique
Une relation de cause à effet plus claire
Découvre des corrélations cachées
Comparaison détaillée
Le débat sur la loi d'échelle
Pendant des années, le secteur a suivi des « lois d'échelle » suggérant que davantage de données conduisent presque toujours à de meilleures performances. Or, les chercheurs constatent que l'ajout de données de faible qualité dégrade en réalité le raisonnement des modèles. Imaginez un étudiant lisant dix manuels de grande qualité plutôt qu'un millier d'articles de blog mal écrits : la compréhension sera généralement plus approfondie avec les premiers.
Gestion du bruit et des valeurs aberrantes
Une approche basée sur la quantité suppose que le bruit finira par s'annuler sur des millions d'échantillons. Si cette méthode fonctionne pour des tâches simples, un entraînement axé sur la qualité élimine proactivement les valeurs aberrantes susceptibles d'induire un modèle en erreur. Dans des domaines critiques comme le diagnostic médical, une image parfaitement étiquetée vaut souvent plus qu'un millier d'images floues.
Coût et efficacité de calcul
L'entraînement sur des ensembles de données massifs est extrêmement coûteux, nécessitant des semaines de calcul GPU et une consommation énergétique considérable. En sélectionnant un ensemble de données plus restreint mais de haute qualité, les développeurs peuvent souvent obtenir des résultats similaires, voire supérieurs, avec des ressources matérielles bien moindres. Cette évolution rend l'IA sophistiquée plus accessible aux petites structures qui ne peuvent pas se permettre d'investir dans d'immenses fermes de serveurs.
Représentation des cas limites
La quantité de données est essentielle pour détecter les cas exceptionnels, ces événements rares qui ne se produisent qu'une fois sur un million. Même un petit ensemble de données, aussi précis soit-il, peut passer à côté de ces situations critiques. Pour concevoir un système véritablement robuste, comme une voiture autonome, il faut un volume considérable de données afin que le modèle ait pu observer toutes les conditions météorologiques ou les scénarios de circulation atypiques.
Avantages et inconvénients
Qualité des données
Avantages
+Précision accrue du modèle
+Coûts de calcul réduits
+Résultats explicables
+Moins de biais algorithmiques
Contenu
−Très chronophage
−Difficile à mettre à l'échelle
−Travail manuel requis
−Scénarios rares manquants
Quantité de données
Avantages
+meilleure généralisation
+Capture les cas limites
+Plus facile à automatiser
+Norme pour les LLM
Contenu
−coûts de stockage élevés
−Plus difficile à déboguer
−Risque de contenu toxique
−Rendements décroissants
Idées reçues courantes
Mythe
Si j'ai suffisamment de données, la qualité n'a pas d'importance.
Réalité
Il s'agit d'un piège dangereux. Des données de mauvaise qualité entraînent une « amplification des biais », où le modèle apprend et même exagère les erreurs ou les préjugés présents dans l'ensemble de données massif.
Mythe
Les données synthétiques ne sont utiles que pour la quantité.
Réalité
En réalité, les données synthétiques de haute qualité sont souvent utilisées pour corriger les problèmes de qualité. Elles permettent de rééquilibrer un ensemble de données en créant des exemples « parfaits » de groupes sous-représentés.
Mythe
Le nettoyage des données est une tâche ponctuelle.
Réalité
La qualité des données est un processus continu. Face à l'évolution des conditions réelles (dérive des données), il est impératif de vérifier constamment que vos données reflètent toujours fidèlement la réalité actuelle.
Mythe
Les petits ensembles de données ne pourront jamais rivaliser avec les grands.
Réalité
Dans de nombreux tests de référence, les modèles entraînés sur 10 % d'un ensemble de données — soigneusement sélectionnés pour leur « difficulté » et leur qualité — ont surpassé les modèles entraînés sur la totalité des 100 %.
Questions fréquemment posées
Qu’est-ce qui définit réellement la « qualité » d’un ensemble de données ?
La qualité est généralement évaluée selon cinq critères : l’exactitude (les données sont-elles exactes ?), l’exhaustivité (manquent-elles des informations ?), la cohérence (le format est-il uniforme ?), l’actualité (les données sont-elles à jour ?) et la pertinence (répondent-elles réellement à votre problème ?). Un ensemble de données peut être volumineux sans pour autant satisfaire à aucun de ces critères.
Le big data peut-il résoudre ses propres problèmes de qualité ?
Dans une certaine mesure, oui. Des techniques comme le « débruitage » exploitent le poids statistique de la majorité des données pour ignorer les quelques valeurs aberrantes manifestement erronées. Cependant, si la majorité de vos données sont erronées, le modèle finira par se tromper avec certitude.
Vaut-il mieux acheter un grand ensemble de données ou embaucher des personnes pour étiqueter un petit ensemble ?
Pour des tâches très spécifiques, comme l'identification de défauts dans un processus de fabrication exclusif, il est presque toujours préférable de faire appel à des experts pour créer un petit ensemble de données de haute qualité. Les ensembles de données achetés sont souvent trop génériques pour offrir un avantage concurrentiel sur des problèmes de niche.
Comment la quantité de données influence-t-elle le surapprentissage ?
Le surapprentissage se produit lorsqu'un modèle « mémorise » un petit ensemble de données au lieu d'en apprendre les régularités. Disposer de davantage de données agit comme un filet de sécurité ; cela oblige le modèle à trouver des règles plus générales qui s'appliquent à de nombreux exemples différents plutôt qu'à quelques cas spécifiques.
Qu’est-ce que l’« IA centrée sur les données » exactement ?
Cette philosophie, popularisée par Andrew Ng, suggère qu'au lieu de constamment modifier le code et les algorithmes, il vaut mieux maintenir le code inchangé et se concentrer entièrement sur l'amélioration de la qualité des données. Elle considère l'ingénierie des données comme le principal moteur du succès de l'IA.
La quantité permet-elle de lutter contre les « hallucinations » en IA ?
C'est une arme à double tranchant. Plus de données permettent au modèle d'exploiter davantage d'éléments, ce qui peut réduire les erreurs. Cependant, si ces données contiennent des informations contradictoires ou non vérifiées, cela peut inciter le modèle à mélanger les faits pour construire un mensonge convaincant.
Qu'est-ce qui est le plus important pour une startup ?
Les startups devraient presque toujours privilégier la qualité. Vous n'aurez probablement pas les ressources nécessaires pour rivaliser avec les géants de la tech en termes de volume, mais vous pouvez créer un outil spécialisé et très performant en vous appuyant sur les données les plus fiables et les mieux organisées de votre niche.
Quel est le rôle de la « malédiction de la dimensionnalité » dans tout cela ?
Plus on ajoute de caractéristiques (qualité), plus on a besoin de données (quantité) pour combler l'espace entre ces points. C'est pourquoi ajouter trop de détails à un petit ensemble de données peut en réalité dégrader les performances du modèle : il ne dispose pas d'assez d'exemples pour établir les liens nécessaires.
Est-il possible d'automatiser le processus de vérification de la qualité des données ?
Oui, il existe des outils d'« observabilité des données » qui signalent automatiquement les valeurs manquantes, les modifications de schéma ou les anomalies statistiques. Bien qu'ils ne puissent pas déterminer si une étiquette est moralement correcte, ils sont très efficaces pour détecter les erreurs techniques avant qu'elles n'affectent votre processus d'entraînement.
Quel rôle joue la « diversité des données » ?
La diversité est le lien entre les deux. On peut disposer d'une grande quantité de données sans diversité (par exemple, des millions de photos d'une seule espèce d'arbre), ce qui entraîne une qualité médiocre car le modèle ne pourra pas reconnaître les autres espèces. Une qualité optimale exige une grande diversité de données.
Verdict
Privilégiez une approche axée sur la qualité des données si vous travaillez dans des domaines spécialisés comme le droit ou la médecine, où la précision est essentielle. Optez plutôt pour une approche axée sur la quantité des données pour la conception de modèles généralistes devant gérer un large éventail d'entrées humaines, souvent imprévisibles.