mathématiquesscience des donnéesalgèbre linéaireapprentissage automatique
Composantes principales vs valeurs singulières
Bien que les data scientists rencontrent fréquemment ces deux termes lors de la réduction de dimensionnalité, les composantes principales décrivent les directions de variance maximale dans un ensemble de données, tandis que les valeurs singulières mesurent l'amplitude de la variation le long de ces axes géométriques lors de la décomposition matricielle. Comprendre leur relation mathématique est essentiel pour maîtriser des algorithmes comme l'ACP et la SVD.
Points forts
Les composantes principales déterminent l'orientation spatiale de la variance des données, tandis que les valeurs singulières dictent l'échelle.
Un lien mathématique direct les unit uniquement lorsque la matrice de données sous-jacente est correctement centrée sur la moyenne.
La SVD calcule directement les valeurs singulières, offrant ainsi une méthode beaucoup plus stable numériquement pour trouver les composantes principales.
Les composantes principales doivent être orthogonales entre elles, tandis que les valeurs singulières sont des nombres réels strictement non négatifs.
Qu'est-ce que Composantes principales ?
Les vecteurs orthogonaux pointant dans les directions de variance maximale permettent de simplifier et de condenser les données de grande dimension.
Ils correspondent directement aux vecteurs propres de la matrice de covariance d'un ensemble de données.
La première composante principale explique la plus grande part possible de la variance des données.
Chaque composante suivante est strictement orthogonale à celles qui la précèdent, garantissant une corrélation nulle.
Elles dépendent fortement de la mise à l'échelle des données, ce qui fait du centrage sur la moyenne une étape de prétraitement essentielle.
Les ingénieurs les utilisent pour projeter des espaces multidimensionnels vers des dimensions inférieures tout en préservant l'information.
Qu'est-ce que Valeurs singulières ?
Les éléments diagonaux d'une matrice de valeurs singulières, représentant les facteurs d'échelle absolus d'une transformation linéaire.
Elles sont calculées comme les racines carrées positives des valeurs propres d'une matrice multipliées par sa transposée.
Chaque matrice réelle, qu'elle soit carrée ou rectangulaire, possède un ensemble unique de valeurs singulières.
Elles sont conventionnellement disposées par ordre décroissant le long de la diagonale de la matrice Sigma dans la SVD.
Une valeur singulière de zéro indique que la matrice est de rang insuffisant ou singulière.
Elles quantifient l'étirement ou la distorsion géométrique causée par une transformation linéaire sur une sphère unitaire.
Tableau comparatif
Fonctionnalité
Composantes principales
Valeurs singulières
Origine mathématique
vecteurs propres de la matrice de covariance
facteurs de décomposition matricielle (SVD)
Interprétation géométrique
Directions de variance maximale
Échelle des longueurs des axes principaux
Exigences en matière de données
Nécessite des données centrées sur la moyenne pour avoir une signification statistique.
S'applique à toute matrice rectangulaire ou carrée quelconque
Relation avec les valeurs propres
Égales aux valeurs propres de la matrice de covariance
Égal aux racines carrées des valeurs propres du produit matriciel
Application principale
Réduction de dimensionnalité et extraction de caractéristiques
Inversion de matrice, calcul de la pseudo-inverse et approximation de faible rang
Dépendance à l'échelle
Modifié de manière significative par le décalage ou la mise à l'échelle des données
Propriété inhérente de la matrice spécifique décomposée
Interprétation physique
Axes d'un ellipsoïde de nuage de données
Facteurs d'étirement d'une sphère unitaire transformée
Comparaison détaillée
Définition et concept fondamentaux
Les composantes principales représentent les directions spécifiques où les données varient le plus, servant de nouveaux axes pour un système de coordonnées optimisé. À l'inverse, les valeurs singulières sont des grandeurs scalaires qui indiquent dans quelle mesure une matrice étire ou comprime l'espace le long de ces axes. Tandis que l'une renseigne sur l'orientation du nuage de points, l'autre mesure l'amplitude de la transformation elle-même.
Calcul mathématique
Pour identifier les composantes principales de manière classique, il faut calculer les vecteurs propres de la matrice de covariance d'un jeu de données. Les valeurs singulières proviennent de la décomposition en valeurs singulières (SVD), qui décompose toute matrice en trois matrices de composantes distinctes. En centrant les données par soustraction de la moyenne, le carré d'une valeur singulière divisé par la taille de l'échantillon moins un est exactement égal à la variance de cette composante principale.
Sensibilité au prétraitement des données
Les composantes principales changent radicalement si l'on omet de centrer ou de standardiser les données, car la variance statistique dépend fortement de l'origine et des échelles des variables. Les valeurs singulières, en revanche, sont une propriété algébrique fondamentale de la matrice brute. Elles sont indépendantes des hypothèses statistiques, sauf si l'utilisateur construit préalablement une matrice de covariance centrée.
Applications pratiques dans l'industrie
Les analystes de données utilisent l'analyse en composantes principales (ACP) pour visualiser des ensembles de données complexes et multidimensionnels sur des graphiques bidimensionnels simples. Par ailleurs, les ingénieurs en vision par ordinateur utilisent les valeurs singulières pour la compression d'images et les systèmes de recommandation via des approximations matricielles de faible rang. La décomposition en valeurs singulières (SVD) est en réalité le moteur numérique privilégié sous-jacent à l'ACP, car le calcul des valeurs singulières évite la perte de précision qui survient lors de la construction d'une matrice de covariance.
Avantages et inconvénients
Composantes principales
Avantages
+Excellent pour la visualisation des données
+Élimine la multicolinéarité
+Réduit efficacement le bruit
+Simplifie les modèles d'apprentissage automatique
Contenu
−Dépourvu de signification physique directe
−Très sensible aux valeurs aberrantes
−Nécessite un prétraitement rigoureux
−Il se produit une perte d'informations
Valeurs singulières
Avantages
+Fonctionne sur n'importe quelle matrice
+numériquement très stable
+Parfait pour l'approximation de faible rang
+Révèle instantanément le rang de la matrice
Contenu
−Concept mathématique abstrait
−Coûteux en calcul pour les matrices de grande taille
−Manque de contexte statistique inhérent
−L'interprétation nécessite l'algèbre linéaire
Idées reçues courantes
Mythe
Les composantes principales et les valeurs singulières sont des concepts totalement indépendants.
Réalité
Elles sont étroitement liées par le biais du centrage des données. Lorsqu'on soustrait la moyenne d'une matrice de données, ses valeurs singulières sont directement proportionnelles aux racines carrées des variances le long des composantes principales.
Mythe
Il est toujours nécessaire de calculer la matrice de covariance pour identifier les composantes principales.
Réalité
Les logiciels modernes calculent rarement la matrice de covariance car cela introduit des erreurs d'arrondi. Ils préfèrent appliquer directement la décomposition en valeurs singulières (SVD) à la matrice de données, extrayant ainsi les composantes principales de manière beaucoup plus sûre et efficace.
Mythe
Les valeurs singulières peuvent être négatives si les données présentent une corrélation négative.
Réalité
Les valeurs singulières sont, par définition, les racines carrées positives des valeurs propres d'une matrice symétrique. Ce sont toujours des nombres réels non négatifs, représentant des longueurs ou des facteurs d'étirement, indépendamment des corrélations dans les données d'origine.
Mythe
L'ajout d'une valeur constante à tous les points de données modifie de manière égale les valeurs singulières et les composantes principales.
Réalité
Décaler les données d'une constante modifie les valeurs singulières car les éléments bruts de la matrice sont altérés. Cependant, comme les composantes principales reposent sur la matrice de covariance, qui soustrait intrinsèquement la moyenne, le décalage des données laisse les composantes principales totalement inchangées.
Mythe
La première composante principale capture toujours toutes les informations précieuses.
Réalité
La première composante ne capture que la variance maximale le long d'un seul axe. Si vos données suivent une distribution sphérique ou présentent des structures non linéaires importantes, une seule composante linéaire risque de ne pas détecter les structures les plus significatives.
Questions fréquemment posées
Comment convertir une valeur singulière en variance d'une composante principale ?
Si vous disposez d'une matrice de données centrée sur la moyenne et comportant un nombre donné d'échantillons, vous élevez au carré la valeur propre de chaque élément et vous divisez le résultat par la taille de l'échantillon moins un. Cette opération mathématique vous donne la valeur propre exacte de la matrice de covariance, qui représente la variance expliquée par cette composante principale spécifique.
Peut-on effectuer une ACP sans utiliser la SVD ?
Oui, il est possible de trouver les composantes principales en calculant explicitement la matrice de covariance, puis en déterminant ses vecteurs propres par décomposition spectrale classique. Cependant, cette approche est numériquement moins stable et plus sensible aux erreurs d'arrondi que la méthode SVD, ce qui explique pourquoi cette dernière est devenue la norme.
Pourquoi le centrage des données est-il si important pour les composantes principales ?
L'ACP vise à maximiser la variance autour du centre du nuage de points. Si la moyenne des données n'est pas centrée sur l'origine, la première composante principale pointera simplement de l'origine vers le centre du nuage, sans parvenir à saisir la structure géométrique interne de la variance.
Que se passe-t-il si une matrice possède une valeur singulière nulle ?
Une valeur singulière nulle signifie que la matrice est de rang insuffisant et ne peut être inversée. Géométriquement, cela implique que la transformation linéaire aplatit complètement au moins une dimension, réduisant un volume à un plan ou une ligne.
Les composantes principales sont-elles identiques aux vecteurs propres ?
Bien qu'étroitement liées, ces notions diffèrent par leur terminologie. Les composantes principales correspondent aux points de données projetés le long des nouveaux axes, même si, dans le langage courant, de nombreux praticiens utilisent ce terme pour désigner les directions principales, qui sont en réalité les vecteurs propres de la matrice de covariance.
Quelle méthode est la meilleure pour la compression d'images : l'ACP ou la SVD ?
La décomposition en valeurs singulières (SVD) est généralement privilégiée et plus directe pour la compression d'images grâce à une technique appelée approximation de faible rang. Puisqu'une image est déjà une matrice structurée de pixels plutôt qu'un échantillon statistique d'observations indépendantes, la SVD tronque les valeurs singulières les moins significatives afin de réduire la taille du fichier de manière transparente.
Combien de composantes principales dois-je conserver dans un modèle ?
Une approche courante consiste à examiner un graphique d'éboulis ou à calculer la variance expliquée cumulée à partir des valeurs singulières. La plupart des data scientists s'efforcent de conserver suffisamment de composantes pour expliquer 80 % à 95 % de la variance totale, en fonction du niveau de bruit du projet.
Les valeurs singulières changent-elles si l'on transpose la matrice ?
Non, la transposition d'une matrice ne modifie pas ses valeurs singulières. Les valeurs singulières non nulles d'une matrice et de sa transposée restent parfaitement identiques car les valeurs propres de leurs matrices de produit vectoriel respectives sont exactement les mêmes.
Quelle est la différence entre une valeur propre et une valeur singulière ?
Les valeurs propres ne sont définies que pour les matrices carrées et peuvent être des nombres complexes ; elles représentent la variation d'échelle d'un vecteur sans changement de direction. Les valeurs singulières s'appliquent à toute matrice, sont toujours réelles et non négatives, et représentent l'étirement maximal d'une sphère unité sous l'effet d'une transformation.
Verdict
Choisissez l'analyse en composantes principales lorsque votre objectif principal est d'interpréter, de visualiser ou de réduire les caractéristiques d'un jeu de données statistiques en fonction de la variance. Optez pour les valeurs singulières lorsque vous devez résoudre des systèmes linéaires, compresser des matrices ou effectuer des calculs numériques stables sans vous soucier du prétraitement statistique.