mathématiquesscience des donnéesalgèbre linéaireapprentissage automatique

Composantes principales vs valeurs singulières

Bien que les data scientists rencontrent fréquemment ces deux termes lors de la réduction de dimensionnalité, les composantes principales décrivent les directions de variance maximale dans un ensemble de données, tandis que les valeurs singulières mesurent l'amplitude de la variation le long de ces axes géométriques lors de la décomposition matricielle. Comprendre leur relation mathématique est essentiel pour maîtriser des algorithmes comme l'ACP et la SVD.

Points forts

Les composantes principales déterminent l'orientation spatiale de la variance des données, tandis que les valeurs singulières dictent l'échelle.
Un lien mathématique direct les unit uniquement lorsque la matrice de données sous-jacente est correctement centrée sur la moyenne.
La SVD calcule directement les valeurs singulières, offrant ainsi une méthode beaucoup plus stable numériquement pour trouver les composantes principales.
Les composantes principales doivent être orthogonales entre elles, tandis que les valeurs singulières sont des nombres réels strictement non négatifs.

Qu'est-ce que Composantes principales ?

Les vecteurs orthogonaux pointant dans les directions de variance maximale permettent de simplifier et de condenser les données de grande dimension.

Ils correspondent directement aux vecteurs propres de la matrice de covariance d'un ensemble de données.
La première composante principale explique la plus grande part possible de la variance des données.
Chaque composante suivante est strictement orthogonale à celles qui la précèdent, garantissant une corrélation nulle.
Elles dépendent fortement de la mise à l'échelle des données, ce qui fait du centrage sur la moyenne une étape de prétraitement essentielle.
Les ingénieurs les utilisent pour projeter des espaces multidimensionnels vers des dimensions inférieures tout en préservant l'information.

Qu'est-ce que Valeurs singulières ?

Les éléments diagonaux d'une matrice de valeurs singulières, représentant les facteurs d'échelle absolus d'une transformation linéaire.

Elles sont calculées comme les racines carrées positives des valeurs propres d'une matrice multipliées par sa transposée.
Chaque matrice réelle, qu'elle soit carrée ou rectangulaire, possède un ensemble unique de valeurs singulières.
Elles sont conventionnellement disposées par ordre décroissant le long de la diagonale de la matrice Sigma dans la SVD.
Une valeur singulière de zéro indique que la matrice est de rang insuffisant ou singulière.
Elles quantifient l'étirement ou la distorsion géométrique causée par une transformation linéaire sur une sphère unitaire.

Tableau comparatif

Fonctionnalité	Composantes principales	Valeurs singulières
Origine mathématique	vecteurs propres de la matrice de covariance	facteurs de décomposition matricielle (SVD)
Interprétation géométrique	Directions de variance maximale	Échelle des longueurs des axes principaux
Exigences en matière de données	Nécessite des données centrées sur la moyenne pour avoir une signification statistique.	S'applique à toute matrice rectangulaire ou carrée quelconque
Relation avec les valeurs propres	Égales aux valeurs propres de la matrice de covariance	Égal aux racines carrées des valeurs propres du produit matriciel
Application principale	Réduction de dimensionnalité et extraction de caractéristiques	Inversion de matrice, calcul de la pseudo-inverse et approximation de faible rang
Dépendance à l'échelle	Modifié de manière significative par le décalage ou la mise à l'échelle des données	Propriété inhérente de la matrice spécifique décomposée
Interprétation physique	Axes d'un ellipsoïde de nuage de données	Facteurs d'étirement d'une sphère unitaire transformée

Comparaison détaillée

Définition et concept fondamentaux

Les composantes principales représentent les directions spécifiques où les données varient le plus, servant de nouveaux axes pour un système de coordonnées optimisé. À l'inverse, les valeurs singulières sont des grandeurs scalaires qui indiquent dans quelle mesure une matrice étire ou comprime l'espace le long de ces axes. Tandis que l'une renseigne sur l'orientation du nuage de points, l'autre mesure l'amplitude de la transformation elle-même.

Calcul mathématique

Pour identifier les composantes principales de manière classique, il faut calculer les vecteurs propres de la matrice de covariance d'un jeu de données. Les valeurs singulières proviennent de la décomposition en valeurs singulières (SVD), qui décompose toute matrice en trois matrices de composantes distinctes. En centrant les données par soustraction de la moyenne, le carré d'une valeur singulière divisé par la taille de l'échantillon moins un est exactement égal à la variance de cette composante principale.

Sensibilité au prétraitement des données

Les composantes principales changent radicalement si l'on omet de centrer ou de standardiser les données, car la variance statistique dépend fortement de l'origine et des échelles des variables. Les valeurs singulières, en revanche, sont une propriété algébrique fondamentale de la matrice brute. Elles sont indépendantes des hypothèses statistiques, sauf si l'utilisateur construit préalablement une matrice de covariance centrée.

Applications pratiques dans l'industrie

Les analystes de données utilisent l'analyse en composantes principales (ACP) pour visualiser des ensembles de données complexes et multidimensionnels sur des graphiques bidimensionnels simples. Par ailleurs, les ingénieurs en vision par ordinateur utilisent les valeurs singulières pour la compression d'images et les systèmes de recommandation via des approximations matricielles de faible rang. La décomposition en valeurs singulières (SVD) est en réalité le moteur numérique privilégié sous-jacent à l'ACP, car le calcul des valeurs singulières évite la perte de précision qui survient lors de la construction d'une matrice de covariance.

Avantages et inconvénients

Composantes principales

Avantages

+ Excellent pour la visualisation des données
+ Élimine la multicolinéarité
+ Réduit efficacement le bruit
+ Simplifie les modèles d'apprentissage automatique

Contenu

− Dépourvu de signification physique directe
− Très sensible aux valeurs aberrantes
− Nécessite un prétraitement rigoureux
− Il se produit une perte d'informations

Valeurs singulières

Avantages

+ Fonctionne sur n'importe quelle matrice
+ numériquement très stable
+ Parfait pour l'approximation de faible rang
+ Révèle instantanément le rang de la matrice

Contenu

− Concept mathématique abstrait
− Coûteux en calcul pour les matrices de grande taille
− Manque de contexte statistique inhérent
− L'interprétation nécessite l'algèbre linéaire

Idées reçues courantes

Mythe

Les composantes principales et les valeurs singulières sont des concepts totalement indépendants.

Réalité

Elles sont étroitement liées par le biais du centrage des données. Lorsqu'on soustrait la moyenne d'une matrice de données, ses valeurs singulières sont directement proportionnelles aux racines carrées des variances le long des composantes principales.

Mythe

Il est toujours nécessaire de calculer la matrice de covariance pour identifier les composantes principales.

Réalité

Les logiciels modernes calculent rarement la matrice de covariance car cela introduit des erreurs d'arrondi. Ils préfèrent appliquer directement la décomposition en valeurs singulières (SVD) à la matrice de données, extrayant ainsi les composantes principales de manière beaucoup plus sûre et efficace.

Mythe

Les valeurs singulières peuvent être négatives si les données présentent une corrélation négative.

Réalité

Les valeurs singulières sont, par définition, les racines carrées positives des valeurs propres d'une matrice symétrique. Ce sont toujours des nombres réels non négatifs, représentant des longueurs ou des facteurs d'étirement, indépendamment des corrélations dans les données d'origine.

Mythe

L'ajout d'une valeur constante à tous les points de données modifie de manière égale les valeurs singulières et les composantes principales.

Réalité

Décaler les données d'une constante modifie les valeurs singulières car les éléments bruts de la matrice sont altérés. Cependant, comme les composantes principales reposent sur la matrice de covariance, qui soustrait intrinsèquement la moyenne, le décalage des données laisse les composantes principales totalement inchangées.

Mythe

La première composante principale capture toujours toutes les informations précieuses.

Réalité

La première composante ne capture que la variance maximale le long d'un seul axe. Si vos données suivent une distribution sphérique ou présentent des structures non linéaires importantes, une seule composante linéaire risque de ne pas détecter les structures les plus significatives.

Questions fréquemment posées

Comment convertir une valeur singulière en variance d'une composante principale ?

Si vous disposez d'une matrice de données centrée sur la moyenne et comportant un nombre donné d'échantillons, vous élevez au carré la valeur propre de chaque élément et vous divisez le résultat par la taille de l'échantillon moins un. Cette opération mathématique vous donne la valeur propre exacte de la matrice de covariance, qui représente la variance expliquée par cette composante principale spécifique.

Peut-on effectuer une ACP sans utiliser la SVD ?

Oui, il est possible de trouver les composantes principales en calculant explicitement la matrice de covariance, puis en déterminant ses vecteurs propres par décomposition spectrale classique. Cependant, cette approche est numériquement moins stable et plus sensible aux erreurs d'arrondi que la méthode SVD, ce qui explique pourquoi cette dernière est devenue la norme.

Pourquoi le centrage des données est-il si important pour les composantes principales ?

L'ACP vise à maximiser la variance autour du centre du nuage de points. Si la moyenne des données n'est pas centrée sur l'origine, la première composante principale pointera simplement de l'origine vers le centre du nuage, sans parvenir à saisir la structure géométrique interne de la variance.

Que se passe-t-il si une matrice possède une valeur singulière nulle ?

Une valeur singulière nulle signifie que la matrice est de rang insuffisant et ne peut être inversée. Géométriquement, cela implique que la transformation linéaire aplatit complètement au moins une dimension, réduisant un volume à un plan ou une ligne.

Les composantes principales sont-elles identiques aux vecteurs propres ?

Bien qu'étroitement liées, ces notions diffèrent par leur terminologie. Les composantes principales correspondent aux points de données projetés le long des nouveaux axes, même si, dans le langage courant, de nombreux praticiens utilisent ce terme pour désigner les directions principales, qui sont en réalité les vecteurs propres de la matrice de covariance.

Quelle méthode est la meilleure pour la compression d'images : l'ACP ou la SVD ?

La décomposition en valeurs singulières (SVD) est généralement privilégiée et plus directe pour la compression d'images grâce à une technique appelée approximation de faible rang. Puisqu'une image est déjà une matrice structurée de pixels plutôt qu'un échantillon statistique d'observations indépendantes, la SVD tronque les valeurs singulières les moins significatives afin de réduire la taille du fichier de manière transparente.

Combien de composantes principales dois-je conserver dans un modèle ?

Une approche courante consiste à examiner un graphique d'éboulis ou à calculer la variance expliquée cumulée à partir des valeurs singulières. La plupart des data scientists s'efforcent de conserver suffisamment de composantes pour expliquer 80 % à 95 % de la variance totale, en fonction du niveau de bruit du projet.

Les valeurs singulières changent-elles si l'on transpose la matrice ?

Non, la transposition d'une matrice ne modifie pas ses valeurs singulières. Les valeurs singulières non nulles d'une matrice et de sa transposée restent parfaitement identiques car les valeurs propres de leurs matrices de produit vectoriel respectives sont exactement les mêmes.

Quelle est la différence entre une valeur propre et une valeur singulière ?

Les valeurs propres ne sont définies que pour les matrices carrées et peuvent être des nombres complexes ; elles représentent la variation d'échelle d'un vecteur sans changement de direction. Les valeurs singulières s'appliquent à toute matrice, sont toujours réelles et non négatives, et représentent l'étirement maximal d'une sphère unité sous l'effet d'une transformation.

Verdict

Choisissez l'analyse en composantes principales lorsque votre objectif principal est d'interpréter, de visualiser ou de réduire les caractéristiques d'un jeu de données statistiques en fonction de la variance. Optez pour les valeurs singulières lorsque vous devez résoudre des systèmes linéaires, compresser des matrices ou effectuer des calculs numériques stables sans vous soucier du prétraitement statistique.

Comparaisons associées

Abstraction mathématique vs compréhension visuelle

L'abstraction mathématique élimine les réalités spécifiques pour révéler des structures algébriques et logiques universelles, tandis que la compréhension visuelle s'appuie sur l'intuition géométrique, le raisonnement spatial et l'imagerie mentale pour rendre ces concepts complexes immédiatement tangibles et intuitifs, formant ainsi une puissante approche duale pour résoudre des problèmes mathématiques complexes.

Algèbre contre géométrie

L'algèbre se concentre sur les règles abstraites des opérations et la manipulation des symboles pour résoudre des équations, tandis que la géométrie explore les propriétés physiques de l'espace, notamment la taille, la forme et la position relative des figures. Ensemble, elles constituent le fondement des mathématiques, traduisant les relations logiques en structures visuelles.

Analyse de séquences vs visualisation de motifs

Alors que l'analyse de séquences s'appuie sur des formules algorithmiques, mathématiques et statistiques pour quantifier les alignements et extraire des mesures précises à partir de données ordonnées, la visualisation de modèles convertit ces flux de données complexes en agencements spatiaux intuitifs, déplaçant l'attention des calculs numériques vers une reconnaissance rapide des modèles par l'humain.

Angle vs Pente

L'angle et la pente quantifient tous deux l'inclinaison d'une droite, mais ils s'expriment dans des langages mathématiques différents. Alors qu'un angle mesure la rotation circulaire entre deux droites sécantes en degrés ou en radians, la pente mesure le rapport entre la variation verticale (ou élévation) et la variation horizontale (ou distance parcourue) sous forme de rapport numérique.

Calcul différentiel et calcul intégral

Bien qu'ils puissent paraître mathématiquement opposés, le calcul différentiel et le calcul intégral sont en réalité les deux faces d'une même pièce. Le calcul différentiel s'intéresse aux variations des grandeurs à un instant précis, comme la vitesse instantanée d'une voiture, tandis que le calcul intégral additionne ces variations pour obtenir un résultat global, tel que la distance totale parcourue.