主成分和奇异值是完全独立的概念。
它们通过数据中心化紧密联系在一起。当一个数据矩阵减去其均值后,其奇异值与沿主成分方向的方差的平方根成正比。
数据科学家在降维过程中经常会遇到这两个术语:主成分分析(PCA)描述的是数据集中最大方差的方向,而奇异值则衡量矩阵分解过程中沿这些几何轴的尺度变化幅度。理解它们之间的数学联系对于掌握PCA和SVD等算法至关重要。
指向最大方差方向的正交向量,有助于简化和浓缩高维数据。
奇异值矩阵的对角线元素,表示线性变换的绝对缩放因子。
| 功能 | 主成分 | 奇异值 |
|---|---|---|
| 数学起源 | 协方差矩阵特征向量 | 矩阵分解(SVD)因子 |
| 几何解释 | 最大方差方向 | 主轴长度的缩放 |
| 数据需求 | 统计意义需要均值中心化数据。 | 适用于任意矩形或正方形矩阵 |
| 与特征值的关系 | 等于协方差矩阵的特征值 | 等于矩阵乘积的特征值的平方根 |
| 主要应用 | 降维和特征提取 | 矩阵求逆、伪逆计算和低秩近似 |
| 尺度依赖性 | 因数据平移或缩放而发生显著变化 | 被分解的特定矩阵的固有属性 |
| 物理诠释 | 数据云椭球体的轴线 | 变换单位球的拉伸因子 |
主成分代表数据变化最大的特定方向,可作为优化坐标系的新轴。与之相对,奇异值是标量,它揭示了矩阵沿这些轴拉伸或压缩空间的程度。前者提供数据云的方向,后者则衡量变换本身的幅度。
传统上,要找到主成分,必须计算数据集协方差矩阵的特征向量。奇异值则源于奇异值分解,它将任何矩阵分解为三个不同的分量矩阵。当通过减去均值对数据进行中心化处理后,奇异值的平方除以样本大小减一,恰好等于该主成分的方差。
如果忘记对数据进行均值中心化或标准化,主成分会发生显著变化,因为统计方差很大程度上依赖于原点和变量尺度。然而,奇异值是原始矩阵的基本代数属性。除非用户有意构建一个中心化的类似协方差的矩阵,否则奇异值不受统计假设的影响。
数据分析师依靠主成分分析(PCA)将复杂的高维数据集可视化为简单的二维图。另一方面,计算机视觉工程师利用奇异值分解(SVD)通过低秩矩阵近似进行图像压缩和推荐系统构建。实际上,SVD 是 PCA 背后的首选数值引擎,因为计算奇异值可以避免构建协方差矩阵时出现的精度损失。
主成分和奇异值是完全独立的概念。
它们通过数据中心化紧密联系在一起。当一个数据矩阵减去其均值后,其奇异值与沿主成分方向的方差的平方根成正比。
要找到主成分,必须先计算协方差矩阵。
现代软件很少计算协方差矩阵,因为它会引入数值舍入误差。相反,算法直接对数据矩阵进行奇异值分解(SVD),从而更安全、更高效地提取主成分。
如果数据呈负相关,则奇异值可能为负值。
奇异值根据定义是对称矩阵特征值的正平方根。它们始终是非负实数,表示长度或拉伸因子,而与原始数据中的相关性无关。
对所有数据点加上一个常数值,会同等地改变奇异值和主成分。
将数据按常数平移会改变奇异值,因为原始矩阵元素发生了变化。然而,由于主成分分析依赖于协方差矩阵(协方差矩阵本身会减去均值),因此平移数据不会改变主成分本身。
第一主成分总是能捕捉到所有有价值的信息。
第一个主成分仅捕捉沿单个轴的最大方差。如果您的数据呈球形分布或包含关键的非线性模式,则单个线性主成分可能完全忽略最重要的结构。
当您的主要目标是根据方差解释、可视化或减少统计数据集的特征时,请选择主成分分析。当您需要求解线性方程组、压缩矩阵或执行稳定的数值计算而无需担心统计预处理时,请选择奇异值分解。
标量和矢量都可以用来量化我们周围的世界,但它们的根本区别在于其复杂性。标量是对大小的简单测量,而矢量则将大小与特定的方向结合起来,这使得矢量对于描述物理空间中的运动和力至关重要。
表面积和体积是量化三维物体的两个主要指标。表面积衡量的是物体外部表面的总大小——本质上就是它的“表皮”——而体积衡量的是物体内部包含的三维空间的大小,或者说是它的“容量”。
游戏机制依赖于独特的数学基础设计来塑造玩家体验,将不可预测的随机环境与完全确定性的结构形成对比。概率系统利用随机数生成来引入不确定性和可重玩性,而固定结果系统则提供绝对的可预测性,其中每个特定操作都会产生相同且有保证的结果。
抽象数将数量视为由形式规则和代数方程支配的纯粹符号逻辑,而几何解释则将这些值映射到具体的形状、线条和空间维度。这两种视角共同构成了数学中的双重语言,兼顾了严谨的符号效率和直观的视觉理解。
纯数学通过演绎推理和严格的逻辑证明构建绝对真理的基石,而计算可视化则利用强大的处理能力将这些抽象概念转化为动态的数字图像,使复杂的结构能够立即被观察到。