Comparthing Logo
数学数据科学线性代数机器学习

主成分分析与奇异值分析

数据科学家在降维过程中经常会遇到这两个术语:主成分分析(PCA)描述的是数据集中最大方差的方向,而奇异值则衡量矩阵分解过程中沿这些几何轴的尺度变化幅度。理解它们之间的数学联系对于掌握PCA和SVD等算法至关重要。

亮点

  • 主成分决定数据方差的空间方向,而奇异值决定尺度。
  • 只有当基础数据矩阵经过适当的均值中心化处理后,才能通过直接的数学桥梁将它们联系起来。
  • SVD 直接计算奇异值,为寻找主成分提供了一条数值上更加稳定的途径。
  • 主成分必须彼此正交,而奇异值是严格的非负实数。

主成分是什么?

指向最大方差方向的正交向量,有助于简化和浓缩高维数据。

  • 它们直接对应于数据集协方差矩阵的特征向量。
  • 第一主成分解释了数据中可能出现的最大方差。
  • 后续的每个分量都与其前面的分量严格正交,从而确保零相关性。
  • 它们严重依赖于数据缩放,因此均值中心化是一个关键的预处理步骤。
  • 工程师利用它们将高维空间投影到低维空间,同时保留信息。

奇异值是什么?

奇异值矩阵的对角线元素,表示线性变换的绝对缩放因子。

  • 它们被计算为矩阵的特征值与其转置矩阵乘以该矩阵的特征值的正平方根。
  • 每个实矩阵,无论是方阵还是矩形矩阵,都具有一组唯一的奇异值。
  • 在奇异值分解 (SVD) 中,它们通常沿 Sigma 矩阵的对角线降序排列。
  • 奇异值为零表示矩阵秩亏或奇异。
  • 它们量化了单位球面上线性变换引起的几何拉伸或变形。

比较表

功能 主成分 奇异值
数学起源 协方差矩阵特征向量 矩阵分解(SVD)因子
几何解释 最大方差方向 主轴长度的缩放
数据需求 统计意义需要均值中心化数据。 适用于任意矩形或正方形矩阵
与特征值的关系 等于协方差矩阵的特征值 等于矩阵乘积的特征值的平方根
主要应用 降维和特征提取 矩阵求逆、伪逆计算和低秩近似
尺度依赖性 因数据平移或缩放而发生显著变化 被分解的特定矩阵的固有属性
物理诠释 数据云椭球体的轴线 变换单位球的拉伸因子

详细对比

核心定义和概念

主成分代表数据变化最大的特定方向,可作为优化坐标系的新轴。与之相对,奇异值是标量,它揭示了矩阵沿这些轴拉伸或压缩空间的程度。前者提供数据云的方向,后者则衡量变换本身的幅度。

数学计算

传统上,要找到主成分,必须计算数据集协方差矩阵的特征向量。奇异值则源于奇异值分解,它将任何矩阵分解为三个不同的分量矩阵。当通过减去均值对数据进行中心化处理后,奇异值的平方除以样本大小减一,恰好等于该主成分的方差。

对数据预处理的敏感性

如果忘记对数据进行均值中心化或标准化,主成分会发生显著变化,因为统计方差很大程度上依赖于原点和变量尺度。然而,奇异值是原始矩阵的基本代数属性。除非用户有意构建一个中心化的类似协方差的矩阵,否则奇异值不受统计假设的影响。

工业领域的实际应用

数据分析师依靠主成分分析(PCA)将复杂的高维数据集可视化为简单的二维图。另一方面,计算机视觉工程师利用奇异值分解(SVD)通过低秩矩阵近似进行图像压缩和推荐系统构建。实际上,SVD 是 PCA 背后的首选数值引擎,因为计算奇异值可以避免构建协方差矩阵时出现的精度损失。

优点与缺点

主成分

优点

  • + 非常适合数据可视化
  • + 消除多重共线性
  • + 有效降低噪音
  • + 简化机器学习模型

继续

  • 缺乏直接的物理意义
  • 对异常值高度敏感
  • 需要严格的预处理
  • 信息丢失

奇异值

优点

  • + 适用于任何矩阵
  • + 数值上高度稳定
  • + 非常适合低秩近似
  • + 立即显示矩阵排名

继续

  • 抽象数学概念
  • 对于巨型矩阵来说,计算成本很高。
  • 缺乏固有的统计背景
  • 解释需要线性代数

常见误解

神话

主成分和奇异值是完全独立的概念。

现实

它们通过数据中心化紧密联系在一起。当一个数据矩阵减去其均值后,其奇异值与沿主成分方向的方差的平方根成正比。

神话

要找到主成分,必须先计算协方差矩阵。

现实

现代软件很少计算协方差矩阵,因为它会引入数值舍入误差。相反,算法直接对数据矩阵进行奇异值分解(SVD),从而更安全、更高效地提取主成分。

神话

如果数据呈负相关,则奇异值可能为负值。

现实

奇异值根据定义是对称矩阵特征值的正平方根。它们始终是非负实数,表示长度或拉伸因子,而与原始数据中的相关性无关。

神话

对所有数据点加上一个常数值,会同等地改变奇异值和主成分。

现实

将数据按常数平移会改变奇异值,因为原始矩阵元素发生了变化。然而,由于主成分分析依赖于协方差矩阵(协方差矩阵本身会减去均值),因此平移数据不会改变主成分本身。

神话

第一主成分总是能捕捉到所有有价值的信息。

现实

第一个主成分仅捕捉沿单个轴的最大方差。如果您的数据呈球形分布或包含关键的非线性模式,则单个线性主成分可能完全忽略最重要的结构。

常见问题解答

如何将单个值转换为主成分的方差?
如果有一个均值中心化的数据矩阵,且样本数量已知,则需要将奇异值平方,然后除以样本量减一。这种数学运算可以得到协方差矩阵的精确特征值,该特征值代表了特定主成分所捕获的方差。
能否在不使用奇异值分解(SVD)的情况下进行主成分分析(PCA)?
是的,你可以通过显式计算协方差矩阵,然后利用经典的特征值分解找到其特征向量来获得主成分。然而,这种方法在数值稳定性上不如奇异值分解(SVD)方法,更容易出现浮点误差,这也是为什么SVD是行业标准的原因。
为什么数据中心化对主成分分析如此重要?
主成分分析 (PCA) 的目标是最大化数据云中心周围的方差。如果不将数据均值移至原点,则第一主成分将简单地从原点指向数据簇的中心,而无法捕捉方差的内部几何结构。
如果一个矩阵的奇异值为零会发生什么?
零奇异值意味着矩阵秩亏,无法求逆。从几何角度来看,这意味着线性变换将至少一个维度完全压平,将一个体积压缩成一个平面或一条直线。
主成分和特征向量是一样的吗?
它们密切相关,但在术语上有所不同。主成分是沿新坐标轴投影的实际数据点,尽管许多从业者习惯用这个术语来指代主方向,而主方向实际上是协方差矩阵的特征向量。
对于图像压缩而言,PCA 和 SVD 哪个更好?
奇异值分解 (SVD) 通常更受青睐,因为它利用一种称为低秩近似的技术,能够更直接地进行图像压缩。由于图像本身就是一个结构化的像素矩阵,而非独立观测值的统计样本,因此 SVD 会截断最不重要的奇异值,从而无缝地减小文件大小。
模型中应该保留多少个主成分?
一种常见的方法是查看碎石图或使用奇异值计算累积解释方差。大多数数据科学家旨在保留足够的成分,以捕获总方差的 80% 到 95%,具体取决于特定项目的噪声水平。
如果将矩阵转置,奇异值会改变吗?
不,矩阵转置不会改变其奇异值。矩阵及其转置的非零奇异值完全相同,因为它们各自的叉积矩阵的特征值完全相同。
特征值和奇异值有什么区别?
特征值仅对方阵有定义,可以是复数,表示向量在不改变方向的情况下如何缩放。奇异值适用于任何矩阵,始终为实数且非负,表示单位球面在变换下的最大拉伸程度。

裁决

当您的主要目标是根据方差解释、可视化或减少统计数据集的特征时,请选择主成分分析。当您需要求解线性方程组、压缩矩阵或执行稳定的数值计算而无需担心统计预处理时,请选择奇异值分解。

相关比较

标量与矢量

标量和矢量都可以用来量化我们周围的世界,但它们的根本区别在于其复杂性。标量是对大小的简单测量,而矢量则将大小与特定的方向结合起来,这使得矢量对于描述物理空间中的运动和力至关重要。

表面积与体积

表面积和体积是量化三维物体的两个主要指标。表面积衡量的是物体外部表面的总大小——本质上就是它的“表皮”——而体积衡量的是物体内部包含的三维空间的大小,或者说是它的“容量”。

博弈中的概率系统与固定结果系统

游戏机制依赖于独特的数学基础设计来塑造玩家体验,将不可预测的随机环境与完全确定性的结构形成对比。概率系统利用随机数生成来引入不确定性和可重玩性,而固定结果系统则提供绝对的可预测性,其中每个特定操作都会产生相同且有保证的结果。

抽象数字与几何解释

抽象数将数量视为由形式规则和代数方程支配的纯粹符号逻辑,而几何解释则将这些值映射到具体的形状、线条和空间维度。这两种视角共同构成了数学中的双重语言,兼顾了严谨的符号效率和直观的视觉理解。

纯数学与计算可视化

纯数学通过演绎推理和严格的逻辑证明构建绝对真理的基石,而计算可视化则利用强大的处理能力将这些抽象概念转化为动态的数字图像,使复杂的结构能够立即被观察到。