数学データサイエンス線形代数機械学習

主成分分析と特異値分析の比較

データサイエンティストは次元削減においてこれらの用語を頻繁に目にしますが、主成分はデータセットにおける最大分散の方向を表し、特異値は行列分解の際にそれらの幾何学的軸に沿ったスケーリングの大きさを表します。PCAやSVDといったアルゴリズムを習得するには、これらの数学的な関係を理解することが不可欠です。

ハイライト

主成分はデータの分散の空間的な方向性を決定し、特異値はスケールを決定する。
両者を直接的に数学的に結びつけることができるのは、基となるデータ行列が適切に平均中心化されている場合に限られる。
SVDは特異値を直接計算するため、主成分を求めるための数値的に非常に安定した方法を提供する。
主成分は互いに直交していなければならない一方、特異値は厳密に非負の実数である。

主成分とは？

最大分散の方向を指す直交ベクトルは、高次元データを単純化および凝縮するのに役立ちます。

これらは、データセットの共分散行列の固有ベクトルに直接対応します。
第一主成分は、データにおける最大の分散を説明する。
後続の各コンポーネントは、それ以前のコンポーネントと完全に直交しており、相関関係がゼロであることが保証されています。
これらはデータスケーリングに大きく依存するため、平均値中心化は重要な前処理ステップとなる。
エンジニアはこれらを用いて、高次元空間を情報を保持したまま低次元空間に投影する。

特異値とは？

特異値行列の対角成分は、線形変換の絶対スケーリング係数を表す。

これらは、行列の固有値とその転置行列の積の正の平方根として計算されます。
正方行列であろうと長方形行列であろうと、すべての実数行列は固有の特異値の集合を持つ。
これらは通常、特異値分解（SVD）におけるシグマ行列の対角線に沿って降順に並べられます。
ゼロという特異値は、行列がランク落ちまたは特異行列であることを示します。
これらは、単位球面上での線形変換によって引き起こされる幾何学的な伸縮または歪みを定量化するものである。

比較表

機能	主成分	特異値
数学的起源	共分散行列の固有ベクトル	行列分解（SVD）因子
幾何学的解釈	最大分散の方向	主軸の長さのスケーリング
データ要件	統計的に意味のあるデータを得るには、平均値中心化データが必要です。	任意の長方形または正方形の行列に適用されます
固有値との関係	共分散行列の固有値に等しい	行列積の固有値の平方根に等しい
主な用途	次元削減と特徴抽出	行列の逆行列計算、擬似逆行列計算、および低ランク近似
スケール依存性	データのシフトやスケーリングによって大きく変化する	分解される特定の行列の固有の特性
物理的解釈	データクラウド楕円体の軸	変換された単位球の伸縮係数

詳細な比較

コア定義と概念

主成分は、データが最も大きく変化する特定の方向を表し、最適化された座標系の新しい軸として機能します。一方、特異値は、行列がこれらの軸に沿って空間をどれだけ伸縮させるかを示すスカラー量です。一方はデータ群の向きを示し、もう一方は変換自体の大きさを測定します。

数学的計算

従来の方法で主成分を求めるには、データセットの共分散行列の固有ベクトルを計算する必要があります。特異値は特異値分解によって得られ、任意の行列は3つの異なる成分行列に分割されます。平均値を差し引いてデータを中心化すると、特異値の二乗をサンプルサイズから1を引いた値で割った値が、その主成分の分散と完全に等しくなります。

データ前処理に対する感度

データの平均値中心化や標準化を忘れると、主成分は劇的に変化します。これは、統計的分散が原点と変数の尺度に大きく依存するためです。しかし、特異値は、提供された生の行列の基本的な代数的性質です。ユーザーが意図的に中心化された共分散行列のようなものを最初に作成しない限り、特異値は統計的な仮定を気にしません。

産業における実用的応用

データアナリストは、複雑な高次元データセットを単純な2次元グラフ上に視覚化するために主成分分析を利用します。一方、コンピュータビジョンエンジニアは、低ランク行列近似を用いて画像圧縮やレコメンデーションシステムに特異値を使用します。実際、特異値を計算すると共分散行列の構築時に発生する精度低下を回避できるため、特異値分解（SVD）はPCAの背後にある数値エンジンとして好まれています。

長所と短所

主成分

長所

+ データ視覚化に最適
+ 多重共線性を解消する
+ 騒音を効果的に低減します
+ 機械学習モデルを簡素化する

コンス

− 直接的な物理的意味を持たない
− 外れ値に非常に敏感
− 厳密な前処理が必要
− 情報損失が発生する

特異値

長所

+ あらゆるマトリックスに対応
+ 数値的に非常に安定している
+ 低ランク近似に最適
+ マトリックスランクを瞬時に表示します

コンス

− 抽象的な数学的概念
− 巨大な行列の場合、計算コストが高くなる
− 統計的な文脈が欠けている
− 解釈には線形代数が必要である

よくある誤解

神話

主成分と特異値は、完全に独立した概念である。

現実

これらはデータ中心化によって深く結びついています。データ行列から平均値を差し引くと、その特異値は主成分に沿った分散の平方根に正比例します。

神話

主成分を求めるには、必ず共分散行列を計算する必要があります。

現実

現代のソフトウェアでは、数値丸め誤差が生じるため、共分散行列を計算することはほとんどありません。代わりに、アルゴリズムはデータ行列に対して直接SVDを実行し、主成分をより安全かつ効率的に抽出します。

神話

データが負の相関関係を示す場合、特異値は負の値になることがあります。

現実

特異値とは、定義上、対称行列の固有値の正の平方根のことです。これらは常に非負の実数であり、元のデータの相関関係に関係なく、長さや伸縮率を表します。

神話

すべてのデータポイントに定数を加えると、特異値と主成分は均等に変化する。

現実

定数分だけデータをシフトすると、元の行列要素が変化するため、特異値も変化します。しかし、主成分分析は共分散行列に依存しており、共分散行列は本質的に平均値を差し引くため、データをシフトしても主成分は全く変化しません。

神話

第一主成分は常にすべての貴重な情報を捉えている。

現実

最初の成分は、単一の軸に沿った最大分散しか捉えません。データが球状に分布している場合や、重要な非線形パターンが含まれている場合、単一の線形成分では最も重要な構造を完全に見逃してしまう可能性があります。

よくある質問

特異値を主成分の分散に変換するにはどうすればよいですか？

サンプル数が与えられた平均中心化データ行列がある場合、特異値を二乗し、サンプルサイズから1を引いた値で割ります。この数学的演算により、共分散行列の正確な固有値が得られ、これは特定の主成分によって捉えられた分散を表します。

SVDを使用せずにPCAを実行することは可能ですか？

はい、共分散行列を明示的に計算し、古典的な固有値分解によってその固有ベクトルを求めることで主成分を求めることができます。しかし、この方法はSVD法に比べて数値的に不安定で、浮動小数点誤差が発生しやすいため、SVD法が業界標準となっています。

主成分分析において、データの中心化がなぜそれほど重要なのでしょうか？

主成分分析（PCA）は、データ群の中心付近の分散を最大化することを目的としています。データの平均値を原点に移動させない場合、第一主成分は単に原点からデータ群の中心に向かうだけとなり、分散の内部幾何学的構造を捉えることができません。

行列にゼロという特異値が存在する場合、何が起こるでしょうか？

特異値がゼロということは、行列がランク不足であり、逆行列が存在しないことを意味します。幾何学的には、線形変換によって少なくとも1つの次元が完全に平坦化され、体積が平面または直線に縮小されることを意味します。

主成分と固有ベクトルは同じものですか？

これらは密接に関連していますが、用語は異なります。主成分とは、新しい軸に沿って投影された実際のデータ点のことですが、多くの実務家は口語的に主方向を指す言葉としてこの用語を使用しており、主方向とは実際には共分散行列の固有ベクトルのことです。

画像圧縮には、PCAとSVDのどちらが適していますか？

SVDは、低ランク近似と呼ばれる手法を用いて画像圧縮を行う際に、一般的に好まれ、より直接的な方法です。画像は独立した観測値の統計的サンプルではなく、ピクセルの構造化された行列であるため、SVDは最も重要度の低い特異値を切り捨てることで、ファイルサイズをシームレスに削減します。

モデルにはいくつの主成分を含めるべきですか？

一般的なアプローチとしては、スクリープロットを確認したり、特異値を用いて累積説明分散を計算したりする方法があります。ほとんどのデータサイエンティストは、特定のプロジェクトのノイズレベルに応じて、全分散の80%から95%を捉えるのに十分な数の成分を保持することを目指します。

行列を転置すると、特異値は変化しますか？

いいえ、行列を転置しても特異値は変わりません。行列とその転置行列の非ゼロ特異値は、それぞれの外積行列の固有値が全く同じであるため、完全に同一のままです。

固有値と特異値の違いは何ですか？

固有値は正方行列に対してのみ定義され、複素数となる場合もあり、ベクトルが方向を変えずにどのように拡大縮小するかを表します。特異値は任意の行列に適用され、常に実数かつ非負であり、変換による単位球の最大伸長を表します。

評決

統計データセットの特徴を分散に基づいて解釈、視覚化、または削減することが主な目的である場合は、主成分分析を選択してください。線形方程式を解いたり、行列を圧縮したり、統計的な前処理を気にせずに安定した数値計算を実行する必要がある場合は、特異値分析を選択してください。

主成分分析と特異値分析の比較

ハイライト

主成分とは？

特異値とは？

比較表

詳細な比較

コア定義と概念

数学的計算

データ前処理に対する感度

産業における実用的応用

長所と短所

主成分

長所

コンス

特異値

長所

コンス

よくある誤解

よくある質問

評決

関連する比較

アルゴリズムによる生成 vs 人間による解釈

シーケンス解析とパターン可視化の比較

ゲームにおける確率システムと固定結果システム

グローバルな構造とローカルな方向性

スカラー量とベクトル量