Deși specialiștii în date întâlnesc frecvent ambii termeni în reducerea dimensionalității, componentele principale descriu direcțiile varianței maxime într-un set de date, în timp ce valorile singulare măsoară magnitudinea scalării de-a lungul acelor axe geometrice în timpul descompunerii matriceale. Înțelegerea legăturii dintre acestea matematice este esențială pentru stăpânirea algoritmilor precum PCA și SVD.
Evidențiate
Componentele principale determină orientarea spațială a varianței datelor, în timp ce valorile singulare dictează scara.
O punte matematică directă le leagă numai atunci când matricea de date subiacentă este centrată corect pe medie.
SVD calculează direct valorile singulare, oferind o cale mult mai stabilă din punct de vedere numeric pentru găsirea componentelor principale.
Componentele principale trebuie să fie ortogonale între ele, în timp ce valorile singulare sunt numere reale strict nenegative.
Ce este Componente principale?
Vectorii ortogonali care indică direcțiile de varianță maximă, ajutând la simplificarea și condensarea datelor de înaltă dimensionalitate.
Acestea corespund direct vectorilor proprii ai matricei de covarianță a unui set de date.
Prima componentă principală explică cea mai mare varianță posibilă a datelor.
Fiecare componentă ulterioară este strict ortogonală față de cele anterioare, asigurând o corelație zero.
Acestea depind în mare măsură de scalarea datelor, ceea ce face ca centrarea pe medie să fie o etapă critică de preprocesare.
Inginerii le folosesc pentru a proiecta spații de mare dimensiune la dimensiuni mai mici, păstrând în același timp informațiile.
Ce este Valori singulare?
Intrările diagonale ale unei matrice de valori singulare, reprezentând factorii de scalare absoluți ai unei transformări liniare.
Acestea se calculează ca rădăcini pătrate pozitive ale valorilor proprii ale unei matrice înmulțite cu transpunerea sa.
Fiecare matrice reală, fie ea pătrată sau dreptunghiulară, posedă un set unic de valori singulare.
Acestea sunt aranjate convențional în ordine descrescătoare de-a lungul diagonalei matricei Sigma în SVD.
O valoare singulară de zero indică faptul că matricea este deficientă în rang sau singulară.
Acestea cuantifică întinderea sau distorsiunea geometrică cauzată de o transformare liniară pe o sferă unitară.
Tabel comparativ
Funcție
Componente principale
Valori singulare
Origine matematică
Vectori proprii ai matricei de covarianță
Factorii de descompunere a matricei (SVD)
Interpretare geometrică
Direcțiile varianței maxime
Scalarea lungimilor axelor principale
Cerință privind datele
Necesită date centrate pe medie pentru semnificație statistică
Se aplică oricărei matrice dreptunghiulare sau pătrate arbitrare
Relația cu valorile proprii
Egal cu valorile proprii ale matricei de covarianță
Egal cu rădăcinile pătrate ale valorilor proprii ale produsului matriceal
Aplicație principală
Reducerea dimensionalității și extragerea caracteristicilor
Inversiune matriceală, calcul pseudo-invers și aproximare de rang scăzut
Dependența de scală
Modificat semnificativ prin deplasarea sau scalarea datelor
Proprietatea inerentă a matricei specifice care este descompusă
Interpretare fizică
Axele unui elipsoid de nor de date
Factorii de întindere ai unei sfere unitare transformate
Comparație detaliată
Definiție și concept de bază
Componentele principale reprezintă direcțiile specifice în care datele variază cel mai mult, acționând ca noi axe pentru un sistem de coordonate optimizat. În schimb, valorile singulare sunt mărimi scalare care dezvăluie cât de mult o matrice întinde sau comprimă spațiul de-a lungul acelor axe. În timp ce una oferă orientarea norului de date, cealaltă măsoară magnitudinea transformării în sine.
Calcul matematic
Pentru a găsi componentele principale în mod tradițional, trebuie să calculați vectorii proprii ai matricei de covarianță a unui set de date. Valorile singulare rezultă din descompunerea valorilor singulare, unde orice matrice se împarte în trei matrici componente distincte. Când centrați datele prin scăderea mediei, pătratul unei valori singulare împărțit la dimensiunea eșantionului minus unu este perfect egal cu varianța acelei componente principale.
Sensibilitate la preprocesarea datelor
Componentele principale se schimbă dramatic dacă uitați să centrați media sau să standardizați datele, deoarece varianța statistică se bazează în mare măsură pe punctul de origine și pe scalele variabilelor. Valorile singulare, însă, sunt o proprietate algebrică fundamentală a matricei brute furnizate. Nu țin cont de ipotezele statistice, cu excepția cazului în care utilizatorul construiește intenționat mai întâi o matrice centrată, asemănătoare covarianței.
Aplicații practice în industrie
Analiștii de date se bazează pe componente principale pentru a vizualiza seturi de date complexe, de înaltă dimensionalitate, pe grafice bidimensionale simple. Pe de altă parte, inginerii de viziune computerizată utilizează valori singulare pentru compresia imaginilor și sisteme de recomandare prin aproximări de matrice de rang scăzut. SVD este de fapt motorul numeric preferat din spatele PCA, deoarece calcularea valorilor singulare evită pierderea de precizie care apare la construirea unei matrice de covarianță.
Avantaje și dezavantaje
Componente principale
Avantaje
+Excelent pentru vizualizarea datelor
+Elimină multicolinearitatea
+Reduce eficient zgomotul
+Simplifică modelele de învățare automată
Conectare
−Nu are o semnificație fizică directă
−Foarte sensibil la valori aberante
−Necesită o preprocesare strictă
−Pierderea de informații se produce
Valori singulare
Avantaje
+Funcționează pe orice matrice
+Foarte stabil din punct de vedere numeric
+Perfect pentru aproximarea de rang scăzut
+Dezvăluie instantaneu rangul matricei
Conectare
−Concept matematic abstract
−Costuri computaționale ridicate pentru matrici uriașe
−Lipsește contextul statistic inerent
−Interpretarea necesită algebră liniară
Idei preconcepute comune
Mit
Componentele principale și valorile singulare sunt concepte complet independente.
Realitate
Acestea sunt profund interconectate prin centrarea datelor. Atunci când unei matrice de date i se scade media, valorile sale singulare sunt direct proporționale cu rădăcinile pătrate ale varianțelor de-a lungul componentelor principale.
Mit
Trebuie să calculați întotdeauna matricea de covarianță pentru a găsi componentele principale.
Realitate
Software-ul modern calculează rareori matricea de covarianță deoarece introduce erori de rotunjire numerică. În schimb, algoritmii execută SVD direct pe matricea de date, extragând componentele principale mult mai sigur și eficient.
Mit
Valorile singulare pot fi negative dacă datele prezintă o corelație negativă.
Realitate
Valorile singulare sunt prin definiție rădăcinile pătrate pozitive ale valorilor proprii dintr-o matrice simetrică. Sunt întotdeauna numere reale nenegative, reprezentând lungimi sau factori de întindere, indiferent de corelațiile din datele originale.
Mit
Adăugarea unei valori constante la toate punctele de date modifică în mod egal valorile singulare și componentele principale.
Realitate
Deplasarea datelor cu o constantă modifică valorile singulare deoarece intrările brute ale matricei se modifică. Cu toate acestea, deoarece componentele principale se bazează pe matricea de covarianță, care scade în mod inerent media, deplasarea datelor lasă componentele principale complet neschimbate.
Mit
Prima componentă principală surprinde întotdeauna toate informațiile valoroase.
Realitate
Prima componentă surprinde doar varianța maximă de-a lungul unei singure axe. Dacă datele sunt distribuite sferic sau conțin modele neliniare critice, o singură componentă liniară ar putea omite complet cele mai importante structuri.
Întrebări frecvente
Cum convertiți o valoare singulară în varianța unei componente principale?
Dacă aveți o matrice de date centrată pe medie cu un număr dat de eșantioane, ridicați valoarea singulară la pătrat și o împărțiți la dimensiunea eșantionului minus unu. Această operație matematică produce valoarea proprie exactă a matricei de covarianță, care reprezintă varianța captată de acea componentă principală specifică.
Se poate efectua PCA fără a utiliza SVD?
Da, puteți găsi componentele principale calculând explicit matricea de covarianță și apoi găsind vectorii proprii prin descompunerea proprie clasică. Cu toate acestea, această abordare este numeric mai puțin stabilă și mai predispusă la erori în virgulă mobilă decât metoda SVD, motiv pentru care SVD este standardul în industrie.
De ce contează atât de mult centrarea datelor pentru componentele principale?
PCA își propune să maximizeze varianța în jurul centrului norului de date. Dacă nu mutați media datelor către origine, prima componentă principală va indica pur și simplu de la origine spre centrul clusterului de date, nereușind să surprindă structura geometrică internă a varianței.
Ce se întâmplă dacă o matrice are valoarea singulară zero?
O valoare singulară zero înseamnă că matricea este deficitară în rang și nu poate fi inversată. Din punct de vedere geometric, aceasta implică faptul că transformarea liniară comprimă cel puțin o dimensiune complet plată, restrângând un volum într-un plan sau o linie.
Sunt componentele principale aceleași cu vectorii proprii?
Acestea sunt strâns legate, dar distincte ca terminologie. Componentele principale sunt punctele de date proiectate efectiv de-a lungul noilor axe, deși mulți practicieni folosesc colocvial termenul pentru a se referi la direcțiile principale, care sunt într-adevăr vectorii proprii ai matricei de covarianță.
Care este mai bun pentru compresia imaginilor, PCA sau SVD?
SVD este în general preferat și mai direct pentru compresia imaginilor printr-o tehnică numită aproximare de rang scăzut. Deoarece o imagine este deja o matrice structurată de pixeli, mai degrabă decât un eșantion statistic de observații independente, SVD trunchiază cele mai puțin semnificative valori singulare pentru a reduce dimensiunea fișierului fără probleme.
Câte componente principale ar trebui să păstrez într-un model?
O abordare obișnuită este de a analiza un grafic de tip „scree” sau de a calcula varianța cumulativă explicată folosind valorile singulare. Majoritatea specialiștilor în date își propun să rețină suficiente componente pentru a capta 80% până la 95% din varianța totală, în funcție de nivelurile de zgomot ale proiectului specific.
Se modifică valorile singulare dacă transpui matricea?
Nu, transpunerea unei matrice nu modifică valorile sale singulare. Valorile singulare nenule ale unei matrice și ale transpunerii sale rămân complet identice deoarece valorile proprii ale matricelor respective cu produs vectorial sunt exact aceleași.
Care este diferența dintre o valoare proprie și o valoare singulară?
Valorile proprii sunt definite doar pentru matrici pătrate și pot fi numere complexe, reprezentând modul în care un vector se scalează fără a-și schimba direcția. Valorile singulare se aplică oricărei matrice, sunt întotdeauna reale și nenegative și reprezintă întinderea maximă a unei sfere unitare sub o transformare.
Verdict
Alegeți componentele principale atunci când obiectivul principal este interpretarea, vizualizarea sau reducerea caracteristicilor unui set de date statistice pe baza varianței. Optați pentru valori singulare atunci când trebuie să rezolvați sisteme liniare, să comprimați matrici sau să efectuați calcule numerice stabile fără a vă face griji cu privire la preprocesarea statistică.