Lai gan datu zinātnieki dimensiju samazināšanas kontekstā bieži sastopas ar abiem terminiem, galvenās komponentes apraksta maksimālās dispersijas virzienus datu kopā, savukārt singulārās vērtības mēra mērogošanas lielumu pa šīm ģeometriskajām asīm matricas sadalīšanas laikā. Izpratne par to matemātisko saikni ir būtiska, lai apgūtu tādus algoritmus kā PCA un SVD.
Iezīmes
Galvenās komponentes nosaka datu dispersijas telpisko orientāciju, savukārt singulārās vērtības nosaka mērogu.
Tiešs matemātiskais tilts tos savieno tikai tad, ja pamatā esošā datu matrica ir pareizi centrēta uz vidējo vērtību.
SVD aprēķina singulārās vērtības tieši, nodrošinot daudz skaitliski stabilāku ceļu galveno komponentu atrašanai.
Galvenajām komponentēm jābūt ortogonālām viena otrai, turpretī singulārās vērtības ir stingri nenegatīvi reālie skaitļi.
Kas ir Galvenās sastāvdaļas?
Ortogonālie vektori, kas norāda maksimālās dispersijas virzienos, palīdzot vienkāršot un saīsināt daudzdimensionālus datus.
Tie tieši atbilst datu kopas kovariācijas matricas īpašvektoriem.
Pirmais galvenais komponents veido vislielāko iespējamo datu dispersiju.
Katrs nākamais komponents ir stingri ortogonāls iepriekšējām komponentēm, nodrošinot nulles korelāciju.
Tie ir ļoti atkarīgi no datu mērogošanas, padarot vidējo vērtību centrēšanu par kritisku pirmapstrādes soli.
Inženieri tos izmanto, lai projicētu augstas dimensijas telpas uz zemākām dimensijām, vienlaikus saglabājot informāciju.
Kas ir Vienskaitļa vērtības?
Singulāro vērtību matricas diagonālie ieraksti, kas attēlo lineāras transformācijas absolūtos mērogošanas koeficientus.
Tos aprēķina kā matricas īpašvērtību pozitīvās kvadrātsaknes, kas reizinātas ar tās transponēšanu.
Katrai reālai matricai, neatkarīgi no tā, vai tā ir kvadrātveida vai taisnstūrveida, ir unikāls singulāro vērtību kopums.
Tie parasti ir sakārtoti dilstošā secībā pa Sigma matricas diagonāli SVD.
Nulles singulārā vērtība norāda, ka matricai trūkst ranga vai tā ir singulāra.
Tie kvantificē ģeometrisko stiepšanos vai deformāciju, ko izraisa lineāra transformācija vienības sfērā.
Salīdzinājuma tabula
Funkcija
Galvenās sastāvdaļas
Vienskaitļa vērtības
Matemātiskā izcelsme
Kovariācijas matricas īpašvektori
Matricas sadalīšanās (SVD) faktori
Ģeometriskā interpretācija
Maksimālās dispersijas virzieni
Galveno asu mērogošanas garumi
Datu prasība
Lai iegūtu statistisku nozīmi, nepieciešami uz vidējo centrētu datu
Attiecas uz jebkuru patvaļīgu taisnstūra vai kvadrātveida matricu
Saistība ar īpašvērtībām
Vienāds ar kovariācijas matricas īpašvērtībām
Vienāds ar matricas reizinājuma īpašvērtību kvadrātsaknēm
Primārais pielietojums
Dimensiju samazināšana un pazīmju ekstrakcija
Matricas inversija, pseidoinversā aprēķināšana un zemas ranga aproksimācija
Mēroga atkarība
Būtiski mainīti, pārvietojot vai mērogojot datus
Konkrētās sadalāmās matricas raksturīgais īpašums
Fiziskā interpretācija
Datu mākoņa elipsoīda asis
Pārveidotas vienības sfēras stiepšanās faktori
Detalizēts salīdzinājums
Galvenā definīcija un koncepcija
Galvenās komponentes attēlo konkrētos virzienus, kuros dati visvairāk mainās, darbojoties kā jaunās asis optimizētai koordinātu sistēmai. Turpretī singulārās vērtības ir skalāri lielumi, kas parāda, cik lielā mērā matrica izstiepj vai saspiež telpu pa šīm asīm. Viena no tām sniedz datu mākoņa orientāciju, bet otra mēra pašas transformācijas lielumu.
Matemātiskais aprēķins
Lai tradicionāli atrastu galvenās komponentes, ir jāaprēķina datu kopas kovariācijas matricas īpašvektori. Singulārās vērtības rodas no singulārās vērtības dekompozīcijas, kur jebkura matrica sadalās trīs atšķirīgās komponentu matricās. Centrējot datus, atņemot vidējo vērtību, singulārās vērtības kvadrāts, dalīts ar izlases lielumu mīnus viens, ir pilnīgi vienāds ar šīs galvenās komponentes dispersiju.
Datu pirmapstrādes jutīgums
Galvenās komponentes ievērojami mainās, ja aizmirstat centrēt vidējo vērtību vai standartizēt datus, jo statistiskā dispersija lielā mērā ir atkarīga no sākuma punkta un mainīgo skalas. Tomēr singulārās vērtības ir sniegtās neapstrādātās matricas fundamentāla algebriska īpašība. Tām nerūp statistiskie pieņēmumi, ja vien lietotājs vispirms apzināti neveido centrētu kovariācijai līdzīgu matricu.
Praktiski pielietojumi rūpniecībā
Datu analītiķi paļaujas uz galvenajiem komponentiem, lai vizualizētu sarežģītas, daudzdimensionālas datu kopas vienkāršos divdimensiju attēlos. No otras puses, datorredzes inženieri attēlu saspiešanai un ieteikumu sistēmām izmanto singulārās vērtības, izmantojot zemas pakāpes matricu aproksimācijas. SVD faktiski ir vēlamais skaitliskais dzinējs aiz PCA, jo singulāro vērtību aprēķināšana novērš precizitātes zudumu, kas rodas, veidojot kovariācijas matricu.
Priekšrocības un trūkumi
Galvenās sastāvdaļas
Iepriekšējumi
+Lieliski piemērots datu vizualizācijai
+Novērš multikolinearitāti
+Efektīvi samazina troksni
+Vienkāršo mašīnmācīšanās modeļus
Ievietots
−Trūkst tiešas fiziskas nozīmes
−Ļoti jutīga pret novirzēm
−Nepieciešama stingra pirmapstrāde
−Informācijas zudums notiek
Vienskaitļa vērtības
Iepriekšējumi
+Darbojas uz jebkuras matricas
+Skaitliski ļoti stabils
+Lieliski piemērots zemas ranga aproksimācijai
+Uzreiz atklāj matricas rangu
Ievietots
−Abstrakts matemātisks jēdziens
−Skaitļošanas ziņā dārgi milzīgām matricām
−Trūkst raksturīgā statistiskā konteksta
−Interpretācijai nepieciešama lineārā algebra
Biežas maldības
Mīts
Galvenās komponentes un singulārās vērtības ir pilnīgi neatkarīgi jēdzieni.
Realitāte
Tie ir cieši saistīti, pateicoties datu centrēšanai. Kad datu matricai tiek atņemts vidējais, tās singulārās vērtības ir tieši proporcionālas galveno komponentu dispersiju kvadrātsaknēm.
Mīts
Lai atrastu galvenās komponentes, vienmēr ir jāaprēķina kovariācijas matrica.
Realitāte
Mūsdienu programmatūra reti aprēķina kovariācijas matricu, jo tā rada skaitliskās noapaļošanas kļūdas. Tā vietā algoritmi tieši palaiž SVD datu matricā, daudz drošāk un efektīvāk izvelkot galvenās komponentes.
Mīts
Singulārās vērtības var būt negatīvas, ja dati uzrāda negatīvu korelāciju.
Realitāte
Singulārās vērtības pēc definīcijas ir simetriskas matricas īpašvērtību pozitīvas kvadrātsaknes. Tās vienmēr ir nenegatīvi reāli skaitļi, kas attēlo garumus vai stiepes koeficientus neatkarīgi no korelācijām sākotnējos datos.
Mīts
Pievienojot konstantu vērtību visiem datu punktiem, vienādi mainās gan singulārās vērtības, gan galvenās komponentes.
Realitāte
Datu nobīde par konstanti maina singulārās vērtības, jo mainās neapstrādātās matricas ieraksti. Tomēr, tā kā galvenās komponentes balstās uz kovariācijas matricu, kas pēc būtības atņem vidējo vērtību, datu nobīde pilnībā nemaina galvenās komponentes.
Mīts
Pirmais galvenais komponents vienmēr ietver visu vērtīgo informāciju.
Realitāte
Pirmais komponents uztver tikai maksimālo dispersiju pa vienu asi. Ja jūsu dati ir sadalīti sfēriski vai satur kritiskus nelineārus modeļus, viens lineārs komponents var pilnībā palaist garām vissvarīgākās struktūras.
Bieži uzdotie jautājumi
Kā pārvērst singulāro vērtību galvenās komponentes dispersijā?
Ja jums ir uz vidējo centrēta datu matrica ar noteiktu paraugu skaitu, jūs singulārā vērtība tiek kāpināta kvadrātā un dalīta ar parauga lielumu, atņemot vienu. Šī matemātiskā darbība dod precīzu kovariācijas matricas īpašvērtību, kas attēlo dispersiju, ko uztver šī konkrētā galvenā komponente.
Vai var veikt PCA, neizmantojot SVD?
Jā, galvenās komponentes var atrast, skaidri aprēķinot kovariācijas matricu un pēc tam atrodot tās īpašvektorus, izmantojot klasisko īpašvērtību sadalījumu. Tomēr šī pieeja ir skaitliski mazāk stabila un vairāk pakļauta peldošā komata kļūdām nekā SVD metode, tāpēc SVD ir nozares standarts.
Kāpēc datu centrēšana ir tik svarīga galvenajām komponentēm?
PCA mērķis ir maksimizēt dispersiju ap datu mākoņa centru. Ja datu vidējais rādītājs netiek pārvietots uz sākumpunktu, pirmais galvenais komponents vienkārši norādīs no sākumpunkta uz datu klastera centru, nespējot aptvert dispersijas iekšējo ģeometrisko struktūru.
Kas notiek, ja matricas singulārā vērtība ir nulle?
Nulles singulārā vērtība nozīmē, ka matricai trūkst ranga un to nevar apgriezt. Ģeometriski tas nozīmē, ka lineārā transformācija saspiež vismaz vienu dimensiju pilnīgi plakanu, sabrūkot tilpumu plaknē vai līnijā.
Vai galvenās komponentes ir tādas pašas kā īpašvektori?
Tie ir cieši saistīti, taču atšķirīgi terminoloģijā. Galvenās sastāvdaļas ir faktiskie projicētie datu punkti pa jaunajām asīm, lai gan daudzi praktiķi sarunvalodā šo terminu lieto, lai apzīmētu galvenos virzienus, kas patiesībā ir kovariācijas matricas īpašvektori.
Kas ir labāks attēlu saspiešanai — PCA vai SVD?
SVD parasti ir vēlamāka un tiešāka attēlu saspiešanai, izmantojot zemas pakāpes aproksimācijas metodi. Tā kā attēls jau ir strukturēta pikseļu matrica, nevis neatkarīgu novērojumu statistisks paraugs, SVD saīsina vismazāk nozīmīgās singulārās vērtības, lai nemanāmi samazinātu faila lielumu.
Cik galveno komponentu man vajadzētu paturēt modelī?
Izplatīta pieeja ir aplūkot ekrāna diagrammu vai aprēķināt kumulatīvo izskaidroto dispersiju, izmantojot singulārās vērtības. Lielākā daļa datu zinātnieku cenšas saglabāt pietiekami daudz komponentu, lai aptvertu 80–95% no kopējās dispersijas atkarībā no konkrētā projekta trokšņa līmeņa.
Vai singulārās vērtības mainās, ja matricu transponē?
Nē, matricas transponēšana nemaina tās singulārās vērtības. Matricas un tās transponētās vērtības, kas nav nulles, paliek pilnīgi identiskas, jo to attiecīgo vektorreizinājumu matricu īpašvērtības ir pilnīgi vienādas.
Kāda ir atšķirība starp īpašvērtību un singulāro vērtību?
Īpašvērtības ir definētas tikai kvadrātmatricām un var būt kompleksi skaitļi, kas attēlo vektora mērogojamību, nemainot virzienu. Singulārās vērtības attiecas uz jebkuru matricu, vienmēr ir reālas un nenegatīvas, un attēlo vienības sfēras maksimālo izstiepšanos transformācijas laikā.
Spriedums
Izvēlieties galvenās komponentes, ja jūsu galvenais mērķis ir interpretēt, vizualizēt vai samazināt statistikas datu kopas pazīmes, pamatojoties uz dispersiju. Izvēlieties singulārās vērtības, ja jums ir jāatrisina lineāras sistēmas, jāsaspiež matricas vai jāveic stabili skaitliski aprēķini, neuztraucoties par statistisko pirmapstrādi.