Kuigi andmeteadlased puutuvad dimensioonilisuse vähendamisel sageli kokku mõlema terminiga, kirjeldavad peakomponendid andmestiku maksimaalse dispersiooni suunda, samas kui singulaarsed väärtused mõõdavad maatriksi lagundamise ajal nende geomeetriliste telgede ulatuses skaleerimise suurust. Nende matemaatilise seose mõistmine on oluline selliste algoritmide nagu PCA ja SVD valdamiseks.
Esiletused
Põhikomponendid määravad andmete dispersiooni ruumilise orientatsiooni, samas kui singulaarsed väärtused dikteerivad skaala.
Otsene matemaatiline sild ühendab neid ainult siis, kui aluseks olev andmemaatriks on korralikult keskmisele keskendunud.
Need arvutatakse maatriksi omaväärtuste positiivsete ruutjuurte ja transponeeritud maatriksi korrutisena.
Igal reaalmaatriksitel, olgu see siis ruudukujuline või ristkülikukujuline, on unikaalne singulaarsete väärtuste komplekt.
Need on SVD-s tavapäraselt paigutatud Sigma maatriksi diagonaalile kahanevas järjekorras.
Null, mille singulaarne väärtus on null, näitab, et maatriks on astakudefitsiitne või singulaarne.
Nad kvantifitseerivad ühiksfääril lineaarse teisenduse põhjustatud geomeetrilist venitust või moonutust.
Võrdlustabel
Funktsioon
Peamised komponendid
Ainsuse väärtused
Matemaatiline päritolu
Kovariatsioonimaatriksi omavektorid
Maatriksi lagunemise (SVD) tegurid
Geomeetriline tõlgendus
Maksimaalse dispersiooni suunad
Peamiste telgede skaleerimispikkused
Andmenõuded
Statistilise tähenduse jaoks on vaja keskmisele keskendunud andmeid
Kehtib mis tahes suvalise ristkülikukujulise või ruudukujulise maatriksi korral
Seos omaväärtustega
Võrdub kovariatsioonimaatriksi omaväärtustega
Võrdub maatriksprodukti omaväärtuste ruutjuurtega
Esmane rakendus
Mõõtmete vähendamine ja tunnuste eraldamine
Maatriksi inversioon, pseudopöördarvutus ja madala astme lähendus
Skaalasõltuvus
Andmete nihutamise või skaleerimise teel oluliselt muutunud
Lagundatava konkreetse maatriksi loomupärane omadus
Füüsiline tõlgendus
Andmepilve ellipsoidi teljed
Teisendatud ühiksfääri venitustegurid
Üksikasjalik võrdlus
Põhimääratlus ja kontseptsioon
Peakomponendid esindavad konkreetseid suundi, kus andmed kõige rohkem varieeruvad, toimides optimeeritud koordinaatsüsteemi uute telgedena. Seevastu singulaarsed väärtused on skalaarsed suurused, mis näitavad, kui palju maatriks nende telgede suunas ruumi venitab või kokku surub. Kui üks annab andmepilve orientatsiooni, siis teine mõõdab teisenduse enda ulatust.
Matemaatiline arvutus
Traditsiooniliselt peakomponentide leidmiseks tuleb arvutada andmestiku kovariatsioonimaatriksi omavektorid. Singulaarväärtused saadakse singulaarväärtuse dekompositsiooni teel, kus iga maatriks jaguneb kolmeks eraldi komponentmaatriksiks. Kui andmed tsentreerida keskmise lahutamise teel, siis singulaarväärtuse ruut jagatud valimi suurusega miinus üks võrdub täpselt selle peakomponendi dispersiooniga.
Andmete eeltöötluse tundlikkus
Peakomponendid muutuvad dramaatiliselt, kui unustate oma andmeid keskmistada või standardiseerida, sest statistiline dispersioon sõltub suuresti alguspunktist ja muutujate skaaladest. Singulaarväärtused on aga esitatud toormaatriksi põhiline algebraline omadus. Need ei hooli statistilistest eeldustest, välja arvatud juhul, kui kasutaja esmalt loob tahtlikult tsentreeritud kovariatsioonilaadse maatriksi.
Praktilised rakendused tööstuses
Andmeanalüütikud tuginevad peamistele komponentidele, et visualiseerida keerukaid ja kõrgmõõtmelisi andmestikke lihtsatel kahemõõtmelistel graafikutel. Teisest küljest kasutavad arvutinägemise insenerid piltide tihendamiseks ja soovitussüsteemide jaoks singulaarseid väärtusi madala astme maatriksi lähenduste kaudu. SVD on tegelikult PCA järel eelistatud numbriline mootor, kuna singulaarsete väärtuste arvutamine väldib täpsuse kadu, mis tekib kovariatsioonimaatriksi koostamisel.
Plussid ja miinused
Peamised komponendid
Eelised
+Suurepärane andmete visualiseerimiseks
+Kõrvaldab multikollineaarsuse
+Vähendab tõhusalt müra
+Lihtsustab masinõppe mudeleid
Kinnitatud
−Puudub otsene füüsiline tähendus
−Väga tundlik kõrvalekallete suhtes
−Nõuab ranget eeltöötlust
−Infokadu tekib
Ainsuse väärtused
Eelised
+Töötab mis tahes maatriksi peal
+Numbriliselt väga stabiilne
+Ideaalne madala astme lähenduse jaoks
+Näitab maatriksi järjestust koheselt
Kinnitatud
−Abstraktne matemaatiline kontseptsioon
−Arvutuslikult kulukas tohutute maatriksite jaoks
−Puudub loomupärane statistiline kontekst
−Tõlgendamine nõuab lineaarset algebrat
Tavalised eksiarvamused
Müüt
Põhikomponendid ja singulaarsed väärtused on täiesti sõltumatud mõisted.
Tõelisus
Need on andmetsentreerimise kaudu sügavalt läbi põimunud. Kui andmemaatriksist lahutatakse keskmine, on selle singulaarsed väärtused otseselt proportsionaalsed peakomponentide dispersioonide ruutjuurtega.
Müüt
Peakomponentide leidmiseks tuleb alati arvutada kovariatsioonimaatriks.
Tõelisus
Tänapäeva tarkvara arvutab kovariatsioonimaatriksit harva, kuna see tekitab numbrilisi ümardamisvigu. Selle asemel käivitavad algoritmid SVD-d otse andmemaatriksi peal, eraldades põhikomponendid palju ohutumalt ja tõhusamalt.
Müüt
Singulaarsed väärtused võivad olla negatiivsed, kui andmed näitavad negatiivset korrelatsiooni.
Tõelisus
Singulaarsed väärtused on definitsiooni järgi sümmeetrilise maatriksi omaväärtuste positiivsed ruutjuured. Need on alati mittenegatiivsed reaalarvud, mis esindavad pikkusi või venitustegureid, olenemata algandmete korrelatsioonidest.
Müüt
Konstandi lisamine kõigile andmepunktidele muudab nii singulaarseid väärtusi kui ka peakomponente võrdselt.
Tõelisus
Andmete nihutamine konstandi võrra muudab singulaarseid väärtusi, kuna toormaatriksi kirjed muutuvad. Kuna aga peakomponendid tuginevad kovariatsioonimaatriksile, mis lahutab oma olemuselt keskmise, jätab andmete nihutamine peakomponendid täiesti muutumatuks.
Müüt
Esimene põhikomponent hõlmab alati kogu väärtuslikku teavet.
Tõelisus
Esimene komponent jäädvustab ainult maksimaalse dispersiooni mööda ühte telge. Kui teie andmed on jaotatud sfääriliselt või sisaldavad kriitilisi mittelineaarseid mustreid, võib üksik lineaarne komponent kõige olulisemad struktuurid täielikult vahele jätta.
Sageli küsitud küsimused
Kuidas teisendada singulaarne väärtus peakomponendi dispersiooniks?
Kui teil on antud valimite arvuga keskmisele keskpunktile rajatud andmemaatriks, siis tõlgitakse singulaarne väärtus ruutu ja jagatakse see valimi suurusega miinus üks. See matemaatiline tehe annab tulemuseks kovariatsioonimaatriksi täpse omaväärtuse, mis esindab selle konkreetse peakomponendi poolt hõivatud dispersiooni.
Kas PCA-d saab teha ilma SVD-d kasutamata?
Jah, peakomponente saab leida kovariatsioonimaatriksi selgesõnalise arvutamise ja seejärel selle omavektorite leidmise teel klassikalise omadekompositsiooni abil. See lähenemisviis on aga numbriliselt vähem stabiilne ja ujukomaarvu vigadele altim kui SVD-meetod, mistõttu on SVD tööstusstandard.
Miks on andmete tsentreerimine põhikomponentide jaoks nii oluline?
PCA eesmärk on maksimeerida dispersiooni andmepilve keskpunkti ümber. Kui te ei nihuta andmete keskpunkti, osutab esimene põhikomponent lihtsalt alguspunktist andmeklastri keskpunkti poole, jättes dispersiooni sisemise geomeetrilise struktuuri tabamata.
Mis juhtub, kui maatriksi singulaarne väärtus on null?
Null singulaarne väärtus tähendab, et maatriks on astakudefitsiitne ja seda ei saa inverteerida. Geomeetriliselt tähendab see, et lineaarteisendus surub vähemalt ühe dimensiooni täiesti tasaseks, koondades mahu tasapinnaks või jooneks.
Kas peakomponendid on samad, mis omavektorid?
Need on omavahel tihedalt seotud, kuid terminoloogia poolest erinevad. Peamised komponendid on tegelikud projitseeritud andmepunktid piki uusi telgi, kuigi paljud praktikud kasutavad seda terminit kõnekeeles peamiste suundade kohta, mis on tõepoolest kovariatsioonimaatriksi omavektorid.
Kumb on piltide tihendamiseks parem, PCA või SVD?
SVD on piltide tihendamiseks üldiselt eelistatud ja otsesem meetod, mida nimetatakse madala astme lähenduseks. Kuna pilt on juba iseenesest struktureeritud pikslite maatriks, mitte sõltumatute vaatluste statistiline valim, kärbib SVD faili suuruse sujuvaks vähendamiseks kõige vähem olulisi singulaarseid väärtusi.
Mitu peamist komponenti peaksin mudelis hoidma?
Levinud lähenemisviis on vaadata graafikut või arvutada kumulatiivne seletatud dispersioon singulaarsete väärtuste abil. Enamik andmeteadlasi püüab säilitada piisavalt komponente, et jäädvustada 80–95% kogu dispersioonist, olenevalt konkreetse projekti müratasemest.
Kas singulaarsed väärtused muutuvad, kui maatriksit transponeerida?
Ei, maatriksi transponeerimine ei muuda selle singulaarseid väärtusi. Maatriksi ja selle transponeeritud maatriksi nullist erinevad singulaarsed väärtused jäävad täiesti identseks, kuna nende vastavate vektori korrutise maatriksite omaväärtused on täpselt samad.
Mis vahe on omaväärtusel ja singulaarsel väärtusel?
Omaväärtused on defineeritud ainult ruutmaatriksite jaoks ja võivad olla kompleksarvud, mis esindavad vektori skaleerumist ilma suunda muutmata. Singulaarsed väärtused kehtivad mis tahes maatriksi kohta, on alati reaalsed ja mittenegatiivsed ning esindavad ühiksfääri maksimaalset venitust teisenduse all.
Otsus
Valige peakomponendid, kui teie peamine eesmärk on statistilise andmestiku tunnuste tõlgendamine, visualiseerimine või dispersiooni põhjal taandamine. Valige singulaarsed väärtused, kui teil on vaja lahendada lineaarseid süsteeme, tihendada maatrikseid või teha stabiilseid numbrilisi arvutusi ilma statistilise eeltöötluse pärast muretsemata.