Vaikka datatieteilijät kohtaavat usein molemmat termit dimensionaalisuuden vähentämisessä, pääkomponentit kuvaavat tietojoukon suurimman varianssin suuntia, kun taas singulaariarvot mittaavat skaalauksen suuruutta näillä geometrisilla akseleilla matriisihajoamisen aikana. Niiden matemaattisen yhdistämisen ymmärtäminen on olennaista PCA:n ja SVD:n kaltaisten algoritmien hallitsemiseksi.
Korostukset
Pääkomponentit määrittävät datavarianssin spatiaalisen suunnan, kun taas singulaariarvot sanelevat skaalan.
Suora matemaattinen silta yhdistää ne vain, kun pohjana oleva datamatriisi on oikein keskiarvokeskeinen.
SVD laskee singulaariarvot suoraan, mikä tarjoaa paljon numeerisesti vakaamman polun pääkomponenttien löytämiseen.
Pääkomponenttien on oltava ortogonaalisia toisiinsa nähden, kun taas singulaariarvot ovat ehdottoman ei-negatiivisia reaalilukuja.
Mikä on Pääkomponentit?
Ortogonaaliset vektorit, jotka osoittavat maksimaalisen varianssin suuntiin, auttavat yksinkertaistamaan ja tiivistämään moniulotteista dataa.
Ne vastaavat suoraan tietojoukon kovarianssimatriisin ominaisvektoreita.
Ensimmäinen pääkomponentti selittää datan suurimman mahdollisen varianssin.
Jokainen seuraava komponentti on ehdottoman ortogonaalinen edeltäjäänsä nähden, mikä varmistaa nollakorrelaation.
Ne ovat vahvasti riippuvaisia datan skaalauksesta, joten keskiarvojen keskittäminen on kriittinen esikäsittelyvaihe.
Insinöörit käyttävät niitä projisoidakseen korkeaulotteisia tiloja alempaan ulottuvuuteen säilyttäen samalla tiedot.
Mikä on Yksittäisarvot?
Singulaarisen arvon matriisin diagonaaliarvot, jotka edustavat lineaarisen muunnoksen absoluuttisia skaalauskertoimia.
Ne lasketaan matriisin ominaisarvojen positiivisten neliöjuurien avulla kerrottuna sen transponoinnilla.
Jokaisella reaalimatriisilla, olipa se neliö- tai suorakaiteen muotoinen, on ainutlaatuinen joukko singulaariarvoja.
Ne on tavanomaisesti järjestetty laskevaan järjestykseen Sigma-matriisin diagonaalia pitkin SVD:ssä.
Singulaarinen arvo nolla osoittaa, että matriisi on järjestysvajainen tai singulaarinen.
Ne kvantifioivat lineaarisen muunnoksen aiheuttaman geometrisen venymisen tai vääristymän yksikköpallolla.
Vertailutaulukko
Ominaisuus
Pääkomponentit
Yksittäisarvot
Matemaattinen alkuperä
Kovarianssimatriisin ominaisvektorit
Matriisin hajoamistekijät (SVD)
Geometrinen tulkinta
Suurimman varianssin suunnat
Pääakseleiden skaalauspituudet
Tietovaatimus
Vaatii keskiarvokeskeistä dataa tilastollisen merkityksen saavuttamiseksi
Koskee mitä tahansa mielivaltaista suorakulmaista tai neliömatriisia
Suhde ominaisarvoihin
Yhtä suuri kuin kovarianssimatriisin ominaisarvot
Yhtä suuri kuin matriisitulon ominaisarvojen neliöjuuret
Ensisijainen sovellus
Dimensionaalisuuden vähentäminen ja ominaisuuksien erottaminen
Matriisin inversio, pseudo-inverse-laskenta ja matalan asteen approksimaatio
Skaalariippuvuus
Muuttunut merkittävästi siirtämällä tai skaalaamalla tietoja
Hajotettavan tietyn matriisin luontainen ominaisuus
Fyysinen tulkinta
Tietopilven ellipsoidin akselit
Muunnetun yksikköpallon venytyskertoimet
Yksityiskohtainen vertailu
Ydinmääritelmä ja käsite
Pääkomponentit edustavat tiettyjä suuntia, joissa data vaihtelee eniten, ja toimivat optimoidun koordinaatiston uusina akseleina. Singulaariarvot taas ovat skalaarisia suureita, jotka paljastavat, kuinka paljon matriisi venyttää tai supistaa tilaa näiden akseleiden suuntaisesti. Toinen antaa datapilven suunnan, kun taas toinen mittaa itse muutoksen suuruutta.
Matemaattinen laskelma
Pääkomponenttien löytämiseksi perinteisesti sinun on laskettava tietojoukon kovarianssimatriisin ominaisvektorit. Singulaariarvot saadaan singulaariarvohajottelusta, jossa mikä tahansa matriisi jakautuu kolmeen erilliseen komponenttimatriisiin. Kun keskität tietosi vähentämällä keskiarvon, singulaariarvon neliö jaettuna otoskoolla miinus yksi on täysin yhtä suuri kuin kyseisen pääkomponentin varianssi.
Herkkyys datan esikäsittelylle
Pääkomponentit muuttuvat dramaattisesti, jos unohdat keskittää keskiarvot tai standardoida datasi, koska tilastollinen varianssi on vahvasti riippuvainen lähtöpisteestä ja muuttujien skaalasta. Singulaariarvot ovat kuitenkin raakamatriisin perustavanlaatuinen algebrallinen ominaisuus. Ne eivät välitä tilastollisista oletuksista, ellei käyttäjä ensin tarkoituksella rakenna keskitettyä kovarianssin kaltaista matriisia.
Käytännön sovellukset teollisuudessa
Data-analyytikot käyttävät pääkomponentteja visualisoidakseen monimutkaisia, korkeaulotteisia tietojoukkoja yksinkertaisilla kaksiulotteisilla kuvaajilla. Konenäköinsinöörit taas käyttävät singulaariarvoja kuvan pakkaamiseen ja suositusjärjestelmiin matalan asteen matriisiapproksimaatioiden avulla. SVD on itse asiassa PCA:n jälkeen suositeltu numeerinen moottori, koska singulaariarvojen laskeminen välttää tarkkuuden menetyksen, jota tapahtuu kovarianssimatriisia rakennettaessa.
Pääkomponentit ja singulaariarvot ovat täysin itsenäisiä käsitteitä.
Todellisuus
Ne ovat syvästi kietoutuneet toisiinsa datan keskittämisen kautta. Kun datamatriisista vähennetään sen keskiarvo, sen singulaariarvot ovat suoraan verrannollisia pääkomponenttien varianssien neliöjuuriin.
Myytti
Kovarianssimatriisi on aina laskettava pääkomponenttien löytämiseksi.
Todellisuus
Nykyaikaiset ohjelmistot laskevat harvoin kovarianssimatriisia, koska se aiheuttaa numeerisia pyöristysvirheitä. Sen sijaan algoritmit suorittavat SVD-laskennan suoraan datamatriisille, jolloin pääkomponentit poimitaan paljon turvallisemmin ja tehokkaammin.
Myytti
Singulaariarvot voivat olla negatiivisia, jos tiedot osoittavat negatiivista korrelaatiota.
Todellisuus
Singulaariarvot ovat määritelmän mukaan symmetrisen matriisin ominaisarvojen positiivisia neliöjuuria. Ne ovat aina ei-negatiivisia reaalilukuja, jotka edustavat pituuksia tai venytyskertoimia riippumatta alkuperäisen datan korrelaatioista.
Myytti
Vakioarvon lisääminen kaikkiin datapisteisiin muuttaa sekä singulaariarvoja että pääkomponentteja yhtä paljon.
Todellisuus
Datan siirtäminen vakion verran muuttaa singulaariarvoja, koska raakamatriisin alkiot muuttuvat. Koska pääkomponentit kuitenkin perustuvat kovarianssimatriisiin, joka luonnostaan vähentää keskiarvon, datan siirtäminen jättää pääkomponentit täysin muuttumattomiksi.
Myytti
Ensimmäinen pääkomponentti tallentaa aina kaikki arvokkaat tiedot.
Todellisuus
Ensimmäinen komponentti tallentaa vain yhden akselin suuntaisen maksimaalisen varianssin. Jos datasi on jakautunut pallomaisesti tai sisältää kriittisiä epälineaarisia kuvioita, yksi lineaarinen komponentti saattaa jättää kokonaan huomiotta tärkeimmät rakenteet.
Usein kysytyt kysymykset
Miten singulaariarvo muunnetaan pääkomponentin varianssiksi?
Jos sinulla on keskiarvokeskeinen datamatriisi, jossa on tietty määrä otoksia, korota singulaariarvo neliöön ja jaa se otoskoolla miinus yksi. Tämä matemaattinen operaatio tuottaa kovarianssimatriisin tarkan ominaisarvon, joka edustaa kyseisen pääkomponentin vangitsemaa varianssia.
Voiko PCA:ta suorittaa ilman SVD:tä?
Kyllä, voit löytää pääkomponentit laskemalla kovarianssimatriisin eksplisiittisesti ja sitten etsimällä sen ominaisvektorit klassisen ominaishajottelun avulla. Tämä lähestymistapa on kuitenkin numeerisesti vähemmän stabiili ja alttiimpi liukulukuvirheille kuin SVD-menetelmä, minkä vuoksi SVD on alan standardi.
Miksi datan keskittäminen on niin tärkeää pääkomponenteille?
PCA pyrkii maksimoimaan varianssin datapilven keskipisteen ympärillä. Jos datan keskiarvoa ei siirretä origoon, ensimmäinen pääkomponentti osoittaa yksinkertaisesti origosta kohti dataklusterin keskustaa, eikä se onnistu kuvaamaan varianssin sisäistä geometrista rakennetta.
Mitä tapahtuu, jos matriisin singulaariarvo on nolla?
Nolla singulaariarvo tarkoittaa, että matriisi on järjestysvajainen eikä sitä voida invertoida. Geometrisesti se tarkoittaa, että lineaarinen muunnos litistää ainakin yhden ulottuvuuden täysin tasaiseksi, jolloin tilavuus kutistuu tasoksi tai viivaksi.
Ovatko pääkomponentit samoja kuin ominaisvektorit?
Ne ovat läheistä sukua toisilleen, mutta terminologialtaan erilaisia. Pääkomponentit ovat varsinaisia projisoituja datapisteitä uusien akseleiden suuntaisesti, vaikka monet ammattilaiset käyttävätkin termiä puhekielessä viittaamaan pääsuuntiin, jotka ovat itse asiassa kovarianssimatriisin ominaisvektoreita.
Kumpi on parempi kuvan pakkaamiseen, PCA vai SVD?
SVD on yleensä parempi ja suorempi kuvan pakkaamiseen tekniikan avulla, jota kutsutaan matalan asteen approksimaatioksi. Koska kuva on jo valmiiksi strukturoitu pikselimatriisi eikä tilastollinen otos riippumattomista havainnoista, SVD katkaisee vähiten merkitsevät singulaariarvot tiedostokoon saumattomasti pienentämiseksi.
Kuinka monta pääkomponenttia mallissa tulisi säilyttää?
Yleinen lähestymistapa on tarkastella pistemäistä kuvaajaa tai laskea kumulatiivinen selitetty varianssi käyttämällä singulaariarvoja. Useimmat datatieteilijät pyrkivät säilyttämään riittävästi komponentteja tallentaakseen 80–95 % kokonaisvarianssista tietyn projektin kohinatasoista riippuen.
Muuttuvatko singulaariarvot, jos matriisi transponoidaan?
Ei, matriisin transponointi ei muuta sen singulaariarvoja. Matriisin ja sen transponoidun matriisin nollasta poikkeavat singulaariarvot pysyvät täysin identtisinä, koska niiden ristitulomatriisien ominaisarvot ovat täsmälleen samat.
Mitä eroa on ominaisarvolla ja singulaarisella arvolla?
Ominaisarvot määritellään vain neliömatriiseille, ja ne voivat olla kompleksilukuja, jotka edustavat vektorin skaalautumista muuttamatta suuntaa. Singulaariarvot pätevät mihin tahansa matriisiin, ovat aina reaalisia ja ei-negatiivisia, ja ne edustavat yksikköpallon maksimaalista venytystä muunnoksessa.
Tuomio
Valitse pääkomponentteja, kun ensisijainen tavoitteesi on tulkita, visualisoida tai pelkistää tilastollisen tietojoukon ominaisuuksia varianssin perusteella. Valitse singulaariarvoja, kun sinun on ratkaistava lineaarisia yhtälöryhmiä, pakattava matriiseja tai suoritettava stabiileja numeerisia laskutoimituksia huolehtimatta tilastollisesta esikäsittelystä.