Mens dataloger ofte støder på begge termer i forbindelse med dimensionsreduktion, beskriver principalkomponenter retningerne for maksimal varians i et datasæt, hvorimod singulære værdier måler størrelsen af skalering langs disse geometriske akser under matrixdekomposition. Forståelse af deres matematiske bro er afgørende for at mestre algoritmer som PCA og SVD.
Højdepunkter
Hovedkomponenter bestemmer den rumlige orientering af datavariansen, mens singulære værdier dikterer skalaen.
En direkte matematisk bro forbinder dem kun, når den underliggende datamatrix er korrekt middelværdicentreret.
SVD beregner singulære værdier direkte, hvilket giver en langt mere numerisk stabil vej til at finde hovedkomponenter.
Hovedkomponenter skal være ortogonale i forhold til hinanden, hvorimod singulære værdier er strengt taget ikke-negative reelle tal.
Hvad er Hovedkomponenter?
De ortogonale vektorer, der peger i retningerne for maksimal varians, hvilket hjælper med at forenkle og kondensere højdimensionelle data.
De svarer direkte til egenvektorerne i et datasæts kovariansmatrix.
Den første hovedkomponent tegner sig for den højest mulige varians i dataene.
Hver efterfølgende komponent er strengt ortogonal i forhold til de foregående, hvilket sikrer nul korrelation.
De er meget afhængige af dataskalering, hvilket gør middelcentrering til et kritisk forbehandlingstrin.
Ingeniører bruger dem til at projicere højdimensionelle rum ned til lavere dimensioner, samtidig med at information bevares.
Hvad er Singulære værdier?
De diagonale indgange i en singulær værdimatrix, der repræsenterer de absolutte skaleringsfaktorer for en lineær transformation.
De beregnes som de positive kvadratrødder af egenværdierne for en matrix ganget med dens transponering.
Enhver reel matrix, uanset om den er kvadratisk eller rektangulær, besidder et unikt sæt af singulære værdier.
De er traditionelt arrangeret i faldende rækkefølge langs diagonalen af Sigma-matricen i SVD.
En singulær værdi på nul angiver, at matricen er rangdefekt eller singulær.
De kvantificerer den geometriske strækning eller forvrængning forårsaget af en lineær transformation på en enhedskugle.
Sammenligningstabel
Funktion
Hovedkomponenter
Singulære værdier
Matematisk oprindelse
Kovariansmatrixens egenvektorer
Matrixdekompositionsfaktorer (SVD)
Geometrisk fortolkning
Retninger for maksimal varians
Skaleringslængder af hovedakser
Datakrav
Kræver middelcentrerede data for statistisk betydning
Gælder for enhver vilkårlig rektangulær eller kvadratisk matrix
Forhold til egenværdier
Lig med egenværdierne for kovariansmatricen
Lig med kvadratrødderne af egenværdierne af matrixproduktet
Primær anvendelse
Dimensionsreduktion og funktionsudvinding
Matrixinversion, pseudo-invers beregning og lavrangstilnærmelse
Skalaafhængighed
Ændret væsentligt ved at flytte eller skalere data
Den iboende egenskab ved den specifikke matrix, der dekomponeres
Fysisk fortolkning
Akserne i en datasky-ellipsoide
Strækningsfaktorer for en transformeret enhedssfære
Detaljeret sammenligning
Kerndefinition og koncept
Hovedkomponenter repræsenterer de specifikke retninger, hvor data varierer mest, og fungerer som de nye akser for et optimeret koordinatsystem. I modsætning hertil er singulære værdier skalære størrelser, der afslører, hvor meget en matrix strækker eller komprimerer rummet langs disse akser. Mens den ene giver dig orienteringen af dataskyen, måler den anden størrelsen af selve transformationen.
Matematisk beregning
For traditionelt at finde hovedkomponenter skal du beregne egenvektorerne for et datasæts kovariansmatrix. Singulære værdier fremkommer fra singulær værdidekomposition, hvor enhver matrix opdeles i tre forskellige komponentmatricer. Når du centrerer dine data ved at trække middelværdien fra, er kvadratet af en singulær værdi divideret med stikprøvestørrelsen minus én perfekt lig med variansen af den pågældende hovedkomponent.
Følsomhed over for dataforbehandling
Hovedkomponenter ændrer sig dramatisk, hvis du glemmer at middelværdicentrere eller standardisere dine data, fordi statistisk varians i høj grad er afhængig af oprindelsespunktet og variabelskalaer. Singulære værdier er imidlertid en fundamental algebraisk egenskab ved den givne råmatrix. De er ligeglade med statistiske antagelser, medmindre brugeren bevidst først opbygger en centreret kovarianslignende matrix.
Praktiske anvendelser i industrien
Dataanalytikere bruger hovedkomponenter til at visualisere komplekse, højdimensionelle datasæt på simple todimensionelle plots. På den anden side bruger computer vision-ingeniører singulære værdier til billedkomprimering og anbefalingssystemer via lavrangsmatrixapproksimationer. SVD er faktisk den foretrukne numeriske motor bag PCA, fordi beregning af singulære værdier undgår det præcisionstab, der opstår, når man bygger en kovariansmatrix.
Fordele og ulemper
Hovedkomponenter
Fordele
+Fremragende til datavisualisering
+Eliminerer multikollinearitet
+Reducerer støj effektivt
+Forenkler maskinlæringsmodeller
Indstillinger
−Mangler direkte fysisk betydning
−Meget følsom over for outliers
−Kræver streng forbehandling
−Informationstab opstår
Singulære værdier
Fordele
+Fungerer på enhver matrix
+Numerisk meget stabil
+Perfekt til lavrangsapproksimation
+Afslører matrixrangering øjeblikkeligt
Indstillinger
−Abstrakt matematisk begreb
−Beregningsmæssigt dyrt for enorme matricer
−Mangler iboende statistisk kontekst
−Fortolkning kræver lineær algebra
Almindelige misforståelser
Myte
Hovedkomponenter og singulære værdier er fuldstændig uafhængige begreber.
Virkelighed
De er dybt sammenflettet gennem datacentrering. Når en datamatrix får sit gennemsnit fratrukket, er dens singulære værdier direkte proportionale med kvadratrødderne af varianserne langs hovedkomponenterne.
Myte
Du skal altid beregne kovariansmatricen for at finde hovedkomponenterne.
Virkelighed
Moderne software beregner sjældent kovariansmatricen, fordi den introducerer numeriske afrundingsfejl. I stedet kører algoritmer SVD direkte på datamatricen og udtrækker hovedkomponenterne langt mere sikkert og effektivt.
Myte
Singulære værdier kan være negative, hvis dataene viser negativ korrelation.
Virkelighed
Singulære værdier er per definition de positive kvadratrødder af egenværdier fra en symmetrisk matrix. De er altid ikke-negative reelle tal, der repræsenterer længder eller strækningsfaktorer, uanset korrelationerne i de oprindelige data.
Myte
Tilføjelse af en konstant værdi til alle datapunkter ændrer både singulære værdier og hovedkomponenter lige meget.
Virkelighed
Forskydning af data med en konstant ændrer singulære værdier, fordi de rå matrixindtastninger ændrer sig. Men fordi hovedkomponenterne er afhængige af kovariansmatricen, som i sagens natur subtraherer middelværdien, forbliver hovedkomponenterne fuldstændig uændrede ved at forskyde dataene.
Myte
Den første hovedkomponent indfanger altid alle de værdifulde oplysninger.
Virkelighed
Den første komponent indfanger kun den maksimale varians langs en enkelt akse. Hvis dine data er sfærisk fordelt eller indeholder kritiske ikke-lineære mønstre, kan en enkelt lineær komponent muligvis overse de vigtigste strukturer helt.
Ofte stillede spørgsmål
Hvordan konverterer man en singulær værdi til en principalkomponents varians?
Hvis du har en middelcentreret datamatrix med et givet antal stikprøver, kvadrerer du singularværdien og dividerer den med stikprøvestørrelsen minus én. Denne matematiske operation giver den nøjagtige egenværdi af kovariansmatricen, som repræsenterer den varians, der er fanget af den specifikke hovedkomponent.
Kan man udføre PCA uden at bruge SVD?
Ja, du kan finde hovedkomponenter ved eksplicit at beregne kovariansmatricen og derefter finde dens egenvektorer via klassisk egendekomposition. Denne tilgang er dog numerisk mindre stabil og mere tilbøjelig til flydende kommafejl end SVD-metoden, hvilket er grunden til, at SVD er industristandarden.
Hvorfor er datacentrering så vigtig for hovedkomponenter?
PCA sigter mod at maksimere variansen omkring midten af dataskyen. Hvis du ikke flytter datamiddelværdien til origo, vil den første hovedkomponent blot pege fra origo mod midten af dataklyngen og ikke indfange den interne geometriske struktur af variansen.
Hvad sker der, hvis en matrix har en singulær værdi på nul?
En singulær værdi på nul betyder, at matricen er rangdeficient og ikke kan inverteres. Geometrisk set indebærer det, at den lineære transformation presser mindst én dimension helt flad, hvilket kollapser et volumen til et plan eller en linje.
Er hovedkomponenter de samme som egenvektorer?
De er tæt beslægtede, men forskellige i terminologi. Hovedkomponenterne er de faktiske projicerede datapunkter langs de nye akser, selvom mange praktikere i daglig tale bruger udtrykket til at henvise til hovedretningerne, som faktisk er egenvektorerne for kovariansmatricen.
Hvilken er bedst til billedkomprimering, PCA eller SVD?
SVD foretrækkes generelt og er mere direkte til billedkomprimering gennem en teknik kaldet lavrangstilnærmelse. Da et billede allerede er en struktureret matrix af pixels snarere end en statistisk stikprøve af uafhængige observationer, afkorter SVD de mindst signifikante singulære værdier for problemfrit at reducere filstørrelsen.
Hvor mange hovedkomponenter skal jeg have i en model?
En almindelig tilgang er at se på et scree plot eller beregne den kumulative forklarede varians ved hjælp af de singulære værdier. De fleste data scientists sigter mod at bevare nok komponenter til at indfange 80% til 95% af den samlede varians, afhængigt af støjniveauet i det specifikke projekt.
Ændres singulære værdier, hvis man transponerer matricen?
Nej, transponering af en matrix ændrer ikke dens singulære værdier. De singulære værdier, der ikke er nul, for en matrix og dens transponering forbliver fuldstændig identiske, fordi egenværdierne for deres respektive krydsproduktmatricer er nøjagtig de samme.
Hvad er forskellen mellem en egenværdi og en singulær værdi?
Egenværdier er kun defineret for kvadratiske matricer og kan være komplekse tal, der repræsenterer, hvordan en vektor skalerer uden at ændre retning. Singulære værdier gælder for enhver matrix, er altid reelle og ikke-negative og repræsenterer den maksimale strækning af en enhedssfære under en transformation.
Dommen
Vælg hovedkomponenter, når dit primære mål er at fortolke, visualisere eller reducere funktionerne i et statistisk datasæt baseret på varians. Vælg singulære værdier, når du skal løse lineære systemer, komprimere matricer eller udføre stabile numeriske beregninger uden at bekymre dig om statistisk forbehandling.