matematikapodatkovna znanostlinearna algebrastrojno učenje
Glavne komponente v primerjavi s singularnimi vrednostmi
Čeprav se znanstveniki, ki se ukvarjajo s podatki, pri zmanjševanju dimenzionalnosti pogosto srečujejo z obema izrazoma, glavne komponente opisujejo smeri največje variance v naboru podatkov, medtem ko singularne vrednosti merijo velikost skaliranja vzdolž teh geometrijskih osi med dekompozicijo matrike. Razumevanje njunega matematičnega mostu je bistveno za obvladovanje algoritmov, kot sta PCA in SVD.
Poudarki
Glavne komponente določajo prostorsko usmerjenost variance podatkov, medtem ko singularne vrednosti narekujejo lestvico.
Neposreden matematični most jih povezuje le, če je osnovna podatkovna matrika pravilno centrirana glede na povprečje.
SVD izračuna singularne vrednosti neposredno, kar zagotavlja veliko bolj numerično stabilno pot do iskanja glavnih komponent.
Glavne komponente morajo biti med seboj ortogonalne, medtem ko so singularne vrednosti strogo nenegativna realna števila.
Kaj je Glavne komponente?
Ortogonalni vektorji, ki kažejo v smeri največje variance, pomagajo poenostaviti in zgostiti visokodimenzionalne podatke.
Neposredno ustrezajo lastnim vektorjem kovariančne matrike nabora podatkov.
Prva glavna komponenta predstavlja največjo možno varianco v podatkih.
Vsaka naslednja komponenta je strogo ortogonalna glede na prejšnje, kar zagotavlja ničelno korelacijo.
Močno so odvisni od skaliranja podatkov, zaradi česar je centriranje povprečja ključni korak predobdelave.
Inženirji jih uporabljajo za projiciranje visokodimenzionalnih prostorov navzdol v nižje dimenzije, hkrati pa ohranjajo informacije.
Kaj je Singularne vrednosti?
Diagonalni elementi matrike singularnih vrednosti, ki predstavljajo absolutne faktorje skaliranja linearne transformacije.
Izračunajo se kot pozitivni kvadratni koreni lastnih vrednosti matrike, pomnoženi z njeno transpozicijo.
Vsaka realna matrika, ne glede na to, ali je kvadratna ali pravokotna, ima edinstven nabor singularnih vrednosti.
Običajno so razporejeni v padajočem vrstnem redu vzdolž diagonale matrike Sigma v SVD.
Singularna vrednost nič pomeni, da ima matrika pomanjkljiv rang ali je singularna.
Kvantificirajo geometrijsko raztezanje ali popačenje, ki ga povzroči linearna transformacija na enotski krogli.
Primerjalna tabela
Funkcija
Glavne komponente
Singularne vrednosti
Matematični izvor
Lastni vektorji kovariančne matrike
Faktorji matrične dekompozicije (SVD)
Geometrična interpretacija
Smeri največje variance
Dolžine skaliranja glavnih osi
Zahteva glede podatkov
Za statistični pomen so potrebni podatki, osredotočeni na povprečje
Velja za katero koli poljubno pravokotno ali kvadratno matriko
Razmerje do lastnih vrednosti
Enako lastnim vrednostim kovariančne matrike
Enako kvadratnim korenom lastnih vrednosti produkta matrik
Primarna uporaba
Zmanjšanje dimenzionalnosti in ekstrakcija značilnosti
Inverzija matrik, psevdoinverzni izračun in aproksimacija nizkega ranga
Odvisnost od obsega
Znatno spremenjeno zaradi premikanja ali skaliranja podatkov
Inherentna lastnost specifične matrike, ki se razgrajuje
Fizična interpretacija
Osi elipsoida podatkovnega oblaka
Faktorji raztezanja transformirane enotske krogle
Podrobna primerjava
Osnovna definicija in koncept
Glavne komponente predstavljajo specifične smeri, kjer se podatki najbolj spreminjajo, in delujejo kot nove osi za optimiziran koordinatni sistem. Singularne vrednosti pa so skalarne količine, ki razkrivajo, koliko matrika razteza ali stisne prostor vzdolž teh osi. Medtem ko ena poda orientacijo podatkovnega oblaka, druga meri velikost same transformacije.
Matematični izračun
Za tradicionalno iskanje glavnih komponent morate izračunati lastne vektorje kovariančne matrike nabora podatkov. Singularne vrednosti izhajajo iz dekompozicije singularnih vrednosti, kjer se katera koli matrika razdeli na tri različne komponentne matrike. Ko podatke centrirate z odštevanjem povprečja, je kvadrat singularne vrednosti, deljen z velikostjo vzorca minus ena, popolnoma enak varianci te glavne komponente.
Občutljivost na predobdelavo podatkov
Glavne komponente se dramatično spremenijo, če pozabite na centriranje povprečja ali standardizacijo podatkov, ker je statistična varianca močno odvisna od izhodišča in lestvice spremenljivk. Singularne vrednosti pa so temeljna algebrska lastnost podane surove matrike. Statistične predpostavke jih ne zanimajo, razen če uporabnik najprej namerno zgradi centrirano matriko, podobno kovarianci.
Praktična uporaba v industriji
Analitiki podatkov se za vizualizacijo kompleksnih, visokodimenzionalnih naborov podatkov na preprostih dvodimenzionalnih grafih zanašajo na glavne komponente. Po drugi strani pa inženirji računalniškega vida uporabljajo singularne vrednosti za stiskanje slik in sisteme priporočil prek aproksimacije matrik nizkega ranga. SVD je pravzaprav prednostni numerični mehanizem za PCA, ker se z izračunom singularnih vrednosti izognemo izgubi natančnosti, ki nastane pri gradnji kovariančne matrike.
Prednosti in slabosti
Glavne komponente
Prednosti
+Odlično za vizualizacijo podatkov
+Odpravlja multikolinearnost
+Učinkovito zmanjšuje hrup
+Poenostavlja modele strojnega učenja
Vse
−Nima neposrednega fizičnega pomena
−Zelo občutljivi na izstopajoče vrednosti
−Zahteva strogo predobdelavo
−Pride do izgube informacij
Singularne vrednosti
Prednosti
+Deluje na kateri koli matriki
+Številčno zelo stabilna
+Idealno za aproksimacijo nizkega ranga
+Takoj razkrije rang matrike
Vse
−Abstraktni matematični koncept
−Računalniško drago za ogromne matrike
−Manjka inherentni statistični kontekst
−Interpretacija zahteva linearno algebro
Pogoste zablode
Mit
Glavne komponente in singularne vrednosti so popolnoma neodvisni koncepti.
Resničnost
Tesno so prepletene s centriranjem podatkov. Ko se podatkovni matriki odšteje povprečje, so njene singularne vrednosti neposredno sorazmerne s kvadratnimi koreni varianc vzdolž glavnih komponent.
Mit
Za iskanje glavnih komponent morate vedno izračunati kovariančno matriko.
Resničnost
Sodobna programska oprema redko izračuna kovariančno matriko, ker to povzroča numerične napake zaokroževanja. Namesto tega algoritmi izvajajo SVD neposredno na podatkovni matriki in tako veliko varneje in učinkoviteje izluščijo glavne komponente.
Mit
Singularne vrednosti so lahko negativne, če podatki kažejo negativno korelacijo.
Resničnost
Singularne vrednosti so po definiciji pozitivni kvadratni koreni lastnih vrednosti iz simetrične matrike. Vedno so nenegativna realna števila, ki predstavljajo dolžine ali faktorje raztezanja, ne glede na korelacije v izvirnih podatkih.
Mit
Če vsem podatkovnim točkam dodamo konstantno vrednost, se singularne vrednosti in glavne komponente spremenijo enako.
Resničnost
Premik podatkov za konstanto spremeni singularne vrednosti, ker se spremenijo surovi vnosi v matriki. Ker pa glavne komponente temeljijo na kovariančni matriki, ki sama po sebi odšteje povprečje, premik podatkov pusti glavne komponente popolnoma nespremenjene.
Mit
Prva glavna komponenta vedno zajame vse dragocene informacije.
Resničnost
Prva komponenta zajame le največjo varianco vzdolž ene same osi. Če so vaši podatki porazdeljeni sferično ali vsebujejo kritične nelinearne vzorce, lahko ena sama linearna komponenta v celoti zgreši najpomembnejše strukture.
Pogosto zastavljena vprašanja
Kako pretvorimo singularno vrednost v varianco glavne komponente?
Če imate podatkovno matriko s centriranim povprečjem in danim številom vzorcev, kvadrirate singularno vrednost in jo delite z velikostjo vzorca minus ena. Ta matematična operacija vam da natančno lastno vrednost kovariančne matrike, ki predstavlja varianco, ki jo zajame ta specifična glavna komponenta.
Ali lahko izvedem PCA brez uporabe SVD?
Da, glavne komponente lahko najdete tako, da eksplicitno izračunate kovariančno matriko in nato poiščete njene lastne vektorje s klasično dekompozicijo lastnih vektorjev. Vendar je ta pristop numerično manj stabilen in bolj nagnjen k napakam s plavajočo vejico kot metoda SVD, zato je SVD industrijski standard.
Zakaj je podatkovno osredotočanje tako pomembno za glavne komponente?
PCA si prizadeva maksimizirati varianco okoli središča podatkovnega oblaka. Če povprečja podatkov ne premaknete proti izhodišču, bo prva glavna komponenta preprosto kazala od izhodišča proti središču podatkovne gruče in ne bo zajela notranje geometrijske strukture variance.
Kaj se zgodi, če ima matrika singularno vrednost nič?
Ničelna singularna vrednost pomeni, da ima matrika pomanjkljiv rang in je ni mogoče invertirati. Geometrijsko to pomeni, da linearna transformacija stisne vsaj eno dimenzijo popolnoma splošči in tako zruši volumen v ravnino ali črto.
Ali so glavne komponente enake lastnim vektorjem?
Sta tesno povezani, vendar se terminološko razlikujeta. Glavne komponente so dejanske projicirane podatkovne točke vzdolž novih osi, čeprav mnogi praktiki pogovorno uporabljajo izraz za glavne smeri, ki so dejansko lastni vektorji kovariančne matrike.
Kaj je boljše za stiskanje slik, PCA ali SVD?
SVD je na splošno bolj priljubljen in neposreden za stiskanje slik s tehniko, imenovano aproksimacija nizkega ranga. Ker je slika že strukturirana matrika slikovnih pik in ne statistični vzorec neodvisnih opazovanj, SVD skrajša najmanj pomembne singularne vrednosti, da neopazno zmanjša velikost datoteke.
Koliko glavnih komponent naj imam v modelu?
Pogost pristop je pogled na melišče ali izračun kumulativne pojasnjene variance z uporabo singularnih vrednosti. Večina podatkovnih znanstvenikov si prizadeva ohraniti dovolj komponent, da zajame od 80 % do 95 % celotne variance, odvisno od ravni šuma posameznega projekta.
Ali se singularne vrednosti spremenijo, če transponiramo matriko?
Ne, transpozicija matrike ne spremeni njenih singularnih vrednosti. Neničelne singularne vrednosti matrike in njene transpozicije ostanejo popolnoma enake, ker so lastne vrednosti njunih vektorskih produktov matrik popolnoma enake.
Kakšna je razlika med lastno vrednostjo in singularno vrednostjo?
Lastne vrednosti so definirane samo za kvadratne matrike in so lahko kompleksna števila, ki predstavljajo, kako se vektor skalira brez spreminjanja smeri. Singularne vrednosti veljajo za katero koli matriko, so vedno realne in nenegativne ter predstavljajo največje raztezanje enotske krogle pri transformaciji.
Ocena
Glavne komponente izberite, kadar je vaš primarni cilj interpretacija, vizualizacija ali redukcija značilnosti statističnega nabora podatkov na podlagi variance. Singularne vrednosti izberite, kadar morate reševati linearne sisteme, stiskati matrike ali izvajati stabilne numerične izračune, ne da bi vas skrbela statistična predobdelava.