Datu-zientzialariek maiz erabiltzen dituzte bi terminoak dimentsio-murrizketaren inguruan, baina osagai nagusiek datu-multzo bateko bariantza maximoaren norabideak deskribatzen dituzte, eta balio singularrek, berriz, eskalatzearen magnitudea neurtzen dute ardatz geometriko horietan zehar matrizearen deskonposizioan. Haien arteko zubi matematikoa ulertzea ezinbestekoa da PCA eta SVD bezalako algoritmoak menperatzeko.
Nabarmendunak
Osagai nagusiek datuen bariantzaren orientazio espaziala zehazten dute, eta balio singularrek eskala.
Zubi matematiko zuzen batek lotzen ditu soilik azpiko datu-matrizea behar bezala batez bestekoan zentratutakoa denean.
SVD-k balio singularrak zuzenean kalkulatzen ditu, osagai nagusiak aurkitzeko bide numerikoki askoz egonkorragoa eskainiz.
Osagai nagusiak elkarren ortogonalak izan behar dira, balio singularrak, berriz, zenbaki erreal ez-negatiboak dira.
Zer da Osagai nagusiak?
Bariantza maximoaren norabideetara seinalatzen duten bektore ortogonalak, dimentsio handiko datuak sinplifikatzen eta trinkotzen laguntzen dutenak.
Datu-multzo baten kobariantza-matrizearen bektore propioei dagozkie zuzenean.
Lehenengo osagai nagusiak datuetan ahalik eta bariantza handiena kontuan hartzen du.
Ondorengo osagai guztiak aurrekoekiko ortogonalak dira, zero korrelazioa bermatuz.
Datuen eskalatzearen mende daude neurri handi batean, eta horrek batez bestekoaren zentratzea aurreprozesatzeko urrats kritikoa bihurtzen du.
Ingeniariek dimentsio handiko espazioak dimentsio txikiagoetara proiektatzeko erabiltzen dituzte, informazioa mantenduz.
Zer da Balio Singularrak?
Balio singularreko matrize baten sarrera diagonalak, eraldaketa lineal baten eskalatze-faktore absolutuak adierazten dituztenak.
Matrize baten balio propioen erro karratu positiboen eta bere transposizioaren arteko biderketa gisa kalkulatzen dira.
Matrize erreal orok, karratua edo angeluzuzena izan, balio singular multzo bakarra du.
Ohiko moduan, SVD-n Sigma matrizearen diagonalean beheranzko ordenan antolatzen dira.
Zero balio singularrak matrizea sailkapenik gabekoa edo singularra dela adierazten du.
Esfera unitario batean eraldaketa lineal batek eragindako luzapen edo distortsio geometrikoa kuantifikatzen dute.
Konparazio Taula
Ezaugarria
Osagai nagusiak
Balio Singularrak
Jatorri matematikoa
Kobariantza matrizearen bektore propioak
Matrizearen deskonposizio (SVD) faktoreak
Interpretazio Geometrikoa
Aldakortasun maximoaren norabideak
Ardatz nagusien luzeren eskalatzea
Datuen eskakizuna
Esanahi estatistikoa lortzeko batez bestekoan zentratutako datuak behar ditu
Edozein matrize angeluzuzen edo karratu arbitrariori aplikatzen zaio
Balio propioekiko erlazioa
Kobariantza matrizearen balio propioen berdina
Matrizearen biderkaduraren balio propioen erro karratuen berdina
Aplikazio nagusia
Dimentsioen murrizketa eta ezaugarrien erauzketa
Matrizearen alderantzikatzea, pseudo-alderantzizko kalkulua eta maila baxuko hurbilketa
Eskalaren menpekotasuna
Datuak mugitu edo eskalatzeak nabarmen aldatu du
Deskonposatzen ari den matrize espezifikoaren berezko propietatea
Interpretazio fisikoa
Datu-hodei elipsoide baten ardatzak
Esfera unitario eraldatu baten luzapen faktoreak
Xehetasunak alderatzea
Oinarrizko definizioa eta kontzeptua
Osagai nagusiek datuak gehien aldatzen diren norabide espezifikoak adierazten dituzte, koordenatu-sistema optimizatu baten ardatz berri gisa jardunez. Aitzitik, balio singularrak kantitate eskalarrak dira, matrize batek ardatz horietan zehar espazioa zenbat luzatzen edo konprimitzen duen erakusten dutenak. Batek datu-hodeiaren orientazioa ematen dizun bitartean, besteak eraldaketaren magnitudea bera neurtzen du.
Kalkulu matematikoa
Tradizionalki osagai nagusiak aurkitzeko, datu-multzo baten kobariantza-matrizearen bektore propioak kalkulatu behar dituzu. Balio singularrak Balio Singularren Deskonposiziotik sortzen dira, non edozein matrize hiru osagai-matrize desberdinetan banatzen den. Datuak batez bestekoa kenduz zentratzen dituzunean, balio singular baten karratua lagin-tamainaz ken bat zatituta osagai nagusi horren bariantzaren berdina da.
Datuen aurreprozesaketarako sentikortasuna
Osagai nagusiak izugarri aldatzen dira batez bestekoan zentratzea edo datuak estandarizatzea ahazten baduzu, bariantza estatistikoa jatorri-puntuaren eta aldagai-eskalen araberakoa baita neurri handi batean. Balio singularrak, ordea, emandako matrize gordinaren oinarrizko propietate aljebraikoak dira. Ez diete axola hipotesi estatistikoei, erabiltzaileak nahita kobariantza zentratuaren antzeko matrizea eraikitzen ez badu lehenik.
Industriako aplikazio praktikoak
Datu-analistek osagai nagusietan oinarritzen dira datu-multzo konplexu eta dimentsio handikoak bi dimentsioko grafiko sinpleetan bistaratzeko. Bestalde, ikusmen artifizialeko ingeniariek balio singularrak erabiltzen dituzte irudien konpresiorako eta gomendio-sistemetarako, maila baxuko matrizeen hurbilketen bidez. SVD da, hain zuzen ere, PCAren atzean dagoen motor numeriko hobetsia, balio singularrak kalkulatzeak kobariantza-matrizea eraikitzean gertatzen den zehaztasun-galera saihesten baitu.
Abantailak eta Erabiltzailearen interfazea
Osagai nagusiak
Abantailak
+Bikaina datuak bistaratzeko
+Multikolinearitatea ezabatzen du
+Zarata eraginkortasunez murrizten du
+Makina-ikaskuntzako ereduak sinplifikatzen ditu
Erabiltzailearen interfazea
−Esanahi fisiko zuzenik ez du
−Oso sentikorra kanpoko balioekiko
−Aurreprozesaketa zorrotza behar du
−Informazio galera gertatzen da
Balio Singularrak
Abantailak
+Edozein matrizerekin funtzionatzen du
+Zenbakiz oso egonkorra
+Maila baxuko hurbilketarako aproposa
+Matrizearen maila berehala erakusten du
Erabiltzailearen interfazea
−Kontzeptu matematiko abstraktua
−Matrize erraldoietarako konputazionalki garestia
−Berezko testuinguru estatistikoa falta du
−Interpretazioak aljebra lineala behar du
Ohiko uste okerrak
Mitologia
Osagai nagusiak eta balio singularrak kontzeptu guztiz independenteak dira.
Errealitatea
Datuen zentralizazioaren bidez oso lotuta daude. Datu-matrize bati batez bestekoa kentzen zaionean, balio singularrak zuzenean proportzionalak dira osagai nagusien arteko bariantzen erro karratuekiko.
Mitologia
Beti kalkulatu behar duzu kobariantza matrizea osagai nagusiak aurkitzeko.
Errealitatea
Software modernoak gutxitan kalkulatzen du kobariantza matrizea, biribiltze-errore numerikoak sartzen dituelako. Horren ordez, algoritmoek SVD exekutatzen dute datu-matrizean zuzenean, osagai nagusiak askoz seguruago eta eraginkorrago ateraz.
Mitologia
Balio singularrak negatiboak izan daitezke datuek korrelazio negatiboa erakusten badute.
Errealitatea
Balio singularrak, definizioz, matrize simetriko bateko balio propioen erro karratu positiboak dira. Beti dira zenbaki erreal ez-negatiboak, luzerak edo luzatze-faktoreak adierazten dituztenak, jatorrizko datuetako korrelazioak kontuan hartu gabe.
Mitologia
Datu-puntu guztiei balio konstante bat gehitzeak balio singularrak eta osagai nagusiak berdin aldatzen ditu.
Errealitatea
Datuak konstante batez aldatzeak balio singularrak aldatzen ditu matrizearen sarrera gordinak aldatzen direlako. Hala ere, osagai nagusiak kobariantza matrizearen menpe daudenez, eta horrek berez batez bestekoa kentzen duenez, datuak aldatzeak osagai nagusiak erabat aldatu gabe uzten ditu.
Mitologia
Lehenengo osagai nagusiak beti jasotzen du informazio baliotsu guztia.
Errealitatea
Lehenengo osagaiak ardatz bakarreko aldakortasun maximoa soilik jasotzen du. Zure datuak esferikoki banatuta badaude edo eredu ez-lineal kritikoak badituzte, osagai lineal bakar batek egitura garrantzitsuenak erabat galdu ditzake.
Sarritan Egindako Galderak
Nola bihurtzen da balio singular bat osagai nagusi baten bariantzara?
Batez bestekoan zentratutako datu-matrizea baduzu lagin kopuru jakin batekin, balio singularra karratu eta laginaren tamaina ken batez zatitzen duzu. Eragiketa matematiko honek kobariantza-matrizearen balio propio zehatza ematen du, osagai nagusi espezifiko horrek jasotako bariantza adierazten duena.
PCA egin al daiteke SVD erabili gabe?
Bai, osagai nagusiak aurki ditzakezu kobariantza matrizea esplizituki kalkulatuz eta gero bere autobektoreak autodeskonposizio klasikoaren bidez aurkituz. Hala ere, hurbilketa hau zenbakizko aldetik ez da hain egonkorra eta puntu mugikorreko erroreetarako joera handiagoa du SVD metodoak baino, eta horregatik da SVD industriako estandarra.
Zergatik da hainbeste garrantzitsua datu-zentratzea osagai nagusientzat?
PCAren helburua datu-hodeiaren erdigunearen inguruko bariantza maximizatzea da. Datuen batez bestekoa jatorrira mugitzen ez baduzu, lehenengo osagai nagusiak jatorritik datu-klusterraren erdigunerantz seinalatuko du, bariantzaren barne-egitura geometrikoa jasotzeari utziz.
Zer gertatzen da matrize batek zero balio singularra badu?
Balio singular zero batek esan nahi du matrizea sailkapenik gabea dela eta ezin dela alderantzikatu. Geometrikoki, eraldaketa linealak gutxienez dimentsio bat guztiz laua bihurtzen duela esan nahi du, bolumen bat plano edo lerro batean tolestuz.
Osagai nagusiak bektore propioen berdinak al dira?
Estuki lotuta daude, baina terminologiaz desberdinak dira. Osagai nagusiak ardatz berrietan proiektatutako datu-puntuak dira, nahiz eta profesional askok terminoa modu kolokialean erabiltzen duten norabide nagusiak aipatzeko, eta hauek, hain zuzen ere, kobariantza-matrizearen bektore propioak dira.
Zein da hobea irudien konpresiorako, PCA ala SVD?
Oro har, SVD hobesten da eta zuzenagoa da irudien konpresiorako, maila baxuko hurbilketa izeneko teknika baten bidez. Irudia dagoeneko pixelen matrize egituratua denez, behaketa independenteen lagin estatistiko bat baino, SVD-k balio singular gutxien esanguratsuak moztu egiten ditu fitxategiaren tamaina modu leunean murrizteko.
Zenbat osagai nagusi gorde behar ditut modelo batean?
Ohiko ikuspegia da diagrama bat aztertzea edo balio singularrak erabiliz azaldutako bariantza metatua kalkulatzea. Datu-zientzialari gehienek nahiago dute bariantza osoaren % 80tik % 95era bitarteko osagaiak gordetzea, proiektu espezifikoaren zarata-mailaren arabera.
Matrizea transposatzen bada, balio singularrak aldatzen al dira?
Ez, matrize bat transposatzeak ez ditu bere balio singularrak aldatzen. Matrize baten eta bere transposatuaren balio singular ez-nuluak guztiz berdinak dira, dagokien biderkadura gurutzatuko matrizeen balio propioak berdin-berdinak direlako.
Zein da balio propio baten eta balio singular baten arteko aldea?
Balio propioak matrize karratuetarako bakarrik definitzen dira eta zenbaki konplexuak izan daitezke, bektore batek norabidea aldatu gabe nola eskalatzen den adierazten dutenak. Balio singularrak edozein matrizeari aplikatzen zaizkio, beti errealak eta ez-negatiboak dira, eta unitate-esfera baten luzapen maximoa adierazten dute transformazio baten pean.
Epaia
Aukeratu osagai nagusiak zure helburu nagusia datu-multzo estatistiko baten ezaugarriak bariantzaren arabera interpretatzea, bistaratzea edo murriztea denean. Aukeratu balio singularrak sistema linealak ebatzi, matrizeak konprimitu edo kalkulu numeriko egonkorrak egin behar dituzunean, aurreprozesamendu estatistikoaz kezkatu gabe.