datuen aurreprozesamenduadatu-analisiamakina-ikaskuntzaanalisiak
Seinaleen erauzketa kanpoko balioetatik vs. zarata iragazketa
Zarata-iragazkiak datu-multzo baten joera nagusia argitzeko maila baxuko ausazko gorabeherak kentzen dituen bitartean, muturreko balioetatik seinaleak ateratzeak muturreko datu-puntu isolatuak bilatzen ditu aktiboki, anomalia ezkutuak, sistemaren errore kritikoak edo aurrerapen baliotsuak agerian uzten dituztenak. Teknika bakoitza noiz aplikatu behar den jakiteak zure datu-informazio baliotsuenak nahi gabe alferrik galtzea eragozten dizu.
Nabarmendunak
Zarata-iragazkiak atzeko planoan dagoen txantxak kudeatzen ditu, eta kanpoko balioen erauzketak, berriz, muturreko puntu isolatuak.
Iragazkiek ia datu-puntu guztiak aldatzen dituzte apur bat, eta kanpoko tresnek puntu espezifikoak etiketatzen dituzte ikerketa sakona egiteko.
Zarata gaizki kudeatzeak modeloaren zehaztasuna kaltetzen du, baina kanpoko balioak gaizki kudeatzeak erakunde bat itsutu dezake segurtasun mehatxu kritikoen aurrean.
Zarata, oro har, neurketa akastun baten azpiproduktu bat da, eta muturreko balioek, berriz, gertaera arraro baten neurketa guztiz zehatza adieraz dezakete.
Zer da Seinaleen erauzketa kanpoko balioetatik?
Anomalia kritikoak edo ezkutuko aukerak agerian uzteko datu-puntu arraro eta muturrekoak identifikatu eta aztertzeko prozesua.
Ezarritako ereduak hausten dituzten maiztasun baxuko eta magnitude handiko datuen aldakuntzetan soilik zentratzen da.
Muturreko datu-puntuak balio handiko informazioaren eramaile nagusi gisa tratatzen ditu, sistemaren erroreen ordez.
Isolamendu-basoak, Tokiko kanpoko balioen faktorea eta Mahalanobis distantzia bezalako algoritmo espezializatuetan oinarritzen da neurri handi batean.
Finantza-iruzurraren monitorizaziorako, zibererasoen detekziorako eta gaixotasun arraroen diagnostikorako oinarri teknikoa osatzen du.
Datu-multzotik leundu beharrean, anomalia bereziak gorde eta aztertzea du helburu.
Zer da Zarata iragaztea?
Datu-multzo baten barruko joera isolatzeko ausazko eta esanahirik gabeko atzeko plano-aldaera sistematikoak kentzea.
Datuak biltzean zehar naturalki gertatzen diren maiztasun handiko eta magnitude txikiko aldaketak hartzen ditu helburu.
Joera-lerro baten inguruko gorabehera txikiek ez dutela informazio esanguratsurik suposatzen du.
Normalean leuntze matematikoko teknikak erabiltzen ditu, hala nola batez besteko mugikorrak, Kalman iragazkiak eta behe-paseko iragazkiak.
Ezinbestekoa audio grabazioak garbitzeko, IoT sentsoreen jarioak egonkortzeko eta irudi digitalen argitasuna zorrozteko.
Makina-ikaskuntzako eredu estandarren errendimendua hobetzen du, bariantza orokorra eta gehiegizko egokitzapena murriztuz.
Konparazio Taula
Ezaugarria
Seinaleen erauzketa kanpoko balioetatik
Zarata iragaztea
Helburu nagusia
Ezagutu datuen muturreko desbideratzeen artean ezkutuko egia baliotsuak
Kendu atzeko planoaren aldaera zentzugabeak joera nagusia agerian uzteko
Datuen aldakuntzaren helburua
Maiztasun baxuko, punta eta anomalia masiboak
Maiztasun handiko eta eskala txikiko ausazko gorabeherak
Desbideratzeen tratamendua
Isolatu eta sakonki ikertzen ditu
Leundu, batez bestekoa egin edo erabat ezabatzen ditu
Batez besteko mugikorra, Butterworth iragazkia, Kalman iragazkia
Erabilera Kasu Tipikoa
Kreditu txartelaren iruzurra edo ekipamenduaren matxurak antzematea
Audio edo tenperatura sentsoreen jario jarraituak egonkortzea
Aplikazio okerraren arriskua
Joera orokorrak alde batera utzita, zuhaitzek basoa ikusten ez dutelako
Aurrerapen garrantzitsuak edo abisu seinale goiztiarrak nahi gabe ezabatzea
Xehetasunak alderatzea
Helburu analitiko nagusiak
Muturreko balioetatik seinaleak ateratzeak datu-puntu arraroak eta muturrekoak identifikatzea du helburu, askotan segurtasun-urraketak edo sistemaren akatsak bezalako gertaera esanguratsuak adierazten baitituzte. Aldiz, zarata-iragazkiak datuen gorabeherak nahi gabeko zabor gisa tratatzen ditu, benetako azpiko joera ezkutatzen dutenak. Lehenengoak lasto-meta batean orratza bilatzen duen bitartean, bigarrenak lurra estaltzen duen hautsa garbitzen du besterik gabe.
Ikuspegi algoritmikoak
Zarata iragaztea normalean datu-puntuak elkartzen dituzten leuntze-funtzio matematikoetan oinarritzen da, hala nola, pasabide baxuko edo batez besteko mugikorreko iragazkiak. Muturreko balioetatik seinalea ateratzeak hurbiltasun-, dentsitate- edo zuhaitzetan oinarritutako makina-ikaskuntza erabiltzen du taldetik urrun dauden puntuak isolatzeko. Horrek esan nahi du iragazteak datuak nahasten dituela harmonia aurkitzeko, eta muturreko balioen erauzketak, berriz, datuak nahita hausten dituela matxinoak aurkitzeko.
Datuen Bolumenean eta Osotasunean duen Eragina
Zarata-iragazkiak datu-multzo osoko balioak aldatzen ditu irudi orokorra garbiagoa eta koherenteagoa izan dadin. Muturreko balioen erauzketak datu gehienak ukitu gabe uzten ditu, lagin osoaren ehuneko zati batean bakarrik fokatuz. Iragazki bat aplikatzeak berez murrizten du datu-multzoaren bariantza, eta muturreko balioen bilaketak, berriz, bariantza handia hartzen du egia aurkitzeko.
Negozio eta Balio Analitikoa
Zarata-iragazkiak balioa ematen du negozioen aurreikuspen-eredu estandarren zehaztasun prediktiboa hobetuz eta aginte-panelak irakurgarri mantenduz. Muturreko balioetatik seinalea ateratzeak balioa ematen du arrisku katastrofikoetarako edo merkatu-portaeran bat-bateko aldaketa errentagarrietarako abisu-radar gisa jardunez. Batek zure eguneroko eragiketak ondo funtzionatzen mantentzen ditu, eta besteak zure negozioa bat-bateko hondamenditik babesten du.
Abantailak eta Erabiltzailearen interfazea
Seinaleen erauzketa kanpoko balioetatik
Abantailak
+Ezkutuko mehatxu sistemikoak agerian uzten ditu
+Anomalia oso errentagarriak identifikatzen ditu
+Datu gordin bakarrak gordetzen ditu
+Iruzurren aurkako defentsa automatizatua ahalbidetzen du
Erabiltzailearen interfazea
−Alarma faltsuen arrisku handia
−Domeinuaren ezagutza sakona behar du
−Eskala handiko konputazio aldetik garestia
−Datu oso distortsionatuekin borrokak
Zarata iragaztea
Abantailak
+Datuen bistaratzea izugarri errazten du
+Eredu estandarraren prestakuntza hobetzen du
+Algoritmoetan gehiegizko egokitzapena geldiarazten du
+Matematikoki erraz zabaltzen da
Erabiltzailearen interfazea
−Benetako aurkikuntzak ezaba ditzake
−Blunt-en bat-bateko benetako munduko aldaketak
−Atalase arbitrarioak ezartzea eskatzen du
−Jatorrizko balio gordinak distortsionatzen ditu
Ohiko uste okerrak
Mitologia
Datu-multzo bateko kanpoko balio bakoitza ezabatu beharreko zarata besterik ez da.
Errealitatea
Pentsamolde honek analisi-proiektu bat hondatu dezake. Zenbait kasutan, datuak sartzeko akatsen ondorioz sortzen diren arren, asko gertaera apartekoen erregistro guztiz zehatzak dira, hala nola bezero ultra-aberats batek erosketa bat egitea edo bat-bateko sare elektrikoaren matxura, eta horiek negozio-ikuspegi izugarria eskaintzen dute.
Mitologia
Zarata iragaztea eta kanpoko balioen detekzioa funtsean aurreprozesatzeko urrats bera dira.
Errealitatea
Kontrako helburuak betetzen dituzte. Zarata-iragazkiak datu-multzo osoan modu uniformean funtzionatzen du ausazko aldakuntza txikiak isilarazteko, eta kanpoko balioen detekzioak, berriz, datu-multzo nagusia bakarrik uzten du desbideratze lokalizatu nagusiak bilatzeko.
Mitologia
Batez besteko mugikorreko iragazkia erabiltzea modu guztiz segurua da kanpoko balioak kudeatzeko.
Errealitatea
Batez besteko mugikorreko iragazki sinple bat balio muturrekoek asko distortsionatzen dute. Muturreko balio bat isolatu beharrean, batez besteko mugikorrek bere eragina inguruko datu-puntuetan zehar zabaltzen dute, bestela garbiak diren datu-errenkadak hondatuz.
Mitologia
Makina-ikaskuntzako eredu aurreratuek erraz kudeatu ditzakete datu zaratatsuak iragazi gabe.
Errealitatea
Punta-puntako modeloek ere zaborra sartzen, zaborra ateratzen araua jasaten dute. Atzeko planoan zarata gehiegi dagoenean, algoritmoak eredu guztiz fikziozkoak ikastea lortzen da, eta horrek haien zehaztasuna suntsitzen du ekoizpenean erabiltzen direnean.
Sarritan Egindako Galderak
Nola jakin dezake analista batek gorakada handi bat balio handiko balioa den ala sistemaren zarata besterik ez den?
Bien arteko bereizketak testuinguru historikoa eta baliozkotze estatistikoa konbinatzea eskatzen du. Zarata normalean espero diren mugen barruan etengabeko maiztasun handiko mugimendu gisa agertzen da, eta balio handiko balioa, berriz, muga horietatik haustura nabarmena da, beste aldagai batzuekin koherentzia logikoa mantentzen duena. Adibidez, tenperatura-sentsore batek berrogeita hamar graduko jauzia egiten badu berehala, baina inguruko sentsoreek presio-igoera bat baieztatzen badute, benetako balio kritiko baten aurrean zaude, eta ez zarata handiko akats elektriko baten aurrean.
Zarata-iragazketa muturreko balioetatik seinalea atera aurretik edo ondoren gertatzen al da?
Datu-hodi estandar batean, ia beti kudeatu beharko zenituzke kanpoko balioak zarata-iragazki zabalak aplikatu aurretik. Leuntzeko iragazki bat lehenik exekutatzen baduzu, muturreko balioak inguruko datuekin nahasteko arriskua duzu, eta horrek kanpoko balioaren sinadura berezia betiko ezabatzen du. Muturreko balioak datuak guztiz gordinak diren bitartean isolatzeak haien ezaugarri zehatzak mantentzen dituzula ziurtatzen du analisi sakonago bat egiteko.
Zer gertatzen da iruzurrak detektatzeko pentsatutako datu-multzo bati zarata-iragazkia aplikatzen badiozu nahi gabe?
Emaitzak hondamendizkoak izan daitezke segurtasunarentzat. Iruzurrezko transakzioak muturreko salbuespenak dirudite, erabiltzailearen ohiko gastu ohituretatik nabarmen aldentzen direlako. Zarata-iragazki oldarkor bat edo leuntze-algoritmo bat aldez aurretik aplikatzen baduzu, desbideratze zorrotz horiek isilaraziko dituzu, iruzurrezko gastuak eguneroko erosketa-erosketekin nahasiz eta zure detekzio-ereduak alferrikakoak bihurtuz.
Zein algoritmo dira egokienak aldagai anitzeko muturreko balioetatik seinaleak ateratzeko?
Hainbat dimentsio aldi berean lantzean, aldagai bakarreko Z puntuazio tradizionalak huts egiten dute, puntu bat normala ager baitaiteke banakako grafikoetan, baina arraroa konbinatuta dagoenean. Hori konpontzeko, garatzaileek dentsitatean oinarritutako algoritmoak erabiltzen dituzte, hala nola Tokiko Balio Ez-ohiko Faktorea, edo Isolamendu Basoak bezalako isolamenduan oinarritutako tresnak. Mahalanobis distantzia ere bikaina da hemen, puntu bat multzo nagusitik zenbat desbideratze estandar dauden neurtzen baitu, zure aldagaien arteko korrelazioak kontuan hartuta.
Gehiegi iragazteak zarata benetan kanpoko balio artifizialak sor ditzake datu-multzo batean?
Bai, gehiegizko iragazketa oldarkorrak artefaktu arraroak sar ditzake zure datuetan. Atalase zorrotzak dituzten iragazki matematiko konplexuak erabiltzen dituzunean, leuntze-prozesuak uhin artifizialak edo dei-efektuak sor ditzake datu-jarioan bat-bateko aldaketa legitimoen ondoan. Algoritmo bidez sortutako uhin hauek erraz identifika ditzakete benetako anomalia estruktural gisa, kanpoko balioak detektatzeko tresnek.
Hobe al da muturreko balioak erabat ezabatzea ala eskalatze matematikoa erabiliz eraldatzea?
Horiek kentzea azken aukera izan beharko litzateke, eta soilik muturreko balio bat akats huts bat dela frogatu dezakezunean gorde beharko zenuke, hala nola sentsore hautsi bat edo akats ortografiko bat. Datu-puntua erreala bada, askoz hobe da gordetzea eta eraldaketa ez-lineal bat erabiltzea, hala nola eskala logaritmikoa, edo muturreko balioekiko erresilienteak diren eredu estatistiko sendoetara aldatzea, hala nola zuhaitzetan oinarritutako ereduak edo erregresio kuantila.
Zergatik erabiltzen dituzte ingeniariek Kalman iragazkiak zarata murrizteko batez besteko mugikorren ordez?
Batez besteko mugikorrek denboran atzera begiratzen dute, eta horrek atzerapen nabarmena dakar zure metriketan eta bat-bateko egitura-aldaketa errealak guztiz lausotzen ditu. Kalman iragazki batek hori saihesten du bi urratseko asmatu-eta-egiaztapen begizta batean funtzionatuz: sistemaren hurrengo egoera kalkulatzen du fisikan edo joeretan oinarrituta, sarrerako neurketa zaratatsuarekin alderatzen du eta konpromiso optimoa kalkulatzen du denbora errealean, atzerapenik gabe.
Nola aldatzen du datu-bolumenak zarata eta muturreko balioei aurre egiteko dugun modua?
Datu-multzo masiboekin, zarata kudeatzea errazagoa da, ausazko gorabeherak elkar ezeztatzen baitute milioika errenkadatan metatzen direnean. Hala ere, eskala masiboak askoz konplexuagoa egiten du kanpoko balioen erauzketa; kasualitate hutsez gertaera berezi eta arraro gehiago aurkituko dituzu, eta horrek algoritmo oso eraginkorrak beharko ditu, zure zerbitzariaren azpiegitura urtu gabe linealki eskalatzeko gai direnak.
Epaia
Aukeratu zarata-iragazketa sentsore-datu nahasi eta bibratzaileak garbitu behar dituzunean edo denbora-serie kaotiko bat egonkortu behar duzunean joera norabidetsu argi bat ikusteko. Aukeratu seinalea muturreko balioetatik ateratzea finantza-iruzurrak, sistemaren hackeoak edo anomalia medikoak bezalako gertaera arraro eta arrisku handikoak bilatzen ari zarenean, non datu-puntu muturrekoa multzo osoaren zatirik baliotsuena den.