Funkciju inženierijas un izplatīšanas pieņēmumu salīdzinājums
Šajā salīdzinājumā tiek pētīts, kā iezīmju inženierija un sadalījuma pieņēmumi ietekmē datu analīzi. Lai gan iezīmju inženierija aktīvi pārveido datus informatīvos mainīgajos, lai uzlabotu modeļa apguvi, sadalījuma pieņēmumi veido strukturālo pamatu attiecībā uz to, kā dati darbojas, vadot atbilstošu statistikas algoritmu izvēli.
Iezīmes
Funkciju inženierija maina datu formātu, savukārt izplatības pieņēmumi novērtē datu raksturu.
Jaunu funkciju izstrāde balstās uz cilvēka radošumu, savukārt pieņēmumu pārbaude balstās uz stingru matemātiku.
Funkciju inženieriju var izmantot, lai labotu datus, kas neatbilst sadalījuma pieņēmumiem.
Koku modeļi ignorē sadalījuma ierobežojumus, bet plaukst, izmantojot labi izstrādātus ievades datus.
Kas ir Funkciju inženierija?
Radošs un iteratīvs mainīgo iegūšanas, atlases un mainīšanas process, lai uzlabotu paredzošā modeļa veiktspēju.
Tas darbojas kā radošs tilts starp neapstrādātu datu mainīgajiem un prognozējošo modeļu īpašajām prasībām.
Izplatītākās metodes ietver matemātiskas transformācijas, kategoriska teksta vienreizēju kodēšanu un mijiedarbības terminu izveidi.
Labi izstrādāti mainīgie var ļaut vienkāršiem parametriem algoritmiem pārspēt ļoti sarežģītus nelineārus modeļus.
Šis process lielā mērā balstās uz konkrētu nozares vai jomas pieredzi, lai atklātu slēptas datu attiecības.
Tas tieši apstrādā reālās pasaules datu kopu trūkumus, piemēram, trūkstošu informāciju, ārkārtējas novirzes un ļoti sagrozītas datu struktūras.
Kas ir Sadalījuma pieņēmumi?
Pamatmatemātiskie pieņēmumi par to, kā datu punkti tiek izkliedēti, strukturēti un mainīti visā populācijā.
Tie veido matemātisko pamatu klasiskajiem statistikas testiem un daudziem tradicionālajiem parametriskajiem algoritmiem.
Gausa jeb normālā zvana līkne ir analītikā visbiežāk pieņemtais sadalījuma profils.
Šo pamatīpašību pārkāpšana var izraisīt modeļu neobjektīvu parametru ģenerēšanu un nepareizas prognozes.
Tie palīdz analītiķiem izvēlēties optimālas zaudējumu funkcijas un ticami kvantificēt pamatā esošo prognozēšanas nenoteiktību.
Neparametriskie algoritmi pastāv īpaši, lai apietu stingrus strukturālus priekšnoteikumus, ja datu modeļi ir neparedzami.
Salīdzinājuma tabula
Funkcija
Funkciju inženierija
Sadalījuma pieņēmumi
Galvenais mērķis
Uzlabojiet modeļa precizitāti, optimizējot ievades datus
Nodrošināt strukturālas aizsargbarjeras algoritma derīgumam
Procesa raksturs
Aktīvs, empīrisks un ļoti iteratīvs
Teorētiskais, analītiskais un diagnostiskais
Atkarība
Liela atkarība no nozares zināšanām
Liela paļaušanās uz varbūtību teoriju
Primārais fokuss
Atsevišķas kolonnas un datu attēlojumi
Datu punktu kolektīvā forma un izplatība
Automatizācijas līmenis
Grūti pilnībā automatizēt bez konteksta
Viegli pārbaudāms ar automatizētiem statistikas testiem
Neveiksmes ietekme
Zem optimālas precizitātes un neatbildēti modeļi
Nepareizi statistikas secinājumi un augsta neobjektivitāte
Funkciju inženierija ieņem aktīvu, praktisku nostāju datu sagatavošanā, pilnībā koncentrējoties uz neapstrādātu kolonnu pārveidošanu, lai atklātu visprognozējošākos signālus. Krasi pretēji, sadalījuma pieņēmumi atspoguļo reflektīvu, diagnostisku fāzi, kurā jūs novērtējat, vai jūsu dati dabiski atbilst konkrētiem varbūtības noteikumiem. Viens ir par realitātes mainīšanu, lai lietas darbotos labāk, bet otrs ir par strukturālo ierobežojumu izpratni pirms rīka izvēles.
Darbplūsmas savstarpējā atkarība
Šie divi jēdzieni bieži darbojas atgriezeniskās saites cilpā, nevis pilnīgā izolācijā. Kad atklājat, ka jūsu dati pārkāpj svarīgus izplatīšanas pieņēmumus, jūs regulāri izmantosiet funkciju inženierijas metodes, piemēram, žurnālu transformācijas, lai datus atkal pielāgotu atbilstošiem noteikumiem. Sadalījuma problēmas risināšana bieži vien prasa pilnīgi jauna funkciju attēlojuma izstrādi.
Algoritmu saderība
Tradicionālās statistikas metodes un lineārie algoritmi, lai darbotos droši, pilnībā paļaujas uz nevainojamiem sadalījuma pieņēmumiem. No otras puses, mūsdienu uz kokiem balstīti algoritmi lielā mērā ignorē datu formas, bet joprojām ir ļoti atkarīgi no viedas iezīmju inženierijas, lai uztvertu sarežģītus, uz laiku balstītus vai relāciju modeļus. Jūsu izvēlētais modelis nosaka, kuram no šiem diviem jēdzieniem ir jāpievērš tūlītēja uzmanība.
Reālās pasaules nepilnību pārvaldīšana
Funkciju inženierija nodrošina taktisko rīku komplektu, kas nepieciešams, lai cīnītos pret trokšņainiem datiem, tieši apstrādājot trūkstošās vērtības un mērogošanas problēmas. Sadalījuma pieņēmumi kalpo kā agrīnās brīdināšanas sistēma, kas ļauj zināt, kad šīs nepilnības ir pietiekami nopietnas, lai sagrautu jūsu matemātiskos pamatus. Kopā tie nodrošina jūsu analītiskā procesa precizitāti un teorētisko pamatotību.
Priekšrocības un trūkumi
Funkciju inženierija
Iepriekšējumi
+Maksimāli palielina modeļa paredzēšanas precizitāti
+Atklāj ļoti sarežģītas attiecības
+Pielāgo datus konkrētiem uzdevumiem
Ievietots
−Ļoti laikietilpīgs process
−Datu noplūdes risks
−Nepieciešamas padziļinātas zināšanas par jomu
Sadalījuma pieņēmumi
Iepriekšējumi
+Nodrošina strukturālā modeļa derīgumu
+Nodrošina skaidru matemātisku noteiktību
+Vienkāršo modelēšanas procesu
Ievietots
−Reālie dati reti sakrīt
−Pārāk stingrs mūsdienu mašīnmācīšanās vajadzībām
−Ierobežo algoritma izvēles iespējas
Biežas maldības
Mīts
Uzlaboti mašīnmācīšanās algoritmi ir padarījuši sadalījuma pieņēmumus pilnīgi novecojušus.
Realitāte
Lai gan neironu tīkli un gradienta pastiprināti koki eleganti apstrādā nelineāras datu struktūras, datu sadalījumu ignorēšana joprojām var radīt nopietnas problēmas. Sliktu zaudējumu funkciju izvēle vai mērķa mainīgo pārpratums bieži vien ir tieši saistīts ar pamatā esošo varbūtības līkņu ignorēšanu.
Mīts
Automatizēti funkciju inženierijas rīki var pilnībā aizstāt cilvēku datu analītiķus.
Realitāte
Automatizētie rīki izceļas ar matemātiskajām darbībām, piemēram, mērogošanu, pakāpes transformācijām un pamata kombinācijām. Tomēr tiem trūkst kontekstuālās biznesa loģikas, kas nepieciešama, lai no sarežģītām domēnu mijiedarbībām izveidotu jēgpilnus rādītājus.
Mīts
Pirms jebkura regresijas modeļa palaišanas datiem vienmēr ir jāizskatās pilnīgi normāli.
Realitāte
Lineārajai regresijai ir nepieciešams tikai tas, lai modeļa atlikumi būtu normāli sadalīti, nevis paši prognozējošie mainīgie. Modelī var droši nodot ļoti sašķiebtas pazīmes, ja vien iegūtie kļūdas locekļi paliek līdzsvaroti.
Mīts
Vairāk inženiertehnisko funkciju vienmēr nodrošinās labāku modeļa veiktspēju.
Realitāte
Algoritma pārpludināšana ar pārmērīgu mainīgo skaitu rada nopietnu troksni un izraisa pārmērīgu pielāgošanu. Rūpīga atlase un atzarošana ir tikpat svarīga kā jaunu mainīgo izveide.
Bieži uzdotie jautājumi
Kā labot funkciju, kas pilnībā pārkāpj normalitātes pieņēmumus?
Visuzticamākais risinājums ietver matemātisku pakāpes transformāciju tiešu piemērošanu sašķiebtajam mainīgajam. Logaritmiskā transformācija lieliski darbojas ar datiem, kas sašķiebti pa labi un ar garām astēm, savukārt Boksa-Koksa vai Jo-Džonsona transformācijas var sistemātiski atrast optimālo eksponentu, lai automātiski līdzsvarotu sadalījumu.
Vai slikta funkciju inženierija var nejauši sabojāt manus datu sadalījumus?
Jā, neapdomīgas transformācijas var viegli pārvērst tīrus datus modelēšanas murgā. Piemēram, nepārtrauktu mainīgo apvienošana patvaļīgās kategorijās atmet smalkgraudainu dispersiju un rada mākslīgus vienādus blokus, kas atņem reālās pasaules statistiskās nianses.
Kāpēc uz kokiem balstīti modeļi ignorē datu sadalījuma pieņēmumus?
Uz kokiem balstīti algoritmi paļaujas uz bināriem sadalījumiem, kuru pamatā ir vērtību sliekšņi, nevis aprēķināti matricu reizinājumi vai attāluma formulas. Tā kā tie aplūko rangu secību, nevis telpisko attālumu, sadalījuma formas izstiepšana vai saspiešana nemaina sadalījumu noteikšanas veidu.
Kas notiek, ja es izvietoju parametrisku modeli, neapstiprinot pieņēmumus?
Modelis joprojām izvadīs skaitļus, taču jūsu ticamības intervāli, p-vērtības un kļūdu rādītāji būs principiāli bojāti. Tas bieži noved pie pārāk pārliecinošām prognozēm, neobjektīviem koeficientiem un lielas modeļa kļūmes varbūtības, saskaroties ar jauniem ražošanas datiem.
Vai datu normalizācija ir funkciju inženierijas vai pieņēmumu pārbaudes sastāvdaļa?
Datu normalizācija ir galvenā funkciju inženierijas darbība, kas tiek veikta, lai pārveidotu mainīgos koplietojamā mērogā. Šī darbība tiek veikta, lai palīdzētu optimizācijas algoritmiem ātrāk konverģēt vai lai apmierinātu attāluma modeļu darbības mehānikas prasības.
Kā trūkstošās vērtības ietekmē sadalījuma pieņēmumus?
Trūkstošās vērtības kropļo uztverto datu formu, jo trūkstošie punkti reti kad iztrūkst nejauši. To pilnīga izmešana vai naivu imputācijas metožu izmantošana var radīt mākslīgus tapas histogrammās, maskējot patieso pamatā esošo spredu.
Kura pieeja ir svarīgāka, strādājot ar maziem datu kopumiem?
Sadalījuma pieņēmumu pārbaude ir ārkārtīgi svarīga, strādājot ar nelielām datu kopām, jo trūkst datu apjoma, lai izlīdzinātu strukturālās kļūdas. Mazās izlasēs viens nekoriģēts pārkāpums vai ārkārtēja novirze var pilnībā sagrozīt modeļa parametrus.
Kāda ir atšķirība starp datu pirmapstrādi un funkciju inženieriju?
Datu pirmapstrāde koncentrējas uz neapstrādātu datu attīrīšanu, veicot tādus uzdevumus kā dublikātu noņemšana, kļūdu labošana un trūkstošo vērtību aizpildīšana. Funkciju inženierija iet soli tālāk, aktīvi veidojot jaunus attēlojumus, lai sniegtu jūsu modelim skaidrāku mācību signālu.
Spriedums
Izvēlieties funkciju inženieriju, ja jūsu mērķis ir maksimāli palielināt tīro paredzēšanas jaudu dažādos mašīnmācīšanās modeļos, kas var izturēt elastīgas datu formas. Veidojot skaidrojošos modeļus, veicot formālu zinātnisku testēšanu vai ieviešot tradicionālos parametriskos algoritmus, kur teorētiskā validitāte ir obligāta, galveno uzmanību pievērsiet sadalījuma pieņēmumu pārbaudei.