Šiame palyginime nagrinėjama, kaip funkcijų inžinerija ir pasiskirstymo prielaidos formuoja duomenų analizę. Nors funkcijų inžinerija aktyviai transformuoja duomenis į informatyvius kintamuosius, siekdama pagerinti modelio mokymąsi, pasiskirstymo prielaidos sudaro struktūrinį pagrindą, kaip elgiasi duomenys, ir lemia tinkamų statistinių algoritmų pasirinkimą.
Akcentai
Funkcijų inžinerija keičia duomenų formatą, o paskirstymo prielaidos įvertina duomenų pobūdį.
Naujų funkcijų kūrimas priklauso nuo žmogaus kūrybiškumo, o prielaidų tikrinimas – nuo griežtos matematikos.
Galite naudoti funkcijų inžineriją, kad ištaisytumėte duomenis, kurie neatitinka paskirstymo prielaidų.
Medžių modeliai ignoruoja pasiskirstymo apribojimus, tačiau klesti esant gerai sukonstruotiems įvesties duomenims.
Kas yra Funkcijų inžinerija?
Kūrybinis ir iteracinis kintamųjų išgavimo, atrankos ir keitimo procesas, siekiant pagerinti prognozuojamojo modelio našumą.
Tai veikia kaip kūrybinis tiltas tarp neapdorotų duomenų kintamųjų ir konkrečių prognozavimo modelių reikalavimų.
Įprasti metodai apima matematines transformacijas, kategorinio teksto vienkartinį kodavimą ir sąveikos terminų kūrimą.
Gerai sukonstruoti kintamieji gali leisti paprastiems parametriniams algoritmams pranokti labai sudėtingus netiesinius modelius.
Šis procesas labai priklauso nuo konkrečios pramonės ar srities patirties, siekiant atskleisti paslėptus duomenų ryšius.
Jis tiesiogiai tvarko realaus pasaulio duomenų rinkinių trūkumus, tokius kaip trūkstama informacija, kraštutiniai išskirtinumai ir labai iškreiptos duomenų struktūros.
Kas yra Pasiskirstymo prielaidos?
Pagrindinės matematinės prielaidos apie tai, kaip duomenų taškai yra paskirstyti, struktūrizuoti ir įvairūs visoje populiacijoje.
Jie sudaro matematinį pagrindą klasikiniams statistiniams testams ir daugeliui tradicinių parametrinių algoritmų.
Gauso arba įprastos varpo kreivės pasiskirstymo profilis analitikoje yra dažniausiai imamasi.
Pažeidus šias pagrindines savybes, modeliai gali generuoti šališkus parametrus ir neteisingas prognozes.
Jie padeda analitikams pasirinkti optimalias nuostolių funkcijas ir patikimai kiekybiškai įvertinti pagrindinį prognozavimo neapibrėžtumą.
Neparametriniai algoritmai egzistuoja specialiai tam, kad apeitų griežtas struktūrines prielaidas, kai duomenų modeliai yra nenuspėjami.
Palyginimo lentelė
Funkcija
Funkcijų inžinerija
Pasiskirstymo prielaidos
Pagrindinis tikslas
Padidinkite modelio tikslumą optimizuodami įvestis
Funkcijų inžinerija užima aktyvią, praktinę poziciją duomenų rengimo srityje, visą dėmesį skirdama neapdorotų stulpelių pertvarkymui, kad būtų atskleisti labiausiai nuspėjami signalai. Visiškai priešingai, pasiskirstymo prielaidos yra refleksyvus, diagnostinis etapas, kurio metu įvertinama, ar jūsų duomenys natūraliai atitinka konkrečias tikimybines taisykles. Viena yra apie realybės keitimą, kad viskas veiktų geriau, o kita - apie struktūrinių apribojimų supratimą prieš pasirenkant įrankį.
Darbo eigos tarpusavio priklausomybė
Šios dvi sąvokos dažnai veikia grįžtamojo ryšio cikle, o ne visiškai atskirai. Kai pastebite, kad jūsų duomenys pažeidžia svarbias paskirstymo prielaidas, įprastai naudojate funkcijų inžinerijos metodus, pvz., žurnalų transformacijas, kad duomenys vėl atitiktų reikalavimus. Norint išspręsti paskirstymo problemą, dažnai reikia sukurti visiškai naują funkcijų reprezentaciją.
Algoritmų suderinamumas
Tradiciniai statistiniai metodai ir tiesiniai algoritmai, kad veiktų patikimai, visiškai priklauso nuo tikslių pasiskirstymo prielaidų. Kita vertus, šiuolaikiniai medžiais pagrįsti algoritmai iš esmės ignoruoja duomenų formas, tačiau išlieka labai priklausomi nuo išmaniosios objektų inžinerijos, kad užfiksuotų sudėtingus, laiko pagrindu veikiančius ar reliacinius modelius. Jūsų pasirinktas modelis lemia, į kurią iš šių dviejų sąvokų reikia nedelsiant atkreipti dėmesį.
Realaus pasaulio netobulumų valdymas
Funkcijų inžinerija suteikia taktinį įrankių rinkinį, reikalingą kovai su duomenų triukšmu, trūkstamų verčių valdymu ir mastelio keitimo problemomis. Pasiskirstymo prielaidos veikia kaip ankstyvojo perspėjimo sistema, leidžianti žinoti, kada šie trūkumai tampa pakankamai dideli, kad sugriauna jūsų matematinius pagrindus. Kartu jos užtikrina, kad jūsų analitinis procesas būtų tikslus ir teoriškai pagrįstas.
Privalumai ir trūkumai
Funkcijų inžinerija
Privalumai
+Maksimaliai padidina modelio nuspėjamąjį tikslumą
+Atskleidžia labai sudėtingus ryšius
+Pritaiko duomenis konkrečioms užduotims
Pasirinkta
−Labai daug laiko reikalaujantis procesas
−Duomenų nutekėjimo rizika
−Reikalingas gilus srities išmanymas
Pasiskirstymo prielaidos
Privalumai
+Užtikrina struktūrinio modelio validumą
+Suteikia aiškų matematinį tikrumą
+Supaprastina modeliavimo procesą
Pasirinkta
−Tikri duomenys retai kada sutampa
−Pernelyg griežtas šiuolaikiniam ML
−Apriboja algoritmo pasirinkimo galimybes
Dažni klaidingi įsitikinimai
Mitas
Pažangūs mašininio mokymosi algoritmai visiškai pasenino paskirstymo prielaidas.
Realybė
Nors neuroniniai tinklai ir gradientu sustiprinti medžiai tvarkingai tvarko netiesines duomenų struktūras, duomenų pasiskirstymo ignoravimas vis tiek gali sukelti didelių problemų. Prastų nuostolių funkcijų pasirinkimas arba tikslinių kintamųjų klaidingas supratimas dažnai kyla tiesiogiai dėl pagrindinių tikimybių kreivių ignoravimo.
Mitas
Automatizuoti funkcijų inžinerijos įrankiai gali visiškai pakeisti žmonių duomenų analitikus.
Realybė
Automatizuoti įrankiai puikiai atlieka matematines operacijas, tokias kaip mastelio keitimas, laipsninės transformacijos ir pagrindiniai deriniai. Tačiau jiems trūksta kontekstinės verslo logikos, reikalingos prasmingiems rodikliams sukurti iš sudėtingų sričių sąveikų.
Mitas
Prieš paleidžiant bet kokį regresinį modelį, duomenys visada turi atrodyti visiškai normalūs.
Realybė
Tiesinei regresijai reikia, kad tik modelio liekanos būtų normaliai pasiskirstiusios, o ne pačios prognozuojamosios kintamosios. Į modelį galite saugiai perduoti labai iškreiptas savybes, jei gautos paklaidos išlieka subalansuotos.
Mitas
Daugiau inžinerinių funkcijų visada lems geresnį modelio našumą.
Realybė
Algoritmo užtvindymas per dideliais kintamaisiais sukelia didelį triukšmą ir perteklinį pritaikymą. Kruopštus kintamųjų pasirinkimas ir apkarpymas yra tokie pat svarbūs, kaip ir naujų kintamųjų kūrimas.
Dažnai užduodami klausimai
Kaip ištaisyti funkciją, kuri visiškai pažeidžia normalumo prielaidas?
Patikimiausias sprendimas – matematinių laipsninių transformacijų taikymas tiesiogiai asimetriškam kintamajam. Logaritminė transformacija puikiai tinka į dešinę asimetriškiems duomenims su ilgomis uodegomis, o Box-Cox arba Yeo-Johnson transformacijos gali sistemingai rasti optimalų laipsnio rodiklį, kad automatiškai subalansuotų jūsų skirstinį.
Ar bloga funkcijų inžinerija gali netyčia sugadinti mano duomenų paskirstymą?
Taip, neapgalvotos transformacijos gali lengvai paversti švarius duomenis modeliavimo košmaru. Pavyzdžiui, tolydžiųjų kintamųjų suskirstymas į savavališkas kategorijas panaikina smulkiagrūdį dispersiją ir sukuria dirbtinius vienodus blokus, kurie panaikina realaus pasaulio statistinius niuansus.
Kodėl medžiais pagrįsti modeliai ignoruoja duomenų pasiskirstymo prielaidas?
Medžiais pagrįsti algoritmai remiasi dvejetainiais skaidymais, pagrįstais reikšmių ribomis, o ne apskaičiuotomis matricų daugybomis ar atstumo formulėmis. Kadangi jie atsižvelgia į rango tvarką, o ne į erdvinį atstumą, skirstinio formos ištempimas ar suspaudimas nekeičia skaidymų nustatymo būdo.
Kas nutiks, jei diegsiu parametrinį modelį nepatvirtinęs prielaidų?
Modelis vis tiek pateiks skaičius, tačiau jūsų pasikliautinieji intervalai, p reikšmės ir paklaidų metrikos bus iš esmės sugadintos. Dėl to prognozės dažnai būna pernelyg patikimos, koeficientai šališki, o modelis, susidūręs su naujais gamybiniais duomenimis, gali sugesti.
Ar duomenų normalizavimas yra funkcijų inžinerijos ar prielaidų tikrinimo dalis?
Duomenų normalizavimas yra pagrindinis funkcijų inžinerijos veiksmas, atliekamas siekiant transformuoti kintamuosius į bendrą skalę. Šį veiksmą atliekate, kad optimizavimo algoritmai greičiau konverguotų arba atitiktų atstumu pagrįstų modelių veikimo mechanikos reikalavimus.
Kaip trūkstamos vertės veikia pasiskirstymo prielaidas?
Trūkstamos vertės iškreipia suvokiamą duomenų formą, nes trūkstami taškai retai kada atsitiktinai praleidžiami. Jų visiškai pašalinimas arba naiviai priskirtų taškų naudojimas histogramose gali sukelti dirbtinius šuolius, kurie užmaskuoja tikrąjį pagrindinį skirtumą.
Kuris metodas yra svarbesnis dirbant su mažais duomenų rinkiniais?
Pasiskirstymo prielaidų patikrinimas yra nepaprastai svarbus mažiems duomenų rinkiniams, nes trūksta duomenų kiekio, kad būtų galima išlyginti struktūrinių klaidų vidurkį. Mažose imtyse vienas neištaisytas pažeidimas arba didelis nuokrypis gali visiškai iškreipti modelio parametrus.
Kuo skiriasi duomenų išankstinis apdorojimas ir funkcijų inžinerija?
Duomenų išankstinis apdorojimas sutelktas į neapdorotų duomenų valymą atliekant tokias užduotis kaip pasikartojančių duomenų pašalinimas, klaidų taisymas ir trūkstamų reikšmių užpildymas. Funkcijų inžinerija žengia dar vieną žingsnį, aktyviai kurdama naujus atvaizdavimus, kad jūsų modelis gautų aiškesnį mokymosi signalą.
Nuosprendis
Rinkitės funkcijų inžineriją, kai jūsų tikslas yra maksimaliai padidinti grynąją prognozavimo galią įvairiuose mašininio mokymosi modeliuose, kurie gali toleruoti lanksčias duomenų formas. Kurdami aiškinamuosius modelius, atlikdami oficialius mokslinius bandymus arba diegdami tradicinius parametrinius algoritmus, kur teorinis pagrįstumas yra būtinas, daugiausia dėmesio skirkite pasiskirstymo prielaidų tikrinimui.