mašininis mokymasisduomenų mokslasstatistikaanalitika

Funkcijų inžinerijos ir paskirstymo prielaidos

Šiame palyginime nagrinėjama, kaip funkcijų inžinerija ir pasiskirstymo prielaidos formuoja duomenų analizę. Nors funkcijų inžinerija aktyviai transformuoja duomenis į informatyvius kintamuosius, siekdama pagerinti modelio mokymąsi, pasiskirstymo prielaidos sudaro struktūrinį pagrindą, kaip elgiasi duomenys, ir lemia tinkamų statistinių algoritmų pasirinkimą.

Akcentai

Funkcijų inžinerija keičia duomenų formatą, o paskirstymo prielaidos įvertina duomenų pobūdį.
Naujų funkcijų kūrimas priklauso nuo žmogaus kūrybiškumo, o prielaidų tikrinimas – nuo griežtos matematikos.
Galite naudoti funkcijų inžineriją, kad ištaisytumėte duomenis, kurie neatitinka paskirstymo prielaidų.
Medžių modeliai ignoruoja pasiskirstymo apribojimus, tačiau klesti esant gerai sukonstruotiems įvesties duomenims.

Kas yra Funkcijų inžinerija?

Kūrybinis ir iteracinis kintamųjų išgavimo, atrankos ir keitimo procesas, siekiant pagerinti prognozuojamojo modelio našumą.

Tai veikia kaip kūrybinis tiltas tarp neapdorotų duomenų kintamųjų ir konkrečių prognozavimo modelių reikalavimų.
Įprasti metodai apima matematines transformacijas, kategorinio teksto vienkartinį kodavimą ir sąveikos terminų kūrimą.
Gerai sukonstruoti kintamieji gali leisti paprastiems parametriniams algoritmams pranokti labai sudėtingus netiesinius modelius.
Šis procesas labai priklauso nuo konkrečios pramonės ar srities patirties, siekiant atskleisti paslėptus duomenų ryšius.
Jis tiesiogiai tvarko realaus pasaulio duomenų rinkinių trūkumus, tokius kaip trūkstama informacija, kraštutiniai išskirtinumai ir labai iškreiptos duomenų struktūros.

Kas yra Pasiskirstymo prielaidos?

Pagrindinės matematinės prielaidos apie tai, kaip duomenų taškai yra paskirstyti, struktūrizuoti ir įvairūs visoje populiacijoje.

Jie sudaro matematinį pagrindą klasikiniams statistiniams testams ir daugeliui tradicinių parametrinių algoritmų.
Gauso arba įprastos varpo kreivės pasiskirstymo profilis analitikoje yra dažniausiai imamasi.
Pažeidus šias pagrindines savybes, modeliai gali generuoti šališkus parametrus ir neteisingas prognozes.
Jie padeda analitikams pasirinkti optimalias nuostolių funkcijas ir patikimai kiekybiškai įvertinti pagrindinį prognozavimo neapibrėžtumą.
Neparametriniai algoritmai egzistuoja specialiai tam, kad apeitų griežtas struktūrines prielaidas, kai duomenų modeliai yra nenuspėjami.

Palyginimo lentelė

Funkcija	Funkcijų inžinerija	Pasiskirstymo prielaidos
Pagrindinis tikslas	Padidinkite modelio tikslumą optimizuodami įvestis	Numatykite struktūrinius algoritmo galiojimo apsauginius barjerus
Proceso pobūdis	Aktyvus, empirinis ir labai iteracinis	Teorinis, analitinis ir diagnostinis
Priklausomybė	Didelė priklausomybė nuo srities žinių	Didelė priklausomybė nuo tikimybių teorijos
Pagrindinis dėmesys	Atskiri stulpeliai ir duomenų atvaizdavimai	Duomenų taškų kolektyvinė forma ir sklaida
Automatizavimo lygis	Sunku visiškai automatizuoti be konteksto	Lengvai patikrinama naudojant automatinius statistinius testus
Nesėkmės poveikis	Suboptimalus tikslumas ir praleisti modeliai	Neteisingos statistinės išvados ir didelis šališkumas
Pagrindiniai naudojami įrankiai	Mastelio keitimas, kodavimas, sugrupavimas, matematinės transformacijos	QQ grafikai, histogramos, hipotezių tikrinimas

Išsamus palyginimas

Strateginė filosofija ir požiūris

Funkcijų inžinerija užima aktyvią, praktinę poziciją duomenų rengimo srityje, visą dėmesį skirdama neapdorotų stulpelių pertvarkymui, kad būtų atskleisti labiausiai nuspėjami signalai. Visiškai priešingai, pasiskirstymo prielaidos yra refleksyvus, diagnostinis etapas, kurio metu įvertinama, ar jūsų duomenys natūraliai atitinka konkrečias tikimybines taisykles. Viena yra apie realybės keitimą, kad viskas veiktų geriau, o kita - apie struktūrinių apribojimų supratimą prieš pasirenkant įrankį.

Darbo eigos tarpusavio priklausomybė

Šios dvi sąvokos dažnai veikia grįžtamojo ryšio cikle, o ne visiškai atskirai. Kai pastebite, kad jūsų duomenys pažeidžia svarbias paskirstymo prielaidas, įprastai naudojate funkcijų inžinerijos metodus, pvz., žurnalų transformacijas, kad duomenys vėl atitiktų reikalavimus. Norint išspręsti paskirstymo problemą, dažnai reikia sukurti visiškai naują funkcijų reprezentaciją.

Algoritmų suderinamumas

Tradiciniai statistiniai metodai ir tiesiniai algoritmai, kad veiktų patikimai, visiškai priklauso nuo tikslių pasiskirstymo prielaidų. Kita vertus, šiuolaikiniai medžiais pagrįsti algoritmai iš esmės ignoruoja duomenų formas, tačiau išlieka labai priklausomi nuo išmaniosios objektų inžinerijos, kad užfiksuotų sudėtingus, laiko pagrindu veikiančius ar reliacinius modelius. Jūsų pasirinktas modelis lemia, į kurią iš šių dviejų sąvokų reikia nedelsiant atkreipti dėmesį.

Realaus pasaulio netobulumų valdymas

Funkcijų inžinerija suteikia taktinį įrankių rinkinį, reikalingą kovai su duomenų triukšmu, trūkstamų verčių valdymu ir mastelio keitimo problemomis. Pasiskirstymo prielaidos veikia kaip ankstyvojo perspėjimo sistema, leidžianti žinoti, kada šie trūkumai tampa pakankamai dideli, kad sugriauna jūsų matematinius pagrindus. Kartu jos užtikrina, kad jūsų analitinis procesas būtų tikslus ir teoriškai pagrįstas.

Privalumai ir trūkumai

Funkcijų inžinerija

Privalumai

+ Maksimaliai padidina modelio nuspėjamąjį tikslumą
+ Atskleidžia labai sudėtingus ryšius
+ Pritaiko duomenis konkrečioms užduotims

Pasirinkta

− Labai daug laiko reikalaujantis procesas
− Duomenų nutekėjimo rizika
− Reikalingas gilus srities išmanymas

Pasiskirstymo prielaidos

Privalumai

+ Užtikrina struktūrinio modelio validumą
+ Suteikia aiškų matematinį tikrumą
+ Supaprastina modeliavimo procesą

Pasirinkta

− Tikri duomenys retai kada sutampa
− Pernelyg griežtas šiuolaikiniam ML
− Apriboja algoritmo pasirinkimo galimybes

Dažni klaidingi įsitikinimai

Mitas

Pažangūs mašininio mokymosi algoritmai visiškai pasenino paskirstymo prielaidas.

Realybė

Nors neuroniniai tinklai ir gradientu sustiprinti medžiai tvarkingai tvarko netiesines duomenų struktūras, duomenų pasiskirstymo ignoravimas vis tiek gali sukelti didelių problemų. Prastų nuostolių funkcijų pasirinkimas arba tikslinių kintamųjų klaidingas supratimas dažnai kyla tiesiogiai dėl pagrindinių tikimybių kreivių ignoravimo.

Mitas

Automatizuoti funkcijų inžinerijos įrankiai gali visiškai pakeisti žmonių duomenų analitikus.

Realybė

Automatizuoti įrankiai puikiai atlieka matematines operacijas, tokias kaip mastelio keitimas, laipsninės transformacijos ir pagrindiniai deriniai. Tačiau jiems trūksta kontekstinės verslo logikos, reikalingos prasmingiems rodikliams sukurti iš sudėtingų sričių sąveikų.

Mitas

Prieš paleidžiant bet kokį regresinį modelį, duomenys visada turi atrodyti visiškai normalūs.

Realybė

Tiesinei regresijai reikia, kad tik modelio liekanos būtų normaliai pasiskirstiusios, o ne pačios prognozuojamosios kintamosios. Į modelį galite saugiai perduoti labai iškreiptas savybes, jei gautos paklaidos išlieka subalansuotos.

Mitas

Daugiau inžinerinių funkcijų visada lems geresnį modelio našumą.

Realybė

Algoritmo užtvindymas per dideliais kintamaisiais sukelia didelį triukšmą ir perteklinį pritaikymą. Kruopštus kintamųjų pasirinkimas ir apkarpymas yra tokie pat svarbūs, kaip ir naujų kintamųjų kūrimas.

Dažnai užduodami klausimai

Kaip ištaisyti funkciją, kuri visiškai pažeidžia normalumo prielaidas?

Patikimiausias sprendimas – matematinių laipsninių transformacijų taikymas tiesiogiai asimetriškam kintamajam. Logaritminė transformacija puikiai tinka į dešinę asimetriškiems duomenims su ilgomis uodegomis, o Box-Cox arba Yeo-Johnson transformacijos gali sistemingai rasti optimalų laipsnio rodiklį, kad automatiškai subalansuotų jūsų skirstinį.

Ar bloga funkcijų inžinerija gali netyčia sugadinti mano duomenų paskirstymą?

Taip, neapgalvotos transformacijos gali lengvai paversti švarius duomenis modeliavimo košmaru. Pavyzdžiui, tolydžiųjų kintamųjų suskirstymas į savavališkas kategorijas panaikina smulkiagrūdį dispersiją ir sukuria dirbtinius vienodus blokus, kurie panaikina realaus pasaulio statistinius niuansus.

Kodėl medžiais pagrįsti modeliai ignoruoja duomenų pasiskirstymo prielaidas?

Medžiais pagrįsti algoritmai remiasi dvejetainiais skaidymais, pagrįstais reikšmių ribomis, o ne apskaičiuotomis matricų daugybomis ar atstumo formulėmis. Kadangi jie atsižvelgia į rango tvarką, o ne į erdvinį atstumą, skirstinio formos ištempimas ar suspaudimas nekeičia skaidymų nustatymo būdo.

Kas nutiks, jei diegsiu parametrinį modelį nepatvirtinęs prielaidų?

Modelis vis tiek pateiks skaičius, tačiau jūsų pasikliautinieji intervalai, p reikšmės ir paklaidų metrikos bus iš esmės sugadintos. Dėl to prognozės dažnai būna pernelyg patikimos, koeficientai šališki, o modelis, susidūręs su naujais gamybiniais duomenimis, gali sugesti.

Ar duomenų normalizavimas yra funkcijų inžinerijos ar prielaidų tikrinimo dalis?

Duomenų normalizavimas yra pagrindinis funkcijų inžinerijos veiksmas, atliekamas siekiant transformuoti kintamuosius į bendrą skalę. Šį veiksmą atliekate, kad optimizavimo algoritmai greičiau konverguotų arba atitiktų atstumu pagrįstų modelių veikimo mechanikos reikalavimus.

Kaip trūkstamos vertės veikia pasiskirstymo prielaidas?

Trūkstamos vertės iškreipia suvokiamą duomenų formą, nes trūkstami taškai retai kada atsitiktinai praleidžiami. Jų visiškai pašalinimas arba naiviai priskirtų taškų naudojimas histogramose gali sukelti dirbtinius šuolius, kurie užmaskuoja tikrąjį pagrindinį skirtumą.

Kuris metodas yra svarbesnis dirbant su mažais duomenų rinkiniais?

Pasiskirstymo prielaidų patikrinimas yra nepaprastai svarbus mažiems duomenų rinkiniams, nes trūksta duomenų kiekio, kad būtų galima išlyginti struktūrinių klaidų vidurkį. Mažose imtyse vienas neištaisytas pažeidimas arba didelis nuokrypis gali visiškai iškreipti modelio parametrus.

Kuo skiriasi duomenų išankstinis apdorojimas ir funkcijų inžinerija?

Duomenų išankstinis apdorojimas sutelktas į neapdorotų duomenų valymą atliekant tokias užduotis kaip pasikartojančių duomenų pašalinimas, klaidų taisymas ir trūkstamų reikšmių užpildymas. Funkcijų inžinerija žengia dar vieną žingsnį, aktyviai kurdama naujus atvaizdavimus, kad jūsų modelis gautų aiškesnį mokymosi signalą.

Nuosprendis

Rinkitės funkcijų inžineriją, kai jūsų tikslas yra maksimaliai padidinti grynąją prognozavimo galią įvairiuose mašininio mokymosi modeliuose, kurie gali toleruoti lanksčias duomenų formas. Kurdami aiškinamuosius modelius, atlikdami oficialius mokslinius bandymus arba diegdami tradicinius parametrinius algoritmus, kur teorinis pagrįstumas yra būtinas, daugiausia dėmesio skirkite pasiskirstymo prielaidų tikrinimui.

Susiję palyginimai

Astrologinė prognozė ir statistinė prognozė

Astrologinės prognozės susieja dangaus ciklus su žmonių patirtimi siekiant simbolinės reikšmės, o statistinės prognozės analizuoja empirinius istorinius duomenis, kad įvertintų būsimas skaitines vertes. Šiame palyginime nagrinėjamas skirtumas tarp senovinės, archetipais pagrįstos asmeninių apmąstymų sistemos ir modernios, duomenimis pagrįstos metodologijos, naudojamos objektyviam sprendimų priėmimui versle ir moksle.

Astrologiniai tranzitai ir gyvenimo įvykių tikimybių modeliai

Šis palyginimas nagrinėja intriguojančią prarają tarp senovinių dangaus stebėjimų ir šiuolaikinės prognozinės analizės. Astrologiniai tranzitai naudoja planetų ciklus asmeninio augimo fazėms interpretuoti, o gyvenimo įvykių tikimybių modeliai remiasi dideliais duomenimis ir statistiniais algoritmais, kad numatytų konkrečius etapus, tokius kaip karjeros pokyčiai ar sveikatos priežiūros poreikiai.

Ateities prognozavimo modeliai ir retrospektyvi analizė

Nors retrospektyvinė analizė veikia kaip organizacijos galinio vaizdo veidrodis, analizuodama istorinius įrašus, kad suprastų praeities sėkmes ir nesėkmes, ateities prognozavimo modeliai žvelgia pro priekinį stiklą, derindami statistinius algoritmus ir mašininį mokymąsi, kad numatytų būsimus rinkos pokyčius, klientų veiksmus ir veiklos kliūtis.

Aukšto dažnio duomenys ir agreguoti duomenys modeliavime

Pasirinkimas tarp aukšto dažnio duomenų ir apibendrintų duomenų yra esminis kompromisas analitikoje. Nors neapdoroti, per sekundę gaunami sandoriai ir jutiklių srautai suteikia neprilygstamą tiesioginio elgesio ir rinkos mikrostruktūrų matomumą, suspausti laiko apibendrinimai pašalina didžiulį statistinį triukšmą ir didelius infrastruktūros poreikius, kad būtų galima atskleisti aiškias, struktūrines ilgalaikes tendencijas.

Automatinis modelio stebėjimas ir rankinis eksperimento stebėjimas

Pasirinkimas tarp automatinio modelių sekimo ir rankinio eksperimentų sekimo iš esmės lemia duomenų mokslo komandos greitį ir atkuriamumą. Nors automatizavimas naudoja specializuotą programinę įrangą, kad sklandžiai užfiksuotų kiekvieną hiperparametrą, metriką ir artefaktą, rankinis sekimas priklauso nuo žmogaus kruopštumo naudojant skaičiuokles arba „markdown“ failus, todėl reikia rasti griežtą kompromisą tarp sąrankos greičio ir ilgalaikio keičiamo tikslumo.