duomenų modeliavimaslaiko eilutėsnuspėjamoji analizėanalitika
Aukšto dažnio duomenys ir agreguoti duomenys modeliavime
Pasirinkimas tarp aukšto dažnio duomenų ir apibendrintų duomenų yra esminis kompromisas analitikoje. Nors neapdoroti, per sekundę gaunami sandoriai ir jutiklių srautai suteikia neprilygstamą tiesioginio elgesio ir rinkos mikrostruktūrų matomumą, suspausti laiko apibendrinimai pašalina didžiulį statistinį triukšmą ir didelius infrastruktūros poreikius, kad būtų galima atskleisti aiškias, struktūrines ilgalaikes tendencijas.
Akcentai
Aukšto dažnio formatai fiksuoja struktūrinius dienos elgsenos modelius, kuriuos agregavimas visiškai sulygina.
Apibendrintos santraukos radikaliai sumažina saugojimo ir skaičiavimo poreikius įvairiose duomenų platformose.
Neapdoroti įvykių įrašai rodo didelę autokoreliaciją, kuriai reikalingi specializuoti taškų procesų modeliavimo metodai.
Išsamūs duomenų srautai, įrašomi greitais intervalais, tokiais kaip milisekundės arba tiksai, fiksuojantys realaus laiko įvykius, mikro elgseną ir tiesioginius svyravimus.
Stebėjimai atliekami nereguliariais, atsitiktiniais intervalais, pagrįstais realaus pasaulio įvykiais, o ne fiksuotais laiko žingsniais.
Duomenų rinkiniuose dažnai pasireiškia intensyvūs sezoniniai dienos kintamumo modeliai, kurie dažnai smarkiai padidėja rinkos atidarymo ir uždarymo metu.
Atskiri įrašai pasižymi didele laiko priklausomybe, o tai reiškia, kad nuoseklūs taškai yra stipriai tarpusavyje susiję.
Duomenų kiekiai kaupiasi taip greitai, kad viena aktyvaus registravimo diena gali prilygti dešimtmečiams tradicinių kasdienių suvestinių.
Neapdoroti srautai fiksuoja atskirus kainų ir kiekių šuolius, atskleisdami tikslų kelią į pusiausvyrą, o ne tik galutinius balansus.
Kas yra Apibendrinti duomenys?
Neapdoroti rodikliai, apibendrinti per iš anksto nustatytus laiko blokus, įskaitant valandinius, dienos ar mėnesio intervalus, siekiant atskirti makrotendencijas nuo foninio triukšmo.
Informacija yra tolygiai išdėstyta laike, puikiai atitinkanti klasikines statistines prielaidas ir standartines regresijos formules.
Duomenų taškų sujungimo procesas eksponentiškai sumažina duomenų bazės saugojimo reikalavimus, taip sumažinant debesies duomenų saugyklos infrastruktūros sąnaudas.
Trumpalaikis sandorių triukšmas ir atsitiktiniai duomenų šuoliai yra išlyginami, atskleidžiant stabilius, pamatinius judėjimus.
Duomenų įvedimas remiasi nuspėjamomis paketinėmis darbo eigomis, o ne sudėtingais, mažo delsos srautinio perdavimo srautais.
Matematinės transformacijos, tokios kaip vidurkinimas ar sumavimas, natūraliai sumažina kraštutinių statistinių išskirčių buvimą.
Palyginimo lentelė
Funkcija
Aukšto dažnio duomenys
Apibendrinti duomenys
Surinkimo intervalas
Milisekundės, sekundės arba įvykių sukelti tiksėjimai
Valandiniai, dienos, savaitės arba mėnesio blokai
Duomenų kiekis
Kolosalus, sparčiai plečiasi iki milijardų eilučių
Kompaktiškas, labai nuspėjamas saugojimo plotas
Infrastruktūros stilius
Upelių ežerų nameliai ir siauri stalai
Tradiciniai partijų sandėliai ir žvaigždžių schemos
Statistinis triukšmas
Labai aukštas, pilnas atsitiktinių mikroanomalijų
Labai žemas, iš anksto filtruotas sumavimo būdu
Tarpų nuoseklumas
Netaisyklingai išdėstyti pagal realaus laiko paleidiklius
Puikūs, vienodi intervalai visame
Pagrindinis analitinis tikslas
Mikrostruktūra, tiesioginės anomalijos ir vykdymo greitis
Makrotendencijos, prognozavimas ir strateginis planavimas
Matematiniai iššūkiai
Stipri autokoreliacija ir kompleksinis kolinearumas
Agregavimo šališkumo ir konteksto praradimo rizika
Išsamus palyginimas
Detalumas ir fiksavimo gylis
Aukšto dažnio duomenys puikiai atskleidžia, kas vyksta tarp tradicinių etapų, tiksliai atsekdami elgesio ar rinkos kainų trajektoriją joms kintant. Apibendrinti duomenys laukia nustatyto laikotarpio pabaigos, prieš pateikdami vieną bendrą sumą, efektyviai paslepiant kelionę ir pateikiant tik galutinį tikslą. Tai reiškia, kad neapdoroti srautai fiksuoja trumpalaikius šuolius ir sekundės dalį trunkančius vartotojų koregavimus, kuriuos santraukos visiškai ištrina.
Infrastruktūros ir skaičiavimo apkrova
Duomenų apdorojimas milisekundės greičiu reikalauja modernių srautinio perdavimo architektūrų, realaus laiko pranešimų tarpininkų ir specializuotų stulpelinių schemų, skirtų masiniam duomenų įrašymui. Apibendrintos sistemos patogiai veikia klasikinėse reliacinėse architektūrose ir standartinėse duomenų bazių konfigūracijose, todėl debesijos išlaidos yra minimalios. Komandos, valdančios neapdorotus įvestis, daug išteklių skiria įkėlimo delsai, o tos, kurios naudoja apibendrinimus, daugiausia dėmesio skiria skaičiavimo logikai.
Statistinis patikimumas ir triukšmas
Neapdorotų įvykių srautai yra pagarsėję savo netvarkingumu, pilnais atsitiktinių nukrypimų, operacinių klaidų ir didelių matematinių priklausomybių, kurios pažeidžia pagrindines modeliavimo prielaidas. Šių taškų suspaudimas į švarius intervalus veikia kaip natūralus valymo mechanizmas, išlyginantis beprasmę trintį, kad būtų galima išryškinti patikimus rodiklius. Tačiau per didelis išlyginimas rizikuoja paslėpti struktūrinius pokyčius, o kartais ir lemti visiškai kitokias kryptingas išvadas.
Modeliavimo tinkamumas ir tikslai
Algoritminės prekybos sistemos, tiesioginio sukčiavimo aptikimo sistemos ir gamykliniai jutiklių ciklai labai priklauso nuo neatidėliotinų, didelės skiriamosios gebos srautų, kad būtų galima aptikti trumpalaikes galimybes ar nesėkmes. Strateginis prognozavimas, ketvirtinis planavimas ir makroekonominiai vertinimai teikia pirmenybę struktūrizuotiems suvestiniams rodikliams, nes ilgalaikiams sprendimams retai reikia sekundės dalimis smulkesnių duomenų. Modeliavimo formato suderinimas su jūsų veiklos laiko juosta padeda išvengti perteklinio inžinerijos darbo ir išvengti modelių painiavos.
Privalumai ir trūkumai
Aukšto dažnio duomenys
Privalumai
+Atskleidžia realaus laiko tendencijas
+Neprilygstama analitinė skiriamoji geba
+Nustato trumpalaikius sutrikimus
+Užfiksuoja elgesio kontekstą
Pasirinkta
−Didelės infrastruktūros išlaidos
−Didžiulis statistinis triukšmas
−Didelis duomenų kolinearumas
−Sudėtingi netaisyklingi tarpai
Apibendrinti duomenys
Privalumai
+Įstrižų laikymo reikalavimai
+Pašalina atsitiktinį triukšmą
+Supaprastina modeliavimo matematiką
+Standartiniai vienodi intervalai
Pasirinkta
−Ištrina dienos informaciją
−Vėluojančios veiklos įžvalgos
−Rizikuoja dideliu agregavimo šališkumu
−Paslepia tikslų įvykio laiką
Dažni klaidingi įsitikinimai
Mitas
Išsamesni duomenys visada leidžia sukurti geresnius prognozavimo modelius.
Realybė
Didesnis duomenų taškų skaičius nebūtinai reiškia aiškesnes prognozavimo įžvalgas. Didelis triukšmas ir atsitiktiniai mikrofluktuacijos aukšto dažnio srautuose dažnai painioja standartinius algoritmus, todėl gerai parengta valandinė ar dienos santrauka yra daug tikslesnė prognozuojant ilgesnius laikotarpius.
Mitas
Duomenų agregavimas yra procesas be nuostolių, jei naudojate vidurkius.
Realybė
Vidutinių įrašų apskaičiavimas pašalina dispersiją, minimalias ir maksimalias ribas bei konkretų įvykių pasiskirstymą laikui bėgant. Du identiški dienos vidurkiai gali užmaskuoti visiškai skirtingus scenarijus, pavyzdžiui, vieną nuolatinį srautą, palyginti su dideliu, pavieniu vidurdienio šuoliu.
Mitas
Aukšto dažnio sistemos skirtos tik didelių failų kiekių valdymui.
Realybė
Tikrasis sunkumas yra valdyti didžiulį duomenų srauto greitį ir įvairovę, o ne visą disko talpą. Realaus laiko schemos evoliucijos, tinklo delsos svyravimų ir ne eilės tvarka atvykstančių įvykių valdymas yra daug didesnis iššūkis nei vien tik failų saugojimas.
Mitas
Tradiciniai regresiniai modeliai veikia geriau, kai pateikiami neapdoroti momentiniai duomenys.
Realybė
Klasikinės tiesinės regresijos, taikomos neapdorotiems srautams, neveikia, nes iš eilės einantys stebėjimai pažeidžia pagrindinę nepriklausomų stebėjimų prielaidą. Aukšto dažnio duomenų įvedimas į šias senas sistemas lemia labai nestabilius modelius ir apgaulingus reikšmingumo balus.
Dažnai užduodami klausimai
Kodėl keičiant duomenų dažnį taip drastiškai pasikeičia regresijos koeficientai?
Šis pokytis įvyksta todėl, kad laikinas agregavimas sujungia skirtingas trumpalaikes elgesio reakcijas su lėtais, struktūriniais ilgalaikiais pokyčiais. Greitas atsakas, sukeliantis matomą šuolį per penkių minučių laikotarpį, visiškai praskiedžiamas, kai išplečiamas per mėnesio vidurkį, todėl modeliai matuoja visiškai skirtingą dinamiką, priklausomai nuo laikotarpio.
Koks yra geriausias būdas tvarkyti neapdorotuose žurnaluose aptinkamus netaisyklingus laiko intervalus?
Duomenų komandos paprastai tai daro taikydamos pažymėtų taškų procesus arba taikydamos išankstinio užpildymo metodus, kad įvykius susietų su struktūrizuotu tinkleliu. Arba, naudodami šiuolaikines laiko eilučių duomenų bazes, analitikai gali dinamiškai iš naujo atrinkti neapdorotas įvykių eilutes į vienodus segmentus iškart po užklausų vykdymo.
Kaip nusprendžiate, ar jūsų projektui reikalinga srautinė architektūra, ar paketiniai apibendrinimai?
Sprendimas visiškai priklauso nuo jūsų operatyvinių veiksmų intervalo. Jei jūsų įmonei reikia blokuoti sukčiavimo mokestį arba pakeisti reklamos kainos pasiūlymą per kelias sekundes nuo įvykio, būtina investuoti į srautinio perdavimo aukšto dažnio sistemas. Jei jūsų sprendimai įgyvendinami kas savaitę arba kasdien, daug praktiškiau vykdyti švarius paketinius apibendrinimus.
Ar aukšto dažnio duomenų retinimas kenkia jų prognozinei vertei?
Taip, standartinis dalinių imčių sudarymas įprastai atmeta vertingą informaciją apie operacijų tankį ir tylos tarpus tarp įvykių. Tai taip pat sukelia atsitiktinį šališkumą, priklausantį nuo pasirinkto pradžios laiko, o tai dažnai kenkia modelio atkuriamumui skirtinguose patvirtinimo rinkiniuose.
Ar mašininio mokymosi modeliai gali efektyviai apdoroti neapdorotus srautus po vieną?
Tam tikros specializuotos architektūros, tokios kaip pasikartojantys neuroniniai tinklai ir ilgos trumpalaikės atminties sistemos, gerai tvarko nuoseklius modelius, tačiau joms reikalingas didelis išankstinis apdorojimas, kad būtų galima valdyti duomenų kiekį. Be funkcijų inžinerijos, kuri atskirtų struktūrinius signalus nuo foninio triukšmo, mašininio mokymosi modeliai per daug prisitaikys prie beprasmių mikrojudesių.
Kaip agregavimas veikia mūsų supratimą apie rinkos kintamumą?
Apibendrinant duomenis, dirbtinai slopinamas tariamas kintamumas, panaikinant greitus dienos kainų svyravimus ir staigius kritimus. Rizikos vertinimas per mėnesinius ar savaitinius blokus sukuria stabilumo iliuziją, paslepiant greitus, smarkius pokyčius, vykstančius įprastomis darbo valandomis.
Kokios schemos geriausiai tinka aukšto dažnio metrikoms saugoti?
Inžinieriai renkasi siaurus lentelių išdėstymus greitiems srautams apdoroti, kiekvienoje eilutėje saugant po vieną metriką kartu su aiškiu identifikatoriumi ir laiko žyma. Ši sąranka leidžia greitai rašyti į duomenų bazę ir lanksčiai atnaujinti schemas, išlaikant ataskaitų suvestines sujungtas su greitai materializuotomis santraukomis, o ne su neapdorotomis lentelėmis.
Ar įmanoma atkurti dažnai gaunamas įžvalgas iš apibendrintų failų?
Ne, laikinas glaudinimas yra visiškai vienpusis procesas. Kai neapdoroti įrašai sujungiami į suvestinės bloką, atskirų įvykių tvarka, tikslus laikas ir mikrodispersija yra visam laikui ištrinami, todėl neįmanoma atkurti pradinio srauto neišsaugojus neapdorotų žurnalų.
Nuosprendis
Kurdami realaus laiko programas, stebėdami nepastovius dienos metu vykstančius pokyčius arba diegdami mikro elgsenos modelius, kurie reikalauja neatidėliotino vykdymo, rinkitės aukšto dažnio duomenis. Naudokite apibendrintus duomenis, kai jūsų pagrindinis tikslas yra ilgalaikių strateginių kelių planavimas, debesijos infrastruktūros pridėtinių sąnaudų mažinimas arba tradicinių statistinių regresijų, kurioms reikalingi aiškūs, tolygiai išdėstyti intervalai, vykdymas.