mašininis mokymasisprognozavimasduomenų mokslasanalitika

Grafais pagrįstas prognozavimas ir tradicinė laiko eilučių analizė

Šiame palyginime nagrinėjamas perėjimas nuo atskirų duomenų srautų vertinimo atskirai prie jų modeliavimo kaip tarpusavyje susijusio įtakos tinklo. Nors tradiciniai metodai remiasi istorine savikorekcija, grafais pagrįsti metodai naudoja erdvines ir reliacines priklausomybes tarp kelių kintamųjų, kad numatytų būsimus rezultatus su žymiai didesniu kontekstiniu tikslumu.

Akcentai

Tradiciniai modeliai žvelgia atgal; grafų modeliai žvelgia „iš šono“ į kaimynus.
Grafų metodai išsprendžia „duomenų silosų“ problemą sujungdami susijusius srautus.
Klasikinė statistika išlieka auksiniu standartu paprastam, smulkaus verslo planavimui.
GNN gali numatyti tokius įvykius kaip įtampos šuoliai, matydami ryšius, kurių žmonės gali nepastebėti.

Kas yra Grafikų pagrindu sudarytas prognozavimas?

Modernus nuspėjamasis metodas, naudojantis grafinius neuroninius tinklus (GNN), siekiant modeliuoti daugiamačius duomenis kaip mazgus ir briaunas.

Jis puikiai tinka fiksuojant „erdvinės-laikinės“ priklausomybės, kai vieno kintamojo elgesį lemia jo kaimynai.
Modelis gali išmokti pagrindinę grafo struktūrą, net jei fiziniai ryšiai nėra aiškiai apibrėžti.
Jis plačiai naudojamas sudėtingose sistemose, tokiose kaip eismo srautų prognozavimas, elektros tinklai ir tiekimo grandinės logistika.
Laiko eilutes traktuojant kaip mazgus, sumažinamas „dimensiškumo prakeiksmas“, būdingas dideliems daugiamatiams duomenų rinkiniams.
„Google Maps“ garsiai naudojo GNN, kad kai kuriuose regionuose iki 50 % pagerintų numatomo atvykimo laiko (ETA) tikslumą.

Kas yra Tradicinė laiko eilučių analizė?

Klasikiniai statistiniai metodai, skirti vienos duomenų sekos skaidymui į tendenciją, sezoniškumą ir triukšmą.

Pagrindiniai modeliai, tokie kaip ARIMA ir eksponentinis išlyginimas, labai remiasi duomenų „stacionarumo“ prielaida.
Jame daugiausia dėmesio skiriama autokoreliacijai, kuri yra kintamojo ir jo praeities verčių santykis.
Šie modeliai yra labai lengvai interpretuojami, todėl analitikams lengva paaiškinti, kodėl buvo sugeneruota konkreti prognozė.
Paprastai jiems reikia žymiai mažiau skaičiavimo galios ir duomenų, palyginti su gilaus mokymosi alternatyvomis.
„Meta“ sukurtas „Prophet“ yra populiari moderni evoliucija, kuri tvarko šventes ir trūkstamus duomenis naudodama adityvųjį modeliavimą.

Palyginimo lentelė

Funkcija	Grafikų pagrindu sudarytas prognozavimas	Tradicinė laiko eilučių analizė
Pagrindinis dėmesys	Tarpserialiniai santykiai	Serijos viduje esantys modeliai
Duomenų sudėtingumas	Aukštas (daugiamatis / susietas)	Žemas–vidutinis (vienmatis)
Aiškinamasis aspektas	Apatinis (juodosios dėžės pobūdis)	Aukštesnis (statistiniai parametrai)
Skaičiavimo kaina	Aukštas (reikalingos GPU)	Žemas (veikia su standartiniais procesoriais)
Idealus naudojimo atvejis	Išmanusis miesto eismas / tinklai	Mažmeninė prekyba / Atsargų atsargos
Mastelio keitimas	Svarstyklės su tinklo tankiu	Svarstyklės su serijų skaičiumi
Smūgių valdymas	Plinta per tinklą	Užfiksuota naudojant klaidos terminus

Išsamus palyginimas

Izoliacija ir ryšys

Tradicinė laiko eilučių analizė kiekvieną duomenų srautą traktuoja kaip vienišą bėgiką trasoje, atsižvelgiant tik į jo ankstesnį greitį, kad būtų galima spėti jo būsimą tempą. Grafais pagrįstas prognozavimas mato visą stadioną, suprantant, kad jei bėgikas pirmoje juostoje suklups, bėgikas antroje juostoje greičiausiai nukryps nuo trajektorijos. Šis gebėjimas modeliuoti bangavimo efektus daro grafų metodus daug pranašesnius sistemoms, kuriose objektai yra fiziškai arba logiškai susieti.

Stacionarumo spąstai

Klasikiniai modeliai, tokie kaip ARIMA, dažnai sunkiai apdoroja „nestacionarius“ duomenis – informaciją, kurios vidurkis arba dispersija laikui bėgant kinta, todėl reikia atlikti sudėtingas transformacijas, tokias kaip diferencijavimas. Grafų neuroniniai tinklai yra daug atsparesni, naudodami giliojo mokymosi sluoksnius netiesiniams modeliams ir staigiems pokyčiams apdoroti, nereikalaujant iš anksto idealiai stabilizuoti duomenų. Dėl to jie yra praktiškesni dirbant su netvarkingais, nepastoviais duomenimis, randamais realioje pramoninėje aplinkoje.

Išteklių poreikis ir efektyvumas

„Tikslumo kaina“ yra reikšmingas kompromisas. Tradicinius modelius galima įdiegti per kelias sekundes paprastame nešiojamajame kompiuteryje ir jie puikiai tinka greitoms, „pakankamai geroms“ verslo prognozėms. Tačiau grafų pagrindu veikiančioms sistemoms reikalinga specializuota įranga ir sudėtingas duomenų srautas, kad būtų galima valdyti mazgus ir kraštus. Nors jos suteikia gilesnių įžvalgų, šių modelių mokymo ir priežiūros kaina dažnai yra per didelė, todėl jie yra pernelyg sudėtingi, kai kalbama apie paprastus, nepriklausomus kintamuosius.

Skaidrumas ir pasitikėjimas

Kai tradicinis modelis prognozuoja 10 % pardavimų sumažėjimą, analitikas gali nurodyti konkretų sezoninį koeficientą arba slenkančio vidurkio tendenciją, kad paaiškintų, kodėl. Grafų modeliai veikia „latentinėse erdvėse“, todėl daug sunkiau nustatyti tikslią prognozės priežastį. Toks „juodosios dėžės“ pobūdis gali būti kliūtis tokiose pramonės šakose kaip finansai ar sveikatos apsauga, kur suinteresuotosios šalys dažnai teikia pirmenybę „kodėl“ supratimui tiek pat, kiek ir „ką“.

Privalumai ir trūkumai

Grafikų pagrindu sudarytas prognozavimas

Privalumai

+ Užfiksuoja sudėtingus bangavimo efektus
+ Tvarko netiesinius duomenis
+ Puikus daugiamatis tikslumas
+ Išmoksta paslėptų ryšių

Pasirinkta

− Skaičiavimo požiūriu brangu
− Reikalingi dideli duomenų rinkiniai
− Sunkiau interpretuoti
− Sudėtinga įgyvendinti

Tradicinės laiko eilutės

Privalumai

+ Greitas ir lengvas
+ Didelis modelio skaidrumas
+ Veikia su mažais duomenimis
+ Lengva automatizuoti

Pasirinkta

− Ignoruoja išorinę įtaką
− Daroma prielaida apie tiesines tendencijas
− Sugenda sistemos sukrėtimų metu
− Rankinis funkcijų inžinerijos darbas

Dažni klaidingi įsitikinimai

Mitas

Grafais pagrįstas prognozavimas visada yra tikslesnis nei ARIMA.

Realybė

Nebūtinai. Jei jūsų duomenų srautai yra tikrai nepriklausomi – pavyzdžiui, nesusijusių produktų pardavimai skirtingose šalyse – paprastas ARIMA modelis dažnai pranoksta sudėtingą grafų modelį, nes išvengiama nereikalingo „triukšmo“ dėl nesusijusių ryšių.

Mitas

Norint naudoti grafinį prognozavimą, reikia fizinio žemėlapio.

Realybė

Šiuolaikiniai GNN iš tikrųjų gali „išvesti“ grafą. Net jei neturite ryšių žemėlapio, modelis gali stebėti, kaip kintamieji juda kartu, ir sukurti savo vidinį ryšių tinklą, kad pagerintų savo prognozes.

Mitas

Gilusis mokymasis tradicinę statistiką pavertė pasenusia.

Realybė

Daugelyje verslo kontekstų tradicinės statistikos paprastumas ir greitis laimi. Daugumoje „realiojo laiko“ ataskaitų suvestinių vis dar naudojamas klasikinis išlyginimas arba „Prophet“, nes jie pateikia stabilius rezultatus be didelės gilaus mokymosi delsos.

Mitas

Daugiau duomenų visada pagerina grafų modelius.

Realybė

Grafų modeliai yra labai jautrūs „triukšmingoms briaunoms“. Jei jiems pateikiate ryšius, kurie iš tikrųjų vienas kito neįtakoja, modelio tikslumas gali sumažėti, nes jis bando rasti prasmę atsitiktiniuose sutapimuose.

Dažnai užduodami klausimai

Kada turėčiau pereiti nuo „Prophet“ prie grafinio neuroninio tinklo?

Turėtumėte apsvarstyti šį žingsnį, kai jūsų „individualias“ prognozes nuolat griauna išoriniai veiksniai, kurių negalite atsižvelgti. Jei prognozuojate pristatymo laiką ir pastebite, kad vėlavimas viename sandėlyje visada paveikia penkis kitus, grafikų metodas padės jums modeliuoti tą kryžminę taršą taip, kaip „Prophet“ tiesiog negali.

Ar grafikų prognozavimas yra geresnis akcijų rinkai?

Tai daug žadanti, bet sudėtinga. Nors akcijos neabejotinai yra tarpusavyje susijusios, finansų rinkų „triukšmas“ yra toks didelis, kad grafų modeliai dažnai per daug prisitaiko prie laikinų sutapimų. Sėkmingiausiose finansų sistemose naudojamas hibridinis metodas, derinantis tradicinius kintamumo modelius su grafais pagrįsta nuotaikų analize iš socialinių tinklų.

Kokia yra erdvinio-laikinio prognozavimo „erdvinė“ dalis?

„Erdvinis“ komponentas reiškia duomenų taškų padėtį arba ryšį. Eismo prognozėse tai yra fizinis atstumas tarp kelio jutiklių. Rekomendacijų sistemoje tai gali būti „atstumas“ tarp dviejų vartotojų, pagrįstas jų panašiu skoniu. Iš esmės jis prideda „kur“ prie laiko eilutės „kada“.

Ar galiu naudoti grafikų prognozavimą, jei turiu tik vieną duomenų srautą?

Techniškai ne. Grafais pagrįstiems metodams reikia bent dviejų susijusių objektų, kad būtų suformuotas „grafas“. Jei turite tik vieną srautą, geriau laikytis vienmačių tradicinių modelių, tokių kaip Holt-Winters arba LSTM, kurie yra specialiai sukurti tam, kad būtų galima gilintis į vieną seką.

Kaip šie modeliai tvarko „Juodosios gulbės“ įvykius?

Tradiciniai modeliai paprastai šiuos pokyčius traktuoja kaip išskirtis ir ignoruoja, o tai gali būti pavojinga. Grafų modeliai yra šiek tiek geresni, nes jie gali matyti šoką, prasidedantį viename tinklo kampe, ir įspėti, kaip jis išplis į likusius, nors joks modelis nėra tobulas numatant precedento neturinčius įvykius.

Kurį lengviau prižiūrėti gamybinėje aplinkoje?

Tradiciniai modeliai yra daug paprastesni. Jie turi mažiau judančių dalių, reikalauja mažiau stebėjimo dėl „duomenų dreifo“ ir gali būti perkvalifikuoti per kelias sekundes. Grafų modeliams reikalingas nuolatinis tinklo topologijos „sveikatos patikrinimas“; jei pasikeičia jūsų objektų sujungimo būdas, gali tekti visiškai pertvarkyti visą modelį.

Ar grafinis prognozavimas tinka tiekimo grandinės valdymui?

Taip, tai vienas stipriausių jo panaudojimo atvejų. Kadangi tiekimo grandinės yra tiesioginiai mazgų (gamyklų) ir briaunų (gabenimo maršrutų) tinklai, grafų modeliai puikiai tinka numatyti, kaip vienos žaliavos trūkumas po kelių savaičių pasklis per visą gamybos procesą.

Kokios programinės įrangos man reikia grafikų pagrindu veikiančiai prognozavimui?

Paprastai jums reikės „Python“ pagrindu sukurtų sistemų, tokių kaip „PyTorch Geometric“ arba „Deep Graph Library“ (DGL). Skirtingai nuo tradicinės statistikos, kuri pasiekiama beveik kiekvienoje skaičiuoklėje ar pagrindiniame BI įrankyje, grafinis prognozavimas beveik visiškai pagrįstas specialiai sukurtomis mašininio mokymosi sistemomis.

Nuosprendis

Rinkitės tradicinę laiko eilučių analizę, jei norite paprastų verslo rodiklių, kai pagrindiniai prioritetai yra interpretuojamumas ir mažos išlaidos. Pereikite prie grafikais pagrįsto prognozavimo, kai valdote sudėtingas, tarpusavyje susijusias sistemas, kuriose ryšiai tarp kintamųjų yra tokie pat svarbūs, kaip ir patys duomenų taškai.

Susiję palyginimai

Astrologinė prognozė ir statistinė prognozė

Astrologinės prognozės susieja dangaus ciklus su žmonių patirtimi siekiant simbolinės reikšmės, o statistinės prognozės analizuoja empirinius istorinius duomenis, kad įvertintų būsimas skaitines vertes. Šiame palyginime nagrinėjamas skirtumas tarp senovinės, archetipais pagrįstos asmeninių apmąstymų sistemos ir modernios, duomenimis pagrįstos metodologijos, naudojamos objektyviam sprendimų priėmimui versle ir moksle.

Astrologiniai tranzitai ir gyvenimo įvykių tikimybių modeliai

Šis palyginimas nagrinėja intriguojančią prarają tarp senovinių dangaus stebėjimų ir šiuolaikinės prognozinės analizės. Astrologiniai tranzitai naudoja planetų ciklus asmeninio augimo fazėms interpretuoti, o gyvenimo įvykių tikimybių modeliai remiasi dideliais duomenimis ir statistiniais algoritmais, kad numatytų konkrečius etapus, tokius kaip karjeros pokyčiai ar sveikatos priežiūros poreikiai.

Ateities prognozavimo modeliai ir retrospektyvi analizė

Nors retrospektyvinė analizė veikia kaip organizacijos galinio vaizdo veidrodis, analizuodama istorinius įrašus, kad suprastų praeities sėkmes ir nesėkmes, ateities prognozavimo modeliai žvelgia pro priekinį stiklą, derindami statistinius algoritmus ir mašininį mokymąsi, kad numatytų būsimus rinkos pokyčius, klientų veiksmus ir veiklos kliūtis.

Aukšto dažnio duomenys ir agreguoti duomenys modeliavime

Pasirinkimas tarp aukšto dažnio duomenų ir apibendrintų duomenų yra esminis kompromisas analitikoje. Nors neapdoroti, per sekundę gaunami sandoriai ir jutiklių srautai suteikia neprilygstamą tiesioginio elgesio ir rinkos mikrostruktūrų matomumą, suspausti laiko apibendrinimai pašalina didžiulį statistinį triukšmą ir didelius infrastruktūros poreikius, kad būtų galima atskleisti aiškias, struktūrines ilgalaikes tendencijas.

Automatinis modelio stebėjimas ir rankinis eksperimento stebėjimas

Pasirinkimas tarp automatinio modelių sekimo ir rankinio eksperimentų sekimo iš esmės lemia duomenų mokslo komandos greitį ir atkuriamumą. Nors automatizavimas naudoja specializuotą programinę įrangą, kad sklandžiai užfiksuotų kiekvieną hiperparametrą, metriką ir artefaktą, rankinis sekimas priklauso nuo žmogaus kruopštumo naudojant skaičiuokles arba „markdown“ failus, todėl reikia rasti griežtą kompromisą tarp sąrankos greičio ir ilgalaikio keičiamo tikslumo.