mašīnmācīšanāsprognozēšanadatu zinātneanalītika

Uz grafikiem balstīta prognozēšana salīdzinājumā ar tradicionālo laika rindu analīzi

Šajā salīdzinājumā tiek pētīta pāreja no atsevišķu datu plūsmu aplūkošanas izolēti uz to modelēšanu kā savstarpēji saistītu ietekmes tīklu. Kamēr tradicionālās metodes balstās uz vēsturisku paškorekciju, uz grafikiem balstītas pieejas izmanto telpiskās un relāciju atkarības starp vairākiem mainīgajiem, lai prognozētu nākotnes rezultātus ar ievērojami augstāku kontekstuālo precizitāti.

Iezīmes

Tradicionālie modeļi skatās atpakaļ; grafu modeļi skatās “no sāniem” uz kaimiņiem.
Grafu metodes atrisina "datu silo" problēmu, apvienojot saistītās plūsmas.
Klasiskā statistika joprojām ir zelta standarts vienkāršai, maza mēroga biznesa plānošanai.
GNN var paredzēt tādus notikumus kā strāvas pārspriegumi, redzot savienojumus, ko cilvēki varētu nepamanīt.

Kas ir Uz grafikiem balstīta prognozēšana?

Mūsdienīga paredzēšanas metode, kurā tiek izmantoti grafu neironu tīkli (GNN), lai modelētu daudzfaktoru datus kā mezglus un malas.

Tas izceļas ar “telpas-laika” atkarību uztveršanu, kur viena mainīgā uzvedību nosaka tā kaimiņi.
Modelis var apgūt pamatā esošo grafika struktūru pat tad, ja fiziskās attiecības nav skaidri definētas.
To plaši izmanto augstas sarežģītības sistēmās, piemēram, satiksmes plūsmas prognozēšanā, elektrotīklos un piegādes ķēdes loģistikā.
Apstrādājot laika rindas kā mezglus, tas samazina “dimensionalitātes lāstu”, kas ir izplatīts masīvās daudzfaktoru datu kopās.
Google Maps izmantoja GNN, lai dažos reģionos uzlabotu paredzamā ierašanās laika (ETA) precizitāti līdz pat 50 %.

Kas ir Tradicionālā laika rindu analīze?

Klasiskās statistikas metodes, kas koncentrējas uz vienas datu secības sadalīšanu tendencēs, sezonalitātēs un troksnī.

Tādi pamatmodeļi kā ARIMA un eksponenciālā izlīdzināšana lielā mērā balstās uz datu “stacionaritātes” pieņēmumu.
Tas galvenokārt koncentrējas uz autokorelāciju, kas ir mainīgā un tā iepriekšējo vērtību savstarpēja saistība.
Šie modeļi ir ļoti interpretējami, tāpēc analītiķiem ir viegli izskaidrot, kāpēc tika ģenerēta konkrēta prognoze.
Tām parasti ir nepieciešama ievērojami mazāka skaitļošanas jauda un dati, salīdzinot ar dziļās mācīšanās alternatīvām.
Prophet, ko izstrādājusi Meta, ir populāra mūsdienīga evolūcija, kas apstrādā brīvdienas un trūkstošos datus, izmantojot aditīvo modelēšanu.

Salīdzinājuma tabula

Funkcija	Uz grafikiem balstīta prognozēšana	Tradicionālā laika rindu analīze
Primārais fokuss	Starpsēriju attiecības	Sērijas iekšējie modeļi
Datu sarežģītība	Augsts (daudzfaktoru/saistīts)	Zems līdz vidējs (vienfaktors)
Interpretējamība	Apakšējais (melnās kastes daba)	Augstāks (statistiskie parametri)
Aprēķina izmaksas	Augsts (nepieciešams GPU)	Zems (darbojas ar standarta centrālajiem procesoriem)
Ideāls lietošanas gadījums	Viedās pilsētas satiksme/tīkli	Mazumtirdzniecības pārdošana/krājumu krājumi
Mērogojamība	Mērogi ar tīkla blīvumu	Svari ar sēriju skaitu
Triecienu apstrāde	Izplatās caur tīklu	Tverts, izmantojot kļūdas terminus

Detalizēts salīdzinājums

Izolācija pret savienojamību

Tradicionālā laika rindu analīze apstrādā katru datu plūsmu kā vientuļu skrējēju skrejceļā, aplūkojot tikai viņa iepriekšējo ātrumu, lai uzminētu viņa nākotnes tempu. Uz grafikiem balstīta prognozēšana redz visu stadionu, saprotot, ka, ja skrējējs pirmajā joslā paklūp, tas, visticamāk, liks skrējējam otrajā joslā novirzīties. Šī spēja modelēt viļņošanās efektus padara grafiku metodes daudz pārākas sistēmām, kurās entītijas ir fiziski vai loģiski saistītas.

Stacionaritātes slazds

Klasiskajiem modeļiem, piemēram, ARIMA, bieži vien ir grūtības ar "nestacionāriem" datiem — informāciju, kurā vidējais rādītājs vai dispersija laika gaitā mainās —, kas prasa sarežģītas transformācijas, piemēram, diferenciāciju. Grafu neironu tīkli ir daudz noturīgāki, izmantojot savus dziļās mācīšanās slāņus, lai apstrādātu nelineārus modeļus un pēkšņas izmaiņas, bez nepieciešamības iepriekš perfekti stabilizēt datus. Tas padara tos praktiskākus haotiskiem, nepastāvīgiem datiem, kas atrodami reālās pasaules industriālajā vidē.

Resursu pieprasījums un efektivitāte

Pastāv ievērojams kompromiss attiecībā uz “precizitātes cenu”. Tradicionālos modeļus var izvietot dažu sekunžu laikā vienkāršā klēpjdatorā, un tie ir lieliski piemēroti ātrām, “pietiekami labām” biznesa prognozēm. Tomēr uz grafikiem balstītām sistēmām ir nepieciešama specializēta aparatūra un sarežģīts datu cauruļvads, lai pārvaldītu mezglus un malas. Lai gan tās piedāvā dziļāku ieskatu, šo modeļu apmācības un uzturēšanas izmaksas bieži vien padara tos pārāk sarežģītus vienkāršu, neatkarīgu mainīgo gadījumā.

Caurspīdība un uzticēšanās

Kad tradicionālais modelis prognozē pārdošanas apjoma kritumu par 10 %, analītiķis var norādīt uz konkrētu sezonālu koeficientu vai slīdošā vidējā tendenci, lai izskaidrotu, kāpēc. Grafiku modeļi darbojas “latentās telpās”, tāpēc ir daudz grūtāk noteikt precīzu prognozes iemeslu. Šī “melnās kastes” daba var būt šķērslis tādās nozarēs kā finanses vai veselības aprūpe, kur ieinteresētās personas bieži vien piešķir prioritāti gan “kāpēc”, gan “ko”.

Priekšrocības un trūkumi

Uz grafikiem balstīta prognozēšana

Iepriekšējumi

+ Uztver sarežģītus viļņošanās efektus
+ Apstrādā nelineārus datus
+ Izcila daudzfaktoru precizitāte
+ Apgūst slēptās attiecības

Ievietots

− Dārgi skaitļošanas ziņā
− Nepieciešami lieli datu kopumi
− Grūtāk interpretēt
− Sarežģīti ieviest

Tradicionālās laika rindas

Iepriekšējumi

+ Ātrs un viegls
+ Augsta modeļa caurspīdīgums
+ Darbojas ar nelieliem datiem
+ Viegli automatizēt

Ievietots

− Ignorē ārējo ietekmi
− Pieņem lineāras tendences
− Sistēmas šoku laikā rodas kļūmes
− Manuāla funkciju inženierija

Biežas maldības

Mīts

Uz grafikiem balstīta prognozēšana vienmēr ir precīzāka nekā ARIMA.

Realitāte

Ne obligāti. Ja jūsu datu plūsmas ir patiesi neatkarīgas — piemēram, nesaistītu produktu pārdošanas apjomi dažādās valstīs —, vienkāršs ARIMA modelis bieži vien pārspēs sarežģītu grafu modeli, izvairoties no nevajadzīga “trokšņa” no neatbilstošiem savienojumiem.

Mīts

Lai izmantotu grafiku prognozēšanu, ir nepieciešama fiziskā karte.

Realitāte

Mūsdienu GNN faktiski var "izsecināt" grafu. Pat ja jums nav sakarību kartes, modelis var aplūkot, kā mainīgie pārvietojas kopā, un izveidot savu iekšējo attiecību tīklu, lai uzlabotu savas prognozes.

Mīts

Dziļā mācīšanās ir padarījusi tradicionālo statistiku novecojušu.

Realitāte

Daudzos biznesa kontekstos tradicionālās statistikas vienkāršība un ātrums gūst virsroku. Lielākā daļa “reāllaika” informācijas paneļu joprojām izmanto klasisko izlīdzināšanu vai Prophet, jo tie nodrošina stabilus rezultātus bez dziļās mācīšanās augstās latentuma.

Mīts

Vairāk datu vienmēr uzlabo grafu modeļus.

Realitāte

Grafu modeļi ir ļoti jutīgi pret "trokšņainām malām". Ja tiem ievadāt savienojumus, kas faktiski viens otru neietekmē, modeļa precizitāte var faktiski samazināties, mēģinot atrast nozīmi nejaušās sakritībās.

Bieži uzdotie jautājumi

Kad man vajadzētu pāriet no Prophet uz grafu neironu tīklu?

Jums vajadzētu apsvērt šo pāreju, ja jūsu "individuālās" prognozes pastāvīgi izjauc ārēji faktori, kurus jūs nevarat ņemt vērā. Ja prognozējat piegādes laikus un konstatējat, ka kavēšanās vienā noliktavā vienmēr ietekmē piecas citas, grafika pieeja palīdzēs jums modelēt šo savstarpējo piesārņojumu tādā veidā, kā Prophet vienkārši nevar.

Vai grafiku prognozēšana ir labāka akciju tirgum?

Tas ir daudzsološi, bet sarežģīti. Lai gan akcijas noteikti ir savstarpēji saistītas, finanšu tirgu "troksnis" ir tik augsts, ka grafu modeļi bieži vien pārāk labi atbilst īslaicīgām sakritībām. Lielākā daļa veiksmīgo finanšu sistēmu izmanto hibrīda pieeju, apvienojot tradicionālos svārstīguma modeļus ar uz grafiem balstītu noskaņojuma analīzi no sociālajiem tīkliem.

Kāda ir telpiskās-laika prognozēšanas “telpiskā” daļa?

“Telpiskā” komponente attiecas uz datu punktu pozīciju vai attiecībām. Satiksmes prognozēšanā tas ir fiziskais attālums starp ceļa sensoriem. Ieteikumu sistēmā tas varētu būt “attālums” starp diviem lietotājiem, pamatojoties uz viņu līdzīgo gaumi. Tas būtībā laika rindas “kad” pievieno “kur”.

Vai varu izmantot grafikas prognozēšanu, ja man ir tikai viena datu plūsma?

Tehniski nē. Uz grafiem balstītām metodēm ir nepieciešamas vismaz divas saistītas vienības, lai izveidotu “grafu”. Ja jums ir tikai viena plūsma, labāk ir pieturēties pie vienfaktora tradicionālajiem modeļiem, piemēram, Holta-Vintera vai LSTM, kas ir īpaši izstrādāti, lai iedziļinātos vienā secībā.

Kā šie modeļi apstrādā "Melnā gulbja" notikumus?

Tradicionālie modeļi parasti tos uzskata par novirzēm un ignorē, kas var būt bīstami. Grafu modeļi ir nedaudz labāki, jo tie var redzēt šoku, kas sākas vienā tīkla stūrī, un brīdināt par to, kā tas izplatīsies pārējā daļā, lai gan neviens modelis nav ideāls nepieredzētu notikumu prognozēšanai.

Kuru ir vieglāk uzturēt ražošanas vidē?

Tradicionālie modeļi ir daudz vienkāršāki. Tiem ir mazāk kustīgu daļu, nepieciešama mazāka "datu novirzes" uzraudzība, un tos var pārkvalificēt dažu sekunžu laikā. Grafu modeļiem nepieciešama pastāvīga tīkla topoloģijas "veselības pārbaude"; ja mainās jūsu vienību savienojuma veids, var būt nepieciešama visa modeļa pilnīga pārbūve.

Vai grafiku prognozēšana darbojas piegādes ķēdes pārvaldībā?

Jā, šis ir viens no spēcīgākajiem lietošanas gadījumiem. Tā kā piegādes ķēdes ir burtiski mezglu (rūpnīcu) un robežu (piegādes maršrutu) tīkli, grafu modeļi ir lieliski piemēroti, lai prognozētu, kā vienas izejvielas trūkums pēc vairākām nedēļām izplatīsies visā ražošanas procesā.

Kāda programmatūra man ir nepieciešama uz grafikiem balstītai prognozēšanai?

Parasti jums būs nepieciešami Python balstīti ietvari, piemēram, PyTorch Geometric vai Deep Graph Library (DGL). Atšķirībā no tradicionālās statistikas, kas ir pieejama gandrīz katrā izklājlapā vai pamata BI rīkā, grafu prognozēšana gandrīz pilnībā darbojas pielāgotu mašīnmācīšanās kanālu jomā.

Spriedums

Izvēlieties tradicionālo laika rindu analīzi vienkāršiem biznesa rādītājiem, kur galvenās prioritātes ir interpretējamība un zemas izmaksas. Pārejiet uz uz grafikiem balstītu prognozēšanu, ja pārvaldāt sarežģītas, savstarpēji saistītas sistēmas, kurās mainīgo lielumu savstarpējās attiecības ir tikpat svarīgas kā paši datu punkti.

Saistītie salīdzinājumi

Astroloģiskā prognozēšana pret statistisko prognozēšanu

Kamēr astroloģiskā prognozēšana saista debesu ciklus ar cilvēku pieredzi, lai iegūtu simbolisku nozīmi, statistiskā prognozēšana analizē empīriskus vēsturiskus datus, lai novērtētu nākotnes skaitliskās vērtības. Šis salīdzinājums pēta plaisu starp seno, uz arhetipiem balstīto personīgās pārdomu sistēmu un moderno, uz datiem balstīto metodoloģiju, ko izmanto objektīvai lēmumu pieņemšanai uzņēmējdarbībā un zinātnē.

Astroloģiskie tranzīti pret dzīves notikumu varbūtības modeļiem

Šis salīdzinājums pēta aizraujošo plaisu starp senajiem debesu novērojumiem un mūsdienu paredzošo analītiku. Kamēr astroloģiskie tranzīti izmanto planētu ciklus, lai interpretētu personīgās izaugsmes fāzes, dzīves notikumu varbūtības modeļi balstās uz lieliem datiem un statistikas algoritmiem, lai prognozētu konkrētus pagrieziena punktus, piemēram, karjeras izmaiņas vai veselības aprūpes vajadzības.

Ātrā testēšana salīdzinājumā ar A/B testēšanu

Lai gan abas metodoloģijas kalpo digitālās veiktspējas optimizēšanai, tās darbojas uz principiāli atšķirīgiem tehnoloģiju slāņiem. Ātrā testēšana koncentrējas uz lingvistisko ievaddatu pilnveidošanu, kas vada ģeneratīvos mākslīgā intelekta modeļus, savukārt A/B testēšana nodrošina stingru statistisko sistēmu divu atšķirīgu tīmekļa lapas vai lietotnes funkcijas versiju salīdzināšanai, lai noskaidrotu, kura no tām labāk rezonē ar reāliem cilvēkiem.

Augstas frekvences dati salīdzinājumā ar apkopotiem datiem modelēšanā

Izvēle starp augstas frekvences datiem un apkopotiem datiem ir būtisks kompromiss analītikā. Lai gan neapstrādātas, mazāk nekā sekundes laikā apkopotas darījumu un sensoru plūsmas piedāvā nepārspējamu ieskatu tūlītējā uzvedībā un tirgus mikrostruktūrās, saspiesti laika apkopojumi novērš milzīgu statistisko troksni un lielas infrastruktūras prasības, lai atklātu skaidras, strukturālas ilgtermiņa tendences.

Automatizēta modeļu izsekošana salīdzinājumā ar manuālu eksperimentu izsekošanu

Izvēle starp automatizētu modeļu izsekošanu un manuālu eksperimentu izsekošanu būtiski ietekmē datu zinātnes komandas ātrumu un reproducējamību. Kamēr automatizācija izmanto specializētu programmatūru, lai nemanāmi uztvertu katru hiperparametru, metriku un artefaktu, manuālā izsekošana balstās uz cilvēka rūpību, izmantojot izklājlapas vai Markdown failus, radot krasu kompromisu starp iestatīšanas ātrumu un ilgtermiņa mērogojamu precizitāti.