debesų infrastruktūraduomenų apdorojimastransliacijapaketinis skaičiavimasrealaus laiko sistemos
Realaus laiko sprendimų maršrutizavimas ir paketinio apdorojimo sistemos
Realaus laiko sprendimų maršrutizavimo sistema apdoroja duomenis ir reaguoja į juos per milisekundes, todėl idealiai tinka skubioms operacijoms, tokioms kaip sukčiavimo aptikimas ir dinaminis kainodaros nustatymas. Paketinio apdorojimo sistemos tvarko didelius duomenų kiekius suplanuotais intervalais, puikiai atlikdamos išsamią analizę, ataskaitų teikimą ir užduotis, kurioms delsa yra priimtina.
Akcentai
Realaus laiko maršrutizavimas priima sprendimus per milisekundes, o paketinės sistemos keičia greitį, kad gautų analitinį gylį.
Paketinis apdorojimas leidžia ekonomiškiau apdoroti petabaitų dydžio darbo krūvius pagal grafiką.
Realaus laiko vamzdynams reikalinga nuolat veikianti infrastruktūra, todėl padidėja bazinės eksploatavimo išlaidos.
Daugelis įmonių abi architektūras naudoja lygiagrečiai, kiekvieną naudodamos geriausiai apdorojamoms darbo krūviams.
Kas yra Realaus laiko sprendimų maršrutizavimas?
Sistema, kuri akimirksniu įvertina gaunamus duomenis ir nukreipia veiksmus ar sprendimus pagal iš anksto nustatytas taisykles ir mašininio mokymosi modelius.
Apdoroja atskirus įvykius ar operacijas per mažiau nei 100 milisekundžių, o optimizuotuose srautuose dažnai – vos per vieno skaitmens milisekundes.
Pasikliauja atminties skaičiavimo sistemomis, tokiomis kaip „Apache Flink“, „Apache Storm“ arba „Redis“, kad būtų išvengta disko įvesties / išvesties kliūčių.
Dažnai naudojamas sukčiavimo aptikimui, kai „Visa“ sprendimų nukreipimo sistema piko valandomis analizuoja daugiau nei 5000 operacijų per sekundę.
Integruojasi su srautinio perdavimo platformomis, tokiomis kaip „Apache Kafka“ ar „Amazon Kinesis“, kad būtų galima naudoti įvykius jiems atvykus.
Reikalinga nuolat veikianti infrastruktūra su mažo delsos tinklu, paprastai kainuojanti daugiau už operaciją nei paketinės alternatyvos.
Kas yra Paketinio apdorojimo sistemos?
Skaičiavimo metodas, kai duomenys renkami laikui bėgant ir apdorojami dideliais suplanuotais fragmentais, o ne nuolat.
Tvarko didžiulius duomenų rinkinius, matuojamus terabaitais arba petabaitais, todėl yra daugelio įmonių analizės darbo eigų pagrindas.
Sukurta naudojant tokias sistemas kaip „Apache Hadoop“, „Apache Spark“ ir „Google BigQuery“, kurios paskirsto darbą tarp klasterių.
Paprastai vykdoma pagal tvarkaraštį, kuris svyruoja nuo valandos iki dienos, o kai kurios senesnės sistemos apdoroja užduotis per naktį.
Optimizuotas pralaidumui, o ne greičiui, keičiant delsą siekiant ekonomiškumo ir skaičiavimo gylio.
Naudoja tokios įmonės kaip „Netflix“ ir „Facebook“, kad generuotų naktinius rekomendacijų modelių atnaujinimus ir verslo analitikos ataskaitas.
Palyginimo lentelė
Funkcija
Realaus laiko sprendimų maršrutizavimas
Paketinio apdorojimo sistemos
Apdorojimo delsa
Milisekundės į sekundes
Minutės iki valandų
Duomenų apimties tvarkymas
Ribota atminties ir srauto greičio
Lengvai keičiasi iki petabaitų
Tipiniai naudojimo atvejai
Sukčiavimo aptikimas, dinaminis kainodaros nustatymas, daiktų interneto įspėjimai
ETL darbai, ataskaitų teikimas, modelių mokymai
Sąnaudų efektyvumas
Didesnė vieno įvykio kaina dėl nuolat įjungtų išteklių
Mažesnės išlaidos vienam įrašui dėl masininio apdorojimo
Infrastruktūros reikalavimai
Atmintyje esančios saugyklos, srautiniai procesoriai, mažo delsos tinklai
Sudėtinga; reikia tiksliai vieną kartą atliekamos semantikos
Subrendęs; pakartotiniai bandymai ir kontroliniai taškai yra standartiniai
Išvesties šviežumas
Visada aktualu
Tik toks pat šviežias, kaip ir paskutinė surinkta partija
Išsamus palyginimas
Vėlavimas ir reagavimas
Realaus laiko sprendimų nukreipimas yra sukurtas siekiant neatidėliotinumo, dažnai grąžinant sprendimus per mažiau nei 50 milisekundžių, kad tolesni veiksmai, pvz., sandorio blokavimas ar kainos koregavimas, galėtų būti atlikti dar prieš vartotojui pastebint bet kokį vėlavimą. Paketinio apdorojimo sistemos veikia visiškai skirtingais laiko intervalais, kai užduotis gali trukti 30 minučių arba kelias valandas, priklausomai nuo duomenų rinkinio dydžio. Jei jūsų programai reikalingas momentinis grįžtamasis ryšys, paketinis apdorojimas tiesiog negali konkuruoti. Tačiau jei rezultatų galite palaukti iki rytojaus ryto, paketinis apdorojimas siūlo daug daugiau gylio kiekvienam skaičiavimo ciklui.
Sąnaudų ir išteklių naudojimo efektyvumas
Realaus laiko duomenų srauto valdymas reiškia serverių šildymą visą parą, o tai reiškia didesnes bazinės infrastruktūros sąnaudas net ir ramybės periodais. Paketinės sistemos naudojasi masto ekonomija, nes jos gali paleisti didelius klasterius tik tada, kai reikia, ir vėliau juos išjungti, mokėdamos tik už faktinį skaičiavimo laiką. Organizacijoms, apdorojančioms milijonus įvykių per sekundę, realaus laiko sąnaudos gali tapti didelės. Paketinis apdorojimas išlieka pigesnis pasirinkimas, kai delsa nėra svarbi, ypač organizacijoms, kurios jau investavo į debesies duomenų saugyklas.
Naudojimo atvejo tinkamumas
Realaus laiko sprendimų maršrutizavimas puikiai tinka situacijose, kai svarbi kiekviena sekundė, pavyzdžiui, mokėjimų autorizavimas, tinklo įsilaužimų aptikimas ir suasmenintas skelbimų kainų siūlymas. Paketinio apdorojimo sistemos dominuoja tokiuose darbo eigose kaip mėnesinis finansinis suderinimas, klientų kaitos analizė ir mašininio mokymosi modelių mokymas pagal istorinius duomenis. Daugelis įmonių iš tikrųjų naudoja abi architektūras kartu, naudodamos realaus laiko architektūrą neatidėliotiniems sprendimams priimti ir paketinį apdorojimą gilesnei retrospektyviai analizei. Pasirinkimas retai priklauso nuo to, kuri yra geresnė apskritai, o nuo to, kuri atitinka konkrečią verslo problemą.
Techninis sudėtingumas ir priežiūra
Realaus laiko sistemoms reikalingas kruopštus projektavimas, susijęs su būsenos valdymu, tiksliu pateikimu ir atgalinio slėgio valdymu, o tai padidina reikšmingas eksploatacines išlaidas. Paketinės sistemos naudoja dešimtmečius brandžius įrankius, todėl daugumai komandų jas lengviau stebėti, derinti ir keisti. Maža inžinierių komanda gali sunkiai prižiūrėti realaus laiko srautą gamybos mastu, o ta pati komanda galėtų valdyti paketinę aplinką naudodama standartinius įrankius. Sudėtingumas dažnai lemia sprendimus labiau nei gryni našumo reikalavimai.
Duomenų naujumas ir tikslumas
Kadangi realaus laiko maršrutizavimas veikia duomenis iš karto juos gaunant, sprendimai atspindi naujausią pasaulio padėtį, o tai labai svarbu taikant sukčiavimo taisykles, kurios keičiasi kas valandą. Paketinio apdorojimo sistemos veikia su momentinėmis kopijomis, o tai reiškia, kad įžvalgos gali būti kelių valandų ar net kelių dienų senumo, kol pasiekia suinteresuotąsias šalis. Tačiau paketinis apdorojimas dažnai duoda tikslesnius rezultatus, nes galima taikyti sudėtingesnį patvirtinimą, sujungimus tarp visų duomenų rinkinių ir sudėtingesnius modelius be laiko spaudimo. Naujumas ir tikslumas dažnai duoda priešingų rezultatų.
Privalumai ir trūkumai
Realaus laiko sprendimų maršrutizavimas
Privalumai
+Reakcijos laikas per mažiau nei sekundę
+Visada aktualūs duomenys
+Įgalina momentinę automatizaciją
+Geresnė klientų patirtis
Pasirinkta
−Didesnės infrastruktūros išlaidos
−Sudėtinga prižiūrėti
−Ribotas atminties dydžio
−Griežtesnis atsparumas gedimams
Paketinio apdorojimo sistemos
Privalumai
+Ekonomiškas ir efektyvus dideliu mastu
+Tvarko didžiulius duomenų rinkinius
+Subrendusi įrankių ekosistema
+Lengviau derinti
Pasirinkta
−Didelė delsa pagal dizainą
−Pasenę duomenų išvestys
−Suplanuotas nelankstumas
−Uždelstos įžvalgos
Dažni klaidingi įsitikinimai
Mitas
Realiojo laiko apdorojimas visada yra tikslesnis nei paketinis apdorojimas.
Realybė
Tikslumas priklauso nuo modelio ir duomenų kokybės, o ne nuo apdorojimo stiliaus. Paketinės sistemos dažnai pateikia tikslesnius rezultatus, nes jos gali atlikti sudėtingesnius patikrinimus ir algoritmus be laiko apribojimų. Realaus laiko sistemos kartais aukoja modelio sudėtingumą dėl greičio.
Mitas
Paketinis apdorojimas yra pasenęs ir jį keičia srautinis perdavimas.
Realybė
Paketinis apdorojimas išlieka dominuojančiu metodu daugumai įmonių analizės, ataskaitų teikimo ir mašininio mokymosi mokymo darbo krūvių. Srautinis apdorojimas papildo, o ne pakeičia paketinį apdorojimą, ir šie du metodai dažnai naudojami kartu vadinamojoje lambda arba kappa architektūroje.
Mitas
Realusis laikas reiškia, kad duomenys apdorojami akimirksniu, be jokio vėlavimo.
Realybė
Net realaus laiko sistemos turi tam tikrą vėlavimą, paprastai matuojamą milisekundėmis. Šis terminas reiškia apdorojimą duomenims atvykus, o ne laukiant suplanuoto laiko, tačiau, atsižvelgiant į tinklo ir skaičiavimo apkrovas, nė viena sistema nėra tikrai momentinė.
Mitas
Paketinės sistemos visiškai negali apdoroti srautinių duomenų.
Realybė
Šiuolaikinės paketinės sistemos, tokios kaip „Apache Spark Structured Streaming“, gali apdoroti duomenis mikropartijomis, taip ištrindamos ribą tarp šių dviejų paradigmų. Daugelis vadinamųjų srautinio apdorojimo sistemų iš tikrųjų atlieka labai greitas paketines operacijas „slaptai“.
Mitas
Sprendimų nukreipimas realiuoju laiku yra per brangus mažoms įmonėms.
Realybė
Debesijos pagrindu veikiančios paslaugos, tokios kaip „AWS Kinesis“, „Google Pub/Sub“ ir „Azure Stream Analytics“, suteikė galimybę apdoroti duomenis realiuoju laiku nedideliu mastu. Mažos įmonės gali mokėti tik už įvykius, kuriuos jos apdoroja, taip išvengdamos didelių išankstinių investicijų į infrastruktūrą.
Dažnai užduodami klausimai
Kuo skiriasi sprendimų maršrutizavimas realiuoju laiku ir paketinis apdorojimas?
Realiojo laiko sprendimų maršrutizavimo sistema apdoroja ir reaguoja į kiekvieną įvykį per milisekundes jam gavus, o paketinis apdorojimas renka duomenis per tam tikrą laikotarpį ir apdoroja juos visus vienu metu pagal tvarkaraštį. Pagrindinis kompromisas yra delsos, kainos ir analitinio gylio santykis. Realusis laikas optimizuotas greičiui, o paketinis apdorojimas – pralaidumui ir skaičiavimo sudėtingumui.
Kada įmonė turėtų naudoti realaus laiko sprendimų nukreipimą, o ne paketinį apdorojimą?
Maršruto parinkimas realiuoju laiku yra prasmingas, kai sprendimo verslo vertė laikui bėgant smarkiai sumažėja, pavyzdžiui, blokuojant nesąžiningą operaciją, koreguojant kainą pagal paklausą arba suaktyvinant daiktų interneto įspėjimą. Jei minučių ar valandų vėlavimas sukeltų finansinių nuostolių, saugumo problemų ar prastą naudotojo patirtį, tinkamas pasirinkimas yra realusis laikas. Priešingu atveju paketinis apdorojimas paprastai suteikia didesnę vertę.
Ar realiuoju laiku ir paketinis apdorojimas gali veikti kartu?
Taip, ir daugelis didelių įmonių lygiagrečiai naudoja abi architektūras. Įprastas modelis yra lambda architektūra, kai realaus laiko srautai pateikia tiesioginius, bet apytikslius rezultatus, o paketinės užduotys vykdomos periodiškai, kad būtų gauti pataisyti, išsamūs vaizdai. Šis hibridinis metodas suteikia organizacijoms ir greičio, ir tikslumo, neverčiant jų rinktis vienos paradigmos.
Kokios yra populiarios realaus laiko sprendimų maršrutizavimo sistemos?
„Apache Flink“, „Apache Storm“ ir „Apache Kafka Streams“ yra plačiai naudojamos atvirojo kodo parinktys realaus laiko srautams kurti. Valdomoje debesyje tokios paslaugos kaip „Amazon Kinesis Data Analytics“, „Google Dataflow“ ir „Azure Stream Analytics“ teikia panašias galimybes be operacinių išlaidų. „Redis“ dažnai naudojama kaip sprendimų saugykla atmintyje itin mažo delsos laiko paieškoms.
Kokios yra populiarios paketinio apdorojimo sistemos?
„Apache Hadoop MapReduce“ buvo didelio masto paketinio apdorojimo pradininkė ir tebėra naudojama, nors „Apache Spark“ ją iš esmės pakeitė daugumai darbo krūvių dėl greičio pranašumų atmintyje. Debesijos duomenų saugyklos, tokios kaip „Google BigQuery“, „Amazon Redshift“ ir „Snowflake“, taip pat siūlo labai optimizuotus paketinių užklausų variklius, kurie apdoroja petabaitų masto analizę su SQL.
Kiek kainuoja apdorojimas realiuoju laiku, palyginti su paketiniu apdorojimu?
Realiojo laiko apdorojimas paprastai kainuoja daugiau už įvykį, nes infrastruktūra turi veikti nuolat, kad galėtų apdoroti gaunamus srautus. Paketinis apdorojimas naudojasi masto ekonomija, kai didelis klasteris veikia trumpą laiką, o tada išsijungia. Tiksli kaina priklauso nuo debesijos teikėjo ir duomenų kiekio, tačiau realiuoju laiku apdorojamas duomenų vienetas gali kainuoti nuo 3 iki 10 kartų brangiau.
Ar sprendimų maršrutizavimas realiuoju laiku yra tas pats, kas srautinis apdorojimas?
Jie labai sutampa, bet nėra identiški. Srauto apdorojimas reiškia platesnes technines galimybes tvarkyti nuolatinius duomenų srautus, o realaus laiko sprendimų maršrutizavimas yra specifinis srauto apdorojimo taikymas, orientuotas į sprendimų priėmimą ir į juos reagavimą kiekvienam įvykiui. Visuose realaus laiko sprendimų maršrutizavimuose naudojamas srauto apdorojimas, tačiau srauto apdorojimas taip pat gali būti naudojamas analizei, stebėjimui ar transformavimui nepriimant sprendimų.
Kuriose pramonės šakose labiausiai naudojamas sprendimų priėmimas realiuoju laiku?
Finansinės paslaugos jį naudoja sukčiavimo aptikimui ir algoritminei prekybai, telekomunikacijos – tinklo maršrutizavimui ir anomalijų aptikimui, elektroninė prekyba – dinaminiam kainodaros nustatymui ir suasmeninimui, o sveikatos priežiūra – pacientų stebėjimo įspėjimams. Bet kuris sektorius, kuriame delsimas imtis veiksmų sukelia finansinius nuostolius, saugumo riziką arba pablogina klientų patirtį, linkęs daug investuoti į realaus laiko galimybes.
Kaip tvarkote gedimus realaus laiko sprendimų maršrutizavimo sistemose?
Inžinieriai naudoja tokius metodus kaip tiksliai vieną kartą veikianti semantika, idempotentinis apdorojimas, kontrolinių taškų nustatymas ir pakartotinai atkuriami įvykių žurnalai, siekdami užtikrinti, kad sprendimai nebūtų prarasti ar dubliuoti. „Apache Kafka“ nuolatinis žurnalas ir „Flink“ kontrolinių taškų sistema yra įprasti elementai. Paketinės sistemos turi paprastesnį gedimų atkūrimą, nes užduotis galima tiesiog paleisti iš naujo, o realaus laiko sistemoms reikalingas sudėtingesnis būsenos valdymas.
Ar mašininio mokymosi modeliai gali veikti sprendimų maršrutizavimo realiuoju laiku srityje?
Taip, ir tai vis dažniau pasitaiko. Paketinėse aplinkose apmokyti modeliai gali būti diegiami kaip mažo delsos išvadų paslaugos, naudojant tokias platformas kaip „TensorFlow Serving“, „ONNX Runtime“ arba debesijos paslaugas, tokias kaip „AWS SageMaker Endpoints“. Mokymas paprastai vyksta neprisijungus paketais, o išvados – internetu realiuoju laiku, derinant abiejų paradigmų stipriąsias puses.
Nuosprendis
Rinkitės realiuoju laiku atliekamų sprendimų nukreipimą, kai jūsų verslo rezultatai priklauso nuo veiksmų milisekundžių tikslumu, pavyzdžiui, sukčiavimo prevencijos, algoritminės prekybos ar daiktų interneto valdomos automatizacijos srityse. Rinkitės paketinio apdorojimo sistemas, kai jums reikia analizuoti didelius istorinius duomenų rinkinius ataskaitų teikimo, mokymo ar atitikties tikslais, kai laukimo valandos yra priimtinos. Dauguma brandžių organizacijų diegia abu, leisdamos kiekvienai architektūrai tvarkyti darbo krūvius, kuriems ji buvo sukurta.