Pareizās sistēmas veselības stratēģijas izvēle bieži vien ir atkarīga no laika. Kamēr reaktīvā uzraudzība brīdina komandas nekavējoties pēc incidenta, lai samazinātu notiekošo dīkstāvi, paredzošā uzraudzība izmanto vēsturiskos datu modeļus un mašīnmācīšanos, lai brīdinātu par iespējamu resursu izsīkumu vai kļūmēm, pirms tās ietekmē lietotājus.
Iezīmes
Reaktīvās iestatīšanas metodes precīzi norāda, kas šobrīd ir bojāts, bez jebkādām statistiskām minēšanām.
Prognozējošie rīki aprēķina, kad resurss beigsies, dodot komandām dienas, lai plānotu risinājumus.
Paļaušanās tikai uz reaktīviem rādītājiem garantē, ka jūsu lietotāji saskarsies ar kļūdām, pirms jūs to darīsiet.
Prognozējošiem modeļiem nepieciešama nepārtraukta pielāgošana, lai izvairītos no apjukuma sezonālu datplūsmas pieauguma dēļ.
Kas ir Reaktīvā uzraudzība?
Uz incidentiem balstīta pieeja, kas aktivizē brīdinājumus nekavējoties pēc sistēmas sliekšņa pārkāpšanas vai kļūmes.
Lielā mērā balstās uz fiksētiem sliekšņiem, piemēram, pārbaudi, vai centrālā procesora noslodze pārsniedz 95% vai vai strauji pieaug HTTP 500 kļūdu skaits.
Veido pamatu tradicionālajam sistēmas administratora darbam un standarta DevOps dežūru rotācijām.
Iegūst konkrētus, nenoliedzamus telemetrijas datus, jo mēra notikumus, kas jau ir notikuši.
Nepieciešamas ievērojami mazākas skaitļošanas izmaksas un lētāka krātuve, jo tajā netiek izmantoti nepārtraukti prognozēšanas modeļi.
Darbojas kā kritisks galīgais drošības tīkls, kas uztver negaidītus, katastrofālus robežgadījumus, ko datu modeļi nespēj paredzēt.
Kas ir Prognozējošā uzraudzība?
Uzlabota, uz datiem balstīta stratēģija, kas analizē vēsturiskās tendences, lai prognozētu un novērstu gaidāmās sistēmas kļūmes.
Izmanto mašīnmācīšanās algoritmus, piemēram, lineāro regresiju, ARIMA vai īstermiņa atmiņas tīklus, lai prognozētu telemetrijas datus.
Identificē smalkas, lēni progresējošas anomālijas, piemēram, klusas atmiņas noplūdes, kas pārsniedz stingrus statiskos sliekšņus.
Lai efektīvi apmācītu modeļu atpazīšanas modeļus, ir nepieciešami plaši vēsturiski datu kopumi un stabila krātuve.
Pārvirza inženiertehnisko uzmanību no augstas slodzes ārkārtas ugunsdzēsības uz plānotu, proaktīvu infrastruktūras uzturēšanu.
Reizēm var rasties viltus trauksmes, ja pēkšņas, labvēlīgas izmaiņas lietotāju datplūsmas modeļos mulsina paredzošos modeļus.
Salīdzinājuma tabula
Funkcija
Reaktīvā uzraudzība
Prognozējošā uzraudzība
Primārais fokuss
Incidentu mazināšana un atkopšana
Bojājumu novēršana un prognozēšana
Sprūda mehānisms
Reāllaika sliekšņa pārkāpumi
Statistikas anomālijas un tendenču novirzes
Datu prasības
Tūlītēja, reāllaika metrika
Plašas vēsturiskās telemetrijas bāzes līnijas
Darbības temps
Augsta stresa līmeņa ārkārtas reaģēšana
Plānotas proaktīvas korekcijas
Sistēmas sarežģītība
Zema līdz vidēja iestatīšanas grūtības pakāpe
Augsta sarežģītība, kas saistīta ar ML cauruļvadiem
Izmaksu profils
Budžetam draudzīgs ar zemām skaitļošanas vajadzībām
Augstākas izmaksas nepārtrauktas datu analīzes dēļ
Galvenais ieguvums
Aktīvo problēmu galīgais pierādījums
Agrīnās brīdinājuma zīmes pirms ietekmes uz lietotāju
Detalizēts salīdzinājums
Operacionālās darbplūsmas un komandas dinamika
Reaktīva stratēģija piespiež inženierus ieņemt aizsardzības pozīciju, kur panākumus mēra pēc tā, cik ātri dežūrējošs tehniķis var novērst aktīvu elektroenerģijas padeves pārtraukumu. Nakts vidū atskan trauksmes signāli, pieprasot tūlītēju triāžu, lai atjaunotu bojātus pakalpojumus. Prognozējošā uzraudzība pilnībā maina šo dinamiku, pārceļot uzdevumus uz dienasgaismas stundām, pārveidojot haotiskas neatliekamās palīdzības nodaļas par sakārtotiem apkopes grafikiem, kur anomālijas tiek novērstas regulāru dežūru laikā.
Resursu izmantošana un izmaksu efektivitāte
Pamata reaģējošu pārbaužu iestatīšana izmaksā ļoti maz skaitļošanas jaudas vai krātuves ziņā, jo rīki vienkārši novērtē rādītājus, salīdzinot ar statiskajiem ierobežojumiem. Prognozējošām arhitektūrām ir nepieciešamas lielākas finansiālas saistības, jo vēsturisko telemetrijas datu ievadīšana analīzes dzinējos noslogo skaitļošanas budžetus. Organizācijām ir jāsabalansē inteliģentās analītikas darbības pastāvīgās izmaksas ar pēkšņiem, milzīgiem finansiāliem zaudējumiem, ko rada neierobežota lietojumprogrammu dīkstāve.
Anomāliju un jaunu kļūmju apstrāde
Reaģējošie brīdinājumi izceļas ar tīru, bināru kļūmju, piemēram, pilnībā avarējušas datubāzes konteinera vai pārtraukta tīkla savienojuma, identificēšanu. Tomēr tie nepamana lēnu, sistēmisku sabrukumu, līdz ir par vēlu. Prognozējošās platformas izceļas, izsekojot sarežģītu daudzfaktoru nobīdi, lai gan tās dažkārt var nepareizi interpretēt veselīgu, nepieredzētu biznesa datplūsmas pieaugumu kā sistēmisku kļūmi, radot unikālas konfigurācijas problēmas.
Ieviešana un tehniskais parāds
Inženieri, izmantojot atvērtā pirmkoda veidnes, vienas pēcpusdienas laikā var izvietot standarta reaktīvās pārbaudes milzīgā klasterī. No otras puses, paredzošās sistēmas ieviešanai ir nepieciešams datu inženierijas cauruļvads, lai attīrītu telemetriju, apmācītu modeļus un novērstu algoritmisko neobjektivitāti. Ja paredzošās sistēmas netiek noregulētas, tās var ātri uzkrāt tehnisko parādu, lietojumprogrammu arhitektūrai attālinoties no to apmācības datiem.
Priekšrocības un trūkumi
Reaktīvā uzraudzība
Iepriekšējumi
Ievietots
Prognozējošā uzraudzība
Iepriekšējumi
Ievietots
Biežas maldības
Mīts
Prognozējošās uzraudzības ieviešana nozīmē, ka jūs varat pilnībā likvidēt reaģējošos brīdinājumus.
Realitāte
Neviens datu modelis nevar paredzēt ekskavatora darbības pārtraukumu, kas pārrauj optisko šķiedru kabeli, vai pēkšņu mākoņpakalpojumu sniedzēja darbības pārtraukumu. Prognozējošā analītika optimizē apkopi, taču vienmēr ir nepieciešamas pamata reaģējošas pārbaudes, lai pamanītu pēkšņus, neparedzamus sistēmas satricinājumus.
Mīts
Prognozējošās infrastruktūras rīki darbojas perfekti uzreiz pēc izņemšanas no kastes.
Realitāte
Katrai programmatūras ekosistēmai ir pilnīgi unikāli datplūsmas ritmi, datubāzes vaicājumu formas un lietotāju uzvedība. Prognozes dzinējam ir nepieciešamas vairākas nedēļas vai mēneši, lai mācītos no apkārtējās vides, izmantojot jūsu konkrētos ražošanas datus, pirms tā prognozes kļūst uzticamas.
Mīts
Reaktīvā uzraudzība ir novecojusi prakse, no kuras mūsdienu tehnoloģiju uzņēmumiem vajadzētu atteikties.
Realitāte
Vismodernākie tehnoloģiju giganti joprojām paļaujas uz reaģējošiem brīdinājumiem savu pamatpakalpojumu līmeņa mērķu sasniegšanai. Tas joprojām ir visuzticamākais veids, kā jebkurā sekundē pierādīt, vai lietojumprogramma veiksmīgi apstrādā pieprasījumus.
Mīts
Prognozējošai uzraudzībai ir nepieciešama īpaša, dārgu datu zinātnieku komanda.
Realitāte
Lai gan pielāgotiem modeļiem ir nepieciešama dziļa matemātika, mūsdienu novērojamības komplekti savās platformās tieši iebūvē iepriekš apmācītus prognozēšanas algoritmus. Vispārējās DevOps inženieri var viegli pārvaldīt šīs sistēmas, izmantojot pamata konfigurācijas karodziņus.
Bieži uzdotie jautājumi
Kāda ir galvenā tehniskā atšķirība starp reaktīvo un paredzošo uzraudzību?
Galvenā atšķirība ir saistīta ar laika un datu apstrādes koncepciju. Reaktīvā uzraudzība novēro pašreizējos datu punktus un atzīmē pārkāpumus attiecībā pret fiksētiem sliekšņiem, darbojoties kā dūmu detektors, kas zvana tikai ugunsgrēka gadījumā. Prognozējošā uzraudzība izmanto matemātiskus prognozēšanas modeļus, lai analizētu vēsturiskās tendences, brīdinot jūs vairākas dienas iepriekš, ka jūsu pašreizējā krātuves trajektorija nākamajā otrdienā izraisīs diska kļūmi.
Cik ilgs laiks paredzošajai sistēmai ir jāmācās, pirms tā kļūst precīza?
Lielākajai daļai komerciālo novērošanas rīku ir nepieciešamas vismaz divas līdz četras nedēļas tīru, nepārtrauktu veiktspējas rādītāju, lai izveidotu uzticamu uzvedības bāzes līniju. Šis periods ļauj mašīnmācīšanās algoritmiem kartēt normālus cikliskus modeļus, piemēram, datubāzes dublējumkopijas katru nakti vai datplūsmas kritumus nedēļas nogalē. Bez šīs vēsturiskās perspektīvas programmatūra nevar atšķirt bīstamu anomāliju no ikdienas rutīnas.
Vai reaktīvās uzraudzības sistēmas var palīdzēt jaudas plānošanā?
Tikai ierobežotā, retrospektīvā apjomā. Reaktīva iestatīšana var norādīt, ka jūsu serveris vakar sasniedza 100% atmiņas izmantošanas līmeni, kas varētu pamudināt jūs panikas dēļ iegādāties lielākus mākoņa serverus. Tai trūkst tendenču līnijas prognozēšanas iespēju, kas nepieciešamas, lai precīzi pateiktu, cik mēnešus jūsu pašreizējā infrastruktūra var uzturēt 15% lietotāju skaita pieauguma tempu mēnesī.
Kura pieeja ir labāka, lai mazinātu inženieru trauksmes nogurumu?
Labi noregulēta paredzošā sistēma parasti ir pārāka, lai mazinātu trauksmes nogurumu, jo tā jau sākotnēji novērš ārkārtas situāciju rašanos. Tā vietā, lai pamodinātu inženierus pulksten 3:00 no rīta ar haotiskiem brīdinājumiem, paredzošās platformas darba laikā ģenerē nesteidzamas apkopes pieprasījumus. Tomēr, ja paredzošā sistēma ir slikti noregulēta, tā var radīt cita veida nogurumu, apbērot komandas ar neskaidriem brīdinājumiem par statistisko novirzi.
Kādi konkrēti algoritmi vada paredzošās uzraudzības programmatūru?
Šīs sistēmas balstās uz laika rindu prognozēšanas un regresijas modeļu sajaukumu. Bieži izmantotās ieviešanas metodes vienkāršai resursu pieauguma aprēķināšanai izmanto lineāru regresiju, kā arī ARIMA un Holta-Vintera eksponenciālo izlīdzināšanu, lai ņemtu vērā sezonālās svārstības. Ļoti sarežģītās mākoņvidēs dziļās mācīšanās modeļi, piemēram, ilgtermiņa īstermiņa atmiņas tīkli, vienlaikus analizē korelācijas tūkstošiem atšķirīgu infrastruktūras rādītāju.
Vai paredzamā uzraudzība ir savu izmaksu vērta maziem jaunuzņēmumiem?
Parasti tas nav praktiski agrīnās stadijas uzņēmumiem. Jaunuzņēmumiem parasti ir ļoti svārstīga datplūsma, strauji mainīgas koda bāzes un ierobežoti vēsturiskie dati, kas viss kopā padara paredzošos modeļus ļoti neprecīzus. Viegli strādājošai komandai spēcīgu reaģējošu brīdinājumu iestatīšana apvienojumā ar automatizētiem mērogošanas noteikumiem nodrošina daudz labāku aizsardzību par daļu no finanšu un inženiertehniskajiem ieguldījumiem.
Kā šīs divas metodoloģijas tiek galā ar klusām kļūmēm, piemēram, atmiņas noplūdēm?
Šis scenārijs izceļ paredzošo rīku patieso spēku. Reaktīvs monitors nedēļām ilgi klusēs, kamēr atmiņas noplūde lēnām pieaugs, aktivizējot trauksmi tikai tad, kad serverim pilnībā pietrūks RAM un lietojumprogramma avarē. Prognozējošais monitors laika gaitā izseko atmiņas patēriņa augšupvērsto diagonālo leņķi, laikus saprotot, ka resurss tiek neilgtspējīgi iztukšots, un brīdinot komandu nedēļas pirms avārijas.
Vai uzņēmumam vajadzētu ieviest abas stratēģijas vienlaicīgi?
Šī hibrīdpieeja noteikti ir nozares zelta standarts mūsdienu vietņu uzticamības inženierijā. Jūs izmantojat paredzošo uzraudzību, lai uztvertu lēni mainīgas tendences, optimizētu mākoņpakalpojumu tēriņus un ieplānotu regulārus apkopes uzdevumus darba nedēļas laikā. Vienlaikus jūs uzturat aktīvus vienkāršus reaģējošus monitorus, kas kalpo kā galvenā rezerves aizsardzība pret pēkšņām programmatūras kļūdām, drošības ievainojamībām vai tīkla infrastruktūras traucējumiem.
Spriedums
Izvēlieties reaktīvo uzraudzību, ja pārvaldāt vienkāršu infrastruktūru ar ierobežotu budžetu, kur pamata darbības laiks atbilst biznesa mērķiem. Augstas pieejamības uzņēmumu lietojumprogrammām, kur viena dīkstāves minūte izmaksā tūkstošiem dolāru, ieguldījumi paredzošajā analītikā atmaksājas, apturot incidentus, pirms tie sasniedz ražošanas jaudu.