pilvandmetöötlusinfrastruktuurhajutatud süsteemidandmekeskusedskaleeritavus

Hajutatud andmetöötlus vs tsentraliseeritud andmekeskused

Hajutatud andmetöötlus jaotab töökoormuse paljude omavahel ühendatud masinate vahel, samas kui tsentraliseeritud andmekeskused koondavad töötlemisvõimsuse ühte füüsilisse rajatisse. Mõlemad lähenemisviisid toetavad tänapäevaseid pilveteenuseid, kuid erinevad oluliselt skaleeritavuse, rikketaluvuse ja kulustruktuuri poolest.

Esiletused

Hajutatud süsteemid kõrvaldavad üksikud rikkekohad, jaotades töö paljude sõlmede vahel.
Tsentraliseeritud andmekeskused pakuvad lihtsamat haldust ja tugevamat füüsilise turvalisuse kontrolli.
Hajutatud andmetöötlus skaleerub horisontaalselt sõlmede lisamise teel, tsentraliseeritud mudelid aga vertikaalselt.
Kaasaegsed pilveplatvormid nagu AWS ja Azure ühendavad mõlemad arhitektuurid kulisside taga.

Mis on Hajutatud andmetöötlus?

Mudel, kus töötlemisülesanded on jagatud mitme omavahel ühendatud arvuti vahel, mis töötavad koos ühtse süsteemina.

Sai alguse 1960. ja 1970. aastatel ARPANET-iga, mis oli üks esimesi praktilisi hajusvõrke.
Tugineb mitmele masinale, mis suhtlevad võrgu kaudu arvutusvõimsuse, salvestusruumi ja teenuste jagamiseks.
Kuulsate varajaste näidete hulka kuulub SETI@home, mis kasutas raadioteleskoopide andmete analüüsimiseks vabatahtlikke koduarvuteid.
Kaasaegsete rakenduste hulka kuuluvad Apache Hadoop ja Apache Spark, mis on loodud massiivsete andmekogumite töötlemiseks klastrite vahel.
Plokiahelavõrgud, nagu Bitcoin, toimivad detsentraliseeritud hajusüsteemidena ilma keskse asutuseta.

Mis on Tsentraliseeritud andmekeskused?

Traditsiooniline infrastruktuurimudel, kus kõik arvutusressursid asuvad ühes spetsiaalses rajatises.

Suurarvutid populariseerisid tsentraliseeritud mudelit 1960. aastatel, teenindades tuhandeid kasutajaid ühest kohast.
Kaasaegsed hüperskaala rajatised mahutavad ühte hoonesse üle miljoni serveri.
Ettevõtted nagu Equinix, Google ja Amazon haldavad tsentraliseeritud ülikoolilinnakuid, mis pakuvad pilveteenuseid.
Tsentraliseeritud rajatiste energiatõhususe (PUE) reiting on tavaliselt vahemikus 1,1–1,5.
Mudel lihtsustab haldust, turvaauditeerimist ja regulatiivset vastavust füüsilise konsolideerimise kaudu.

Võrdlustabel

Funktsioon	Hajutatud andmetöötlus	Tsentraliseeritud andmekeskused
Arhitektuur	Mitu sõlme erinevates asukohtades	Üksikasutusasutus või ülikoolilinnak
Skaleeritavus	Horisontaalne, lisa sõlmi ükskõik kuhu	Vertikaalne, laiendage rajatise mahutavust
Vea taluvus	Kõrge, ühtegi rikkepunkti pole	Madalam, sõltub redundantsuse disainist
Latentsusaeg	Muutuv, sõltub sõlme lähedusest	Järjepidev asutusesiseselt
Juhtimise keerukus	Kõrgem, nõuab orkestreerimistööriistu	Madalam, tsentraliseeritud administratsioon
Turvamudel	Hajutatud usaldus ja krüptimine	Füüsiline perimeeter ja juurdepääsukontroll
Tüüpilised kasutusjuhud	Suurandmed, plokiahel, servapüüdlused	Ettevõtte rakendused, pilvemajutus, SaaS
Kulude struktuur	Madalamad riistvarakulud, parem võrguühendus	Kõrgemad rajatise kulud, prognoositav tegevus

Üksikasjalik võrdlus

Arhitektuur ja füüsiline paigutus

Hajutatud andmetöötlus hajutab töötlemise paljude masinate vahel, mis võivad asuda eri linnades, riikides või isegi mandritel. Need sõlmed suhtlevad standardsete võrguprotokollide kaudu ja koordineerivad tööd konsensusalgoritmide või master-worker mustrite abil. Tsentraliseeritud andmekeskused kasutavad vastupidist lähenemisviisi, pakkides tuhandeid servereid ühte hoonesse hoolikalt kontrollitud jahutuse, toite ja ühenduvusega. Füüsiline kontsentratsioon muudab riistvara hoolduse lihtsaks, kuid loob ühtse geograafilise sõltuvuse.

Skaleeritavus ja kasv

Nõudluse järsu suurenemise korral saavad hajutatud süsteemid klastrisse lihtsalt lisada sõlmi, sageli erinevates piirkondades, et teenindada neile lähemal asuvaid kasutajaid. See horisontaalne skaleerimine on massilises mastaabis tavaliselt paindlikum ja kulutõhusam. Tsentraliseeritud rajatised skaleeruvad vertikaalselt, lisades rohkem servereid, riiuleid või isegi ehitades uusi tiibu, mis nõuab märkimisväärseid kapitaliinvesteeringuid ja ettevalmistusaega. Pilveteenuse pakkujad ühendavad sageli mõlemad mudelid, kasutades tsentraliseeritud hüperskaalilisi ülikoolilinnakuid, mis sisemiselt tuginevad hajutatud tarkvaraarhitektuuridele.

Usaldusväärsus ja rikketaluvus

Hajutatud süsteemid on oma olemuselt vastupidavamad, kuna ühe sõlme rike harva kogu võrgu kokku kukub. Teenused nagu Google'i otsinguinfrastruktuur või Amazoni DynamoDB on loodud töötama ka siis, kui üksikud masinad kokku jooksevad. Tsentraliseeritud andmekeskused võivad saavutada sarnase töökindluse redundantsete toiteallikate, varugeneraatorite ja tõrkeklastrite abil, kuid katastroofiline sündmus, näiteks tulekahju või üleujutus põhikeskuses, võib siiski põhjustada suuri katkestusi. 2017. aasta S3 katkestus AWS-is näitas, kuidas ühe rajatise probleem võib mõjutada lugematuid teenuseid.

Jõudlus ja latentsusaeg

Tsentraliseeritud andmekeskused pakuvad sama piirkonnaga ühenduse loomisel kasutajatele tavaliselt väga ühtlast latentsust, kuna kõik serverid jagavad sama kohalikku võrku. Hajutatud süsteemid võivad mõnikord põhjustada muutuvat latentsust, kuna sõlmed peavad suhtlema pikemate vahemaade tagant, kuigi servapüüdluste variandid vähendavad latentsust tegelikult, paigutades arvutusvõimsuse lõppkasutajatele lähemale. Selliste töökoormuste puhul nagu kõrgsageduslik kauplemine või reaalajas videotöötlus on arvutusressursside geograafiline paigutus tohutult oluline, mistõttu sisuedastusvõrgud ühendavad mõlemad lähenemisviisid.

Kulud ja tegevuskulud

Tsentraliseeritud rajatise käitamisega kaasnevad suured püsikulud: kinnisvara, jahutussüsteemid, füüsiline turvalisus ja spetsiaalne elektriinfrastruktuur. Need kulud on prognoositavad, kuid nõuavad märkimisväärset esialgset kapitali. Hajutatud andmetöötlus nihutab kulutusi võrgustamisele, orkestreerimistarkvarale ja sõlmede vahelisele pidevale koordineerimisele. Organisatsioonide jaoks, kellel puudub eelarve andmekeskuse ehitamiseks, osutub hajutatud pilveressursside rentimine pakkujatelt nagu AWS või Azure sageli säästlikumaks kui oma tsentraliseeritud rajatise ehitamine.

Turvalisus ja vastavus

Tsentraliseeritud andmekeskused lihtsustavad vastavusauditeid, kuna tundlikud andmed asuvad ühes teadaolevas asukohas, millele on kontrollitud füüsiline juurdepääs. Reguleeritud tööstusharud, nagu pangandus ja tervishoid, eelistavad seda mudelit sageli sel põhjusel. Hajutatud süsteemid raskendavad vastavust, kuna andmed võivad asuda mitmes jurisdiktsioonis, millel kõigil on erinevad privaatsusseadused. Hajutatud arhitektuurid võivad aga parandada turvalisust teatud rünnakute vastu, kuna ühe sõlme kahjustamine ei paljasta kogu süsteemi. Kaasaegsed krüpteerimis- ja nullusaldusraamistikud aitavad ületada lõhet nende kahe lähenemisviisi vahel.

Plussid ja miinused

Hajutatud andmetöötlus

Eelised

+ Kõrge veataluvus
+ Geograafiline paindlikkus
+ Horisontaalne skaleeritavus
+ Väiksem ühe saidi risk

Kinnitatud

− Kompleksne orkestreerimine
− Võrgu latentsusprobleemid
− Rangem vastavus
− Silumisprobleemid

Tsentraliseeritud andmekeskused

Eelised

+ Lihtsam haldamine
+ Tugev füüsiline turvalisus
+ Ennustatav jõudlus
+ Lihtsustatud vastavus

Kinnitatud

− Üks rikkepunkt
− Kõrged kapitalikulud
− Geograafiline latentsus
− Kitsaskohtade skaleerimine

Tavalised eksiarvamused

Müüt

Hajutatud andmetöötlus tähendab alati plokiahelat või krüptoraha.

Tõelisus

Hajutatud andmetöötlus on lai valdkond, mis on aastakümneid varasem kui plokiahel. See hõlmab klasterarvutust, võrkarvutust, mikroteenuseid ja sisuedastusvõrke. Plokiahel on vaid üks hajutatud põhimõtete spetsialiseeritud rakendus, mis keskendub konsensusele ilma keskse autoriteedita.

Müüt

Tsentraliseeritud andmekeskused on pilveajastul vananenud.

Tõelisus

Tsentraliseeritud rajatised on väga elujõulised ja moodustavad iga suurema pilveteenuse pakkuja selgroo. AWS, Microsoft Azure ja Google Cloud haldavad kõik suuri tsentraliseeritud universitete komplekse, kus asuvad miljonid serverid. Pilv on sisuliselt tsentraliseeritud infrastruktuur, mida renditakse hajutatud rakendustele.

Müüt

Hajutatud süsteemid on alati odavamad kui tsentraliseeritud süsteemid.

Tõelisus

Maksumus sõltub suuresti ulatusest ja töökoormusest. Väikeste juurutuste hajutatud käitamine on võrgustamise ja orkestreerimise üldkulude tõttu sageli kallim. Tsentraliseeritud rajatised võivad olla säästlikumad prognoositava ja stabiilse töökoormuse korral, samas kui hajutatud seadistused sobivad suurepäraselt hüppelise globaalse nõudluse korral.

Müüt

Tsentraliseeritud andmekeskused ei suuda hajutatud süsteemide töökindlusega võistelda.

Tõelisus

Kaasaegsed tsentraliseeritud rajatised saavutavad märkimisväärse käideolekuaja tänu N+1 või 2N koondamisele toites, jahutuses ja võrgus. Tier IV andmekeskused garanteerivad 99,995% käideldavuse, mis konkureerib paljude hajutatud juurutustega või ületab neid. Usaldusväärsus taandub inseneriinvesteeringutele, mitte ainult arhitektuurile.

Müüt

Hajutatud andmetöötlus tähendab võrgu üldkulude tõttu aeglasemat jõudlust.

Tõelisus

Hästi disainitud hajussüsteemid on globaalsete kasutajate jaoks sageli paremad kui tsentraliseeritud süsteemid, kuna need paigutavad arvutused päringute päritolukohale lähemale. Sellised tehnikad nagu vahemällu salvestamine, andmete jaotamine ja servaarvutus võivad muuta hajusad arhitektuurid kiiremaks kui üks tsentraliseeritud rajatis, mis teenindab ülemaailmset liiklust.

Sageli küsitud küsimused

Mis on peamine erinevus hajutatud andmetöötluse ja tsentraliseeritud andmekeskuste vahel?

Hajutatud andmetöötlus jagab töökoormuse mitme masina vahel, mis võivad asuda erinevates kohtades, samas kui tsentraliseeritud andmekeskused koondavad kõik arvutusressursid ühte kohta. Peamine kompromiss on geograafilise paindlikkuse ja operatiivse lihtsuse vahel. Hajutatud süsteemid pakuvad paremat rikketaluvust, samas kui tsentraliseeritud seadistusi on lihtsam hallata ja turvata.

Milline lähenemisviis on skaleeritavam?

Hajutatud andmetöötlus on üldiselt skaleeritavam, kuna uusi sõlmi saab lisada kõikjale, kus on võrguühendus. Tsentraliseeritud andmekeskused vajavad füüsilist laiendamist, mis hõlmab ehitamist, elektrienergia uuendamist ja jahutusvõimsust. Siiski võivad hüperskaalilised tsentraliseeritud rajatised siiski kasvada, et mahutada üle miljoni serveri, seega võivad mõlemad mudelid piisavate investeeringutega saavutada tohutu ulatuse.

Kas pilvandmetöötlus on hajutatud või tsentraliseeritud?

Pilvandmetöötlus ühendab mõlemad mudelid. Suured pakkujad nagu AWS, Azure ja Google Cloud haldavad tsentraliseeritud hüperskaala andmekeskusi, kuid nende sees töötav tarkvara kasutab hajutatud põhimõtteid, nagu mikroteenused, killustamine ja replikatsioon. Lõppkasutajad kogevad hajutatud teenust, isegi kui alusriistvara asub tsentraliseeritud ülikoolilinnakutes.

Millised on hajutatud andmetöötluse näited igapäevaelus?

Sisu edastamise võrgustikud, näiteks Cloudflare, levitavad veebisisu sadades kohtades üle maailma. Voogesitusteenused, näiteks Netflix, kasutavad hajutatud kodeerimis- ja vahemällu salvestamise süsteeme. Otsingumootorid, näiteks Google, jaotavad indekseerimise ja päringute töötlemise massiivsete klastrite vahel. Isegi teie nutitelefon kasutab hajutatud põhimõtteid andmete sünkroonimisel mitme andmekeskuse vahel.

Miks ettevõtted ikka veel tsentraliseeritud andmekeskusi ehitavad?

Tsentraliseeritud rajatised pakuvad lihtsamat füüsilist turvalisust, lihtsamat vastavust regulatsioonidele ja väiksemat töö keerukust. Need võimaldavad organisatsioonidel optimeerida ka jahutust, energiat ja võrgustamist ühes kohas, mis aitab vähendada kulusid suures mahus. Paljud ettevõtted eelistavad seda mudelit prognoositavate töökoormuste ja tundlike andmete puhul, mis peavad jääma kindlatesse jurisdiktsioonidesse.

Kuidas erineb kahe mudeli veataluvus?

Hajutatud süsteemid taluvad rikkeid loomulikult, sest ühe sõlme kaotamine ei peata kogu süsteemi. Tsentraliseeritud andmekeskused tuginevad sarnase töökindluse saavutamiseks koondamismeetmetele, nagu varugeneraatorid, mitu võrguteed ja tõrkesiirde klastrid. Tõeliselt katastroofiline sündmus tsentraliseeritud asukohas võib ikkagi põhjustada laialdasi katkestusi, mistõttu paljud organisatsioonid jaotavad nüüd kriitilised töökoormused mitme piirkonna vahel.

Milline mudel sobib paremini suurandmete ja tehisintellekti töökoormuste jaoks?

Hajutatud andmetöötlus on suurandmete ja tehisintellekti standard, kuna need töökoormused saavad kasu paralleelsest töötlemisest paljudes masinates. Raamistikud nagu Apache Spark, TensorFlow ja Ray on loodud arvutuste jaotamiseks klastrite vahel. Tsentraliseeritud andmekeskused saavad neid töökoormusi endiselt majutada, kuid tarkvaraarhitektuur ise on hajutatud.

Milline roll on selles võrdluses servaarvutusel?

Äärmusarvutus on sisuliselt hajusarvutus, mis on viidud lõppkasutajatele lähemale, sageli mobiilimastidesse, tehastesse või kohalikesse mikroandmekeskustesse. See vähendab latentsust ajatundlike rakenduste, näiteks autonoomsete sõidukite ja asjade interneti (IoT), jaoks. Äärmus töötab kõrvuti tsentraliseeritud pilveandmekeskustega, kus suur töötlemine toimub tsentraalselt ja kiired vastused töödeldakse äärealadel.

Kuidas võrrelda hajutatud ja tsentraliseeritud infrastruktuuri kulusid?

Tsentraliseeritud andmekeskused vajavad hoonete, elektri ja jahutuse jaoks suuri esialgseid investeeringuid, kuid pakuvad prognoositavaid tegevuskulusid. Hajutatud süsteemid suunavad kulutused võrgustamisele, orkestreerimistarkvarale ja pidevale koordineerimisele. Väikeste ja keskmise suurusega juurutuste puhul on hajutatud pilveteenused tavaliselt odavamad. Suurte püsikoormuse korral võivad tsentraliseeritud rajatised pakkuda paremat ühikuökonoomikat.

Kas süsteem saab olla nii hajutatud kui ka tsentraliseeritud?

Jah, ja enamik tänapäevaseid süsteeme on. Ettevõte võib oma põhirakendusi käitada tsentraliseeritud andmekeskuses, levitades samal ajal sisu CDN-i kaudu. Hübriidpilvearhitektuurid ühendavad privaatse tsentraliseeritud infrastruktuuri avalike hajutatud pilveteenustega. Need kaks lähenemisviisi täiendavad teineteist, mitte ei välista teineteist, ja enamik suuri organisatsioone kasutab mõlemat.

Otsus

Valige hajutatud andmetöötlus, kui vajate massiivset horisontaalset skaleeritavust, geograafilist koondamist või käitate töökoormusi nagu suurandmete analüüs ja plokiahel, mis sobivad loomulikult detsentraliseeritud mudeliga. Valige tsentraliseeritud andmekeskused, kui vajate ranget füüsilist kontrolli, prognoositavat jõudlust, lihtsamat vastavust ja kõige haldamise operatiivset efektiivsust ühe katuse all. Paljud organisatsioonid ühendavad tänapäeval mõlemad, kasutades tsentraliseeritud hüperskaalapilvi, mis tuginevad sisemiselt hajutatud tarkvaramustritele.

Seotud võrdlused

Adaptiivne infrastruktuur vs staatiline infrastruktuuri disain

Adaptiivne infrastruktuur kohandub dünaamiliselt muutuvate töökoormustega automatiseerimise ja reaalajas skaleerimise abil, samas kui staatiline infrastruktuuri disain tugineb fikseeritud, eelkonfigureeritud ressurssidele. Nende vahel valik sõltub töökoormuse varieeruvusest, eelarve prognoositavusest ja teie pilvekeskkonna tegevusküpsusest.

Andmeedastuse kitsaskohad vs mudelarvutuse kitsaskohad

Andmeedastuse kitsaskohad aeglustavad masinõppe protsesse, piirates teabe liikumiskiirust salvestus-, mälu- ja arvutusressursside vahel, samas kui mudelarvutuse kitsaskohad tekivad siis, kui piiravaks teguriks saab graafikaprotsessori või protsessori töötlemisvõimsus. Erinevuse mõistmine aitab meeskondadel optimeerida taristukulusid ja koolituse tõhusust.

Andmeinfrastruktuuri kiht vs mudelikoolituskiht

Andmeinfrastruktuuri kiht tegeleb toorandmete torujuhtmete salvestamise, töötlemise ja haldamisega, samas kui mudelitreeningu kiht keskendub algoritmide käitamisele masinõppe mudelite treenimiseks. Mõlemad on tehisintellekti süsteemides olulised, kuid täidavad arendustsüklis põhimõtteliselt erinevaid rolle.

Andmete jagamine kasutaja ID järgi vs. jagamine geograafilise asukoha järgi

Kasutaja ID alusel andmete killustamine jaotab kirjed unikaalsete kasutajaidentifikaatorite alusel prognoositavate juurdepääsumustrite jaoks, samas kui geograafilise asukoha killustamine jaotab andmed piirkondade kaupa, et minimeerida latentsust ja järgida andmete suveräänsuse seadusi. Mõlemad strateegiad lahendavad mastaabiprobleeme, kuid optimeerivad põhimõtteliselt erinevate prioriteetide jaoks.

Andmetorustiku optimeerimine vs mudelitorustiku optimeerimine

Andmekanali optimeerimine keskendub toorandmete tõhusale liigutamisele ja teisendamisele analüüsi jaoks, samas kui mudelikanali optimeerimine lihtsustab masinõppemudelite koolitamist, valideerimist ja juurutamist. Mõlemad on skaleeritavate tehisintellekti süsteemide jaoks kriitilise tähtsusega, kuid on suunatud masinõppe elutsükli erinevatele etappidele.