dirbtinio intelekto infrastruktūradebesų kompiuterijakraštinių skaičiavimųmašininis mokymasisdebesų infrastruktūra

Keičiamos išvadų sistemos ir lokalizuotos išvadų sistemos

Keičiamo mastelio išvadų sistemos veikia su dirbtinio intelekto modeliais paskirstytoje debesų infrastruktūroje, kuri auga kartu su paklausa, o lokalizuotos išvadų sistemos apdoroja duomenis netoliese esančioje arba įrenginyje esančioje įrangoje, kad sumažintų delsą ir pagerintų valdymą. Pasirinkimas priklauso nuo darbo krūvio dydžio, privatumo poreikių ir realaus laiko našumo reikalavimų.

Akcentai

Keičiamo dydžio sistemos gali aptarnauti modelius, kurie yra per dideli vienam įrenginiui, o lokalizuotos sistemos keičia modelio dydį dėl greičio ir privatumo.
Tinklo delsa suteikia lokalizuotai išvadai struktūrinį pranašumą realaus laiko programoms
Debesų kompiuterijos išvados kapitalo sąnaudas paverčia veiklos sąnaudomis, o vietinės išvados šią lygtį apverčia aukštyn kojomis.
Hibridinės architektūros, kurios nukreipia duomenis tarp vietinio ir debesies, tampa numatytąja gamybinių diegimų versija.

Kas yra Keičiamos išvadų sistemos?

Debesijos pagrindu sukurtos dirbtinio intelekto išvadų platformos, kurios dinamiškai plečia skaičiavimo išteklius, kad galėtų valdyti svyruojančius darbo krūvius paskirstytuose serveriuose.

Veikia elastingoje debesijos infrastruktūroje, kuri gali pridėti arba pašalinti GPU ir CPU pagal realaus laiko srautą
Dažniausiai naudojami hiperskalintojų, tokių kaip AWS, „Google Cloud“, „Azure“ ir specializuotų platformų, tokių kaip „Together AI“ ir „Fireworks“,
Palaiko didelius kalbos modelius su šimtais milijardų parametrų, kurie viršija vieno įrenginio atmintį
Pasitelkite tokias technikas kaip modelių lygiagretumas, tenzorių lygiagretumas ir konvejerio lygiagretumas daugelyje mašinų
Kainodara paprastai nustatoma pagal mokėjimo už žetoną arba mokėjimo už užklausą modelį, susietą su faktiniu naudojimu.

Kas yra Lokalizuotos išvadų sistemos?

Dirbtinio intelekto išvadų konfigūracijos, kurios paleidžia modelius vietiniuose serveriuose, periferiniuose įrenginiuose arba vartotojo įrangoje, esančioje netoli duomenų kilmės vietos.

Paleiskite modelius tiesiogiai naudotojų įrenginiuose, tokiuose kaip nešiojamieji kompiuteriai, telefonai arba speciali periferinė įranga, pvz., „NVIDIA Jetson“
Tokios sistemos kaip „Ollama“, „LM Studio“, „llama.cpp“ ir „ONNX Runtime“ leidžia diegti vietinius sprendimus net ir ne specialistams.
Pašalinkite poreikį siųsti neskelbtinus duomenis internetu, pagerindami privatumo laikymąsi
Vėlavimas gali sumažėti iki milisekundžių, nes apdorojimas vyksta be tinklo apkrovų.
Aparatinės įrangos apribojimai paprastai riboja modelio dydį, nors kvantavimas padeda pritaikyti didelius modelius vartotojų GPU.

Palyginimo lentelė

Funkcija	Keičiamos išvadų sistemos	Lokalizuotos išvadų sistemos
Dislokavimo vieta	Nuotoliniai duomenų centrai ir debesijos regionai	Vietiniai serveriai, periferiniai įrenginiai arba vartotojo aparatinė įranga
Mastelio keitimas	Beveik neribotas dėl elastingų skaičiavimų	Riboja vietinės aparatinės įrangos pajėgumai
Vėlavimas	Didesnis dėl tinklo judėjimo, paprastai 100–500 ms	Mažesnis, dažnai mažesnis nei 50 ms mažiems modeliams
Modelio dydžio palaikymas	Gali paleisti modelius su šimtais milijardų parametrų	Paprastai apsiribojama modeliais, kurių parametrai yra mažesni nei ~70B vartotojų aparatinėje įrangoje
Privatumas ir duomenų kontrolė	Duomenys palieka vartotojo tinklą ir yra apdorojami trečiųjų šalių	Duomenys lieka vietinėje įrangoje su visiška vartotojo kontrole
Sąnaudų struktūra	Mokėjimas už naudojimą arba prenumerata, keičiasi atsižvelgiant į paklausą	Išankstinės investicijos į aparatinę įrangą, o vėliau beveik nulinės ribinės išlaidos
Priklausomybė nuo interneto	Reikalingas stabilus, didelio pralaidumo ryšys	Veikia neprisijungus, kai modeliai atsisiunčiami
Priežiūra	Paslaugų teikėjas tvarko atnaujinimus, saugos pataisas ir mastelio keitimą	Vartotojas, atsakingas už atnaujinimus, tvarkykles ir aparatinės įrangos priežiūrą

Išsamus palyginimas

Našumas ir delsa

Keičiamo mastelio išvadų sistemos įveda tinklo apytakos ratus, kurie padidina delsą ir dažnai trunka nuo 100 iki 500 milisekundžių, priklausomai nuo geografinės padėties ir apkrovos. Lokalizuotos sistemos visiškai praleidžia šį tinklo šuolį, o tai labai svarbu realaus laiko programoms, tokioms kaip balso asistentai ar robotika. Tačiau keičiamo mastelio sistemos gali aptarnauti daug didesnius modelius, kurie tiesiog netelpa viename įrenginyje, todėl delsos palyginimai yra prasmingi tik tada, kai modelio dydis išlieka pastovus.

Sąnaudų ekonomika

Debesijos išvados taiko veiklos sąnaudų modelį, kai mokama už kiekvieną žetoną, užklausą arba GPU valandą. Tai gerai veikia esant nenuspėjamiems darbo krūviams, nes išlaidos didėja kartu su pajamomis. Lokalizuota išvada reikalauja iš anksto investuoti į GPU arba periferinę įrangą, tačiau kiekvienos papildomos išvados ribinė kaina iš esmės yra elektra. Didelio masto, pastoviems darbo krūviams vietinis diegimas dažnai laimi pagal kainą už išvadą po rentabilumo taško.

Privatumas ir atitiktis

Kai duomenys palieka vartotojo įrenginį arba įmonės tinklą, jie patenka į kito asmens infrastruktūrą, o tai sukelia reguliavimo problemų pagal BDAR, HIPAA ir panašias sistemas. Lokalizuota išvada leidžia viską išlaikyti vietoje, todėl tai yra numatytasis pasirinkimas sveikatos priežiūros, teisinėms ir gynybos programoms. Keičiamo mastelio teikėjai tai kompensuoja naudodami privačius VPC, klientų valdomus raktus ir duomenų saugojimo garantijas, tačiau pasitikėjimo prielaida išlieka.

Mastelio keitimas ir lankstumas

Keičiamo mastelio sistemos sužiba, kai srautas netikėtai padidėja, pavyzdžiui, mažmeninės prekybos vietoje per Juodąjį penktadienį arba pokalbių roboto paleidimas, kuris išpopuliarėja. Automatinio mastelio grupės gali paleisti šimtus GPU egzempliorių per kelias minutes. Lokalizuotos sistemos pasiekia griežtas ribas, susietas su fizine įranga, o pajėgumų didinimas reiškia naujų mašinų pirkimą ir diegimą. Esant dideliems darbo krūviams, debesijos elastingumą išties sunku atkartoti vietoje.

Modelio galimybės

Didžiausiems ir pajėgiausiems modeliams, įskaitant GPT-4 klasės sistemas ir pažangiausius atvirojo svorio modelius, tokius kaip „Llama 3.1 405B“, reikalingi kelių GPU klasteriai, kuriuos gali užtikrinti tik keičiamo mastelio infrastruktūra. Lokalizuotose sistemose paprastai veikia mažesni modeliai, kurių parametrų diapazonas yra nuo 7 iki 70 B, dažnai kvantuojami iki 4 bitų tikslumo. Pajėgumų skirtumas yra realus, tačiau mažėja, atsirandant efektyvioms architektūroms ir geresniems kvantavimo metodams.

Privalumai ir trūkumai

Keičiamos išvadų sistemos

Privalumai

+ Elastinė talpa
+ Prieiga prie pasienio modelio
+ Jokių investicijų į aparatinę įrangą
+ Teikėjo valdomi atnaujinimai

Pasirinkta

− Nuolatinės naudojimo išlaidos
− Tinklo delsa
− Duomenys palieka patalpas
− Reikalingas internetas

Lokalizuotos išvadų sistemos

Privalumai

+ Mažas delsos laikas
+ Visiška duomenų kontrolė
+ Jokių pasikartojančių mokesčių
+ Veikia neprisijungus prie interneto

Pasirinkta

− Aparatūros lubos
− Išankstinės išlaidos
− Rankinė priežiūra
− Ribotas modelio dydis

Dažni klaidingi įsitikinimai

Mitas

Vietinis išvadų darymas visada yra pigesnis nei debesijos išvadų darymas.

Realybė

Vietinis duomenų išvedimas tampa pigesnis tik tada, kai peržengiama naudojimo riba, pateisinanti techninės įrangos pirkimą. Esant mažam arba dideliam srautui, debesijos mokėjimas už naudojimą dažnai kainuoja mažiau nei pirkti GPU, kurie didžiąją laiko dalį neveikia.

Mitas

Debesų kompiuterijos išvados iš esmės yra nesaugios.

Realybė

Didžiausi debesijos paslaugų teikėjai siūlo šifravimą tiek saugojimo, tiek perdavimo metu, privačius tinklus, kliento valdomus šifravimo raktus ir atitikties sertifikatus. Rizikos profilis priklauso nuo teikėjo valdiklių ir jūsų konfigūracijos, o ne nuo paties debesies.

Mitas

Vietiniai modeliai yra per maži, kad būtų naudingi rimtam darbui.

Realybė

Kvantuoti 70B parametrų modeliai, veikiantys viename aukštos klasės GPU, dabar daugelyje etaloninių testų prilygsta arba pranoksta senesnius „frontier“ modelius. Daugeliui įmonės užduočių atlikti gerai suderintas vietinis modelis yra daugiau nei pajėgus.

Mitas

Keičiamo mastelio išvada visada turi didesnę delsą nei vietinė išvada.

Realybė

Kai vietinė aparatinė įranga yra per silpna arba modelis yra per didelis turimai atminčiai, išvados gali būti atliekamos labai lėtai. Gerai aprūpintas debesies galinis taškas su regioniniu ryšiu gali pranokti per mažą vietinę sistemą.

Mitas

Jums reikia pasirinkti vieną požiūrį visam laikui.

Realybė

Hibridiniai išvadų modeliai tampa vis dažnesni, kai maršruto parinkimo logika siunčia paprastas užklausas į vietinius modelius, o sudėtingas – į debesies API. Tai dinamiškai subalansuoja kainą, delsą ir galimybes.

Dažnai užduodami klausimai

Kuo skiriasi keičiamo mastelio ir lokalizuota išvada?

Keičiamo mastelio išvados veikia DI modelius debesijos infrastruktūroje, kuri gali augti arba mažėti priklausomai nuo paklausos, o lokalizuotos išvados veikia aparatinėje įrangoje, fiziškai arti vartotojo, pavyzdžiui, vietiniame serveryje, periferiniame įrenginyje ar nešiojamajame kompiuteryje. Pagrindinis kompromisas yra tarp elastingo pajėgumo ir mažo delsos, privataus apdorojimo.

Kas yra greitesnis – debesijos ar vietinio dirbtinio intelekto išvados?

Vietinis duomenų išvedimas paprastai yra greitesnis, nes pašalina tinklo duomenų perdavimą pirmyn ir atgal, o mažų modelių atveju tai dažnai atliekama per mažiau nei 50 milisekundžių. Debesijos duomenų išvedimas paprastai prideda 100–500 milisekundžių tinklo delsos, nors jis gali aptarnauti daug didesnius modelius, kurių vietinė įranga visiškai negali paleisti.

Ar galite lokaliai paleisti didelius kalbos modelius?

Taip, modeliai, turintys iki maždaug 70 milijardų parametrų, gali veikti aukščiausios klasės vartotojams skirtose GPU, tokiose kaip NVIDIA RTX 4090 arba Apple M3 Ultra, su pakankamai RAM. Kvantavimo metodai, tokie kaip GPTQ, AWQ ir GGUF, sumažina modelius, kad jie tilptų mažiau atminties ir kuo mažiau prarastų kokybę.

Kiek kainuoja debesijos išvados, palyginti su vietinėmis?

Debesijos pagrindu veikiančios išvados paprastai kainuoja nuo 0,50 iki 15 USD už milijoną žetonų, priklausomai nuo modelio, o vietinės išvados atveju reikia vienkartinio GPU įsigijimo, kurio vertė siekia nuo 2 000 iki 30 000 USD plius elektra. Vietinės išvados tampa pigesnės, kai apdorojama pakankamai žetonų, kad būtų galima amortizuoti aparatinę įrangą.

Ar vietinės dirbtinio intelekto išvados yra privatesnės nei debesijos?

Paprastai taip, nes duomenys niekada nepalieka jūsų įrenginio ar tinklo. Debesijos paslaugų teikėjai gali pasiūlyti tvirtas privatumo garantijas naudodami šifravimą ir sutartines sąlygas, tačiau jūs vis tiek pasitikite savo duomenimis trečiajai šaliai, o tai nepriimtina reguliuojamose pramonės šakose, tokiose kaip sveikatos apsauga ir finansai.

Kokios aparatinės įrangos man reikia vietiniam išvadai?

7B parametrų modeliams pakanka 8 GB vaizdo atminties arba unifikuotos atminties. 13B modeliams planuokite 16 GB. 70B modeliams su 4 bitų kvantavimu reikia apie 40 GB vaizdo atminties, o tai reiškia RTX 4090, A6000 arba „Apple Silicon“ su 64 GB ar daugiau unifikuotos atminties.

Kokie yra populiarūs vietinio dirbtinio intelekto išvadų įrankiai?

„Ollama“, „LM Studio“ ir „GPT4All“ yra populiarūs pradedantiesiems, nes siūlo modelių atsisiuntimą vienu spustelėjimu. „llama.cpp“ ir „vLLM“ yra mėgstami kūrėjų dėl našumo. „ONNX Runtime“ ir „TensorRT“ teikia optimizuotas išvadas įvairiems aparatinės įrangos tipams.

Ar keičiamo mastelio ir lokalizuotos išvados gali veikti kartu?

Žinoma. Hibridinis tinklas maršrutizuoja užklausas pagal sudėtingumą, delsos poreikius arba kainos ribas. Įprastas modelis įprastoms užklausoms palieka nedidelį vietinį modelį, o sunkesnius klausimus perduoda didesniam debesies modeliui, subalansuodamas greitį, privatumą ir galimybes.

Kuris požiūris yra geresnis įmonės dirbtiniam intelektui?

Įmonės dažnai naudoja abu. Lokalizuota išvada tvarko jautrius darbo krūvius, tokius kaip vidinė dokumentų paieška ir asmens duomenų redagavimas, o keičiamo mastelio debesijos išvada leidžia naudoti su klientais bendraujančius pokalbių robotus ir duomenų srautinę analizę. Tinkamas derinys priklauso nuo duomenų jautrumo, apimties ir delsos tikslų.

Kaip keičiamo mastelio išvadų sistemos tvarko srauto šuolius?

Jie naudoja automatinio mastelio keitimo grupes, apkrovos balansavimo priemones ir be serverio veikiančius išvadų galinius taškus, kurie sukuria naujus GPU egzempliorius, kai eilės gylis arba užklausų dažnis viršija ribas. Tokie paslaugų teikėjai kaip „AWS SageMaker“, „Google Vertex AI“ ir „Azure ML“ šiuos valdiklius teikia tiesiogiai klientams.

Nuosprendis

Rinkitės keičiamo mastelio išvadas, kai jums reikia nestandartinės modelio kokybės, nenuspėjamo mastelio keitimo arba greito pateikimo į rinką be techninės įrangos pirkimo. Rinkitės lokalizuotas išvadas, kai privatumas yra nekeičiamas, delsos biudžetas yra ribotas arba nuolatinis didelis srautas yra palankus vietinei ekonomikai. Daugelyje gamybinių sistemų dabar derinami abu šie būdai, nukreipiant paprastas užklausas lokaliai ir sudėtingas perduodant į debesį.

Susiję palyginimai

„Kafka“ ir „Flink“ palyginti su apdorojimu atmintyje

„Kafka“ ir „Flink“ sudaro paskirstytą srautinio apdorojimo ekosistemą realaus laiko duomenų srautams, o apdorojimas atmintyje pagreitina analizę, nes duomenys saugomi tik RAM atmintyje – kiekvienas iš jų tenkina iš esmės skirtingus architektūrinius greičio, mastelio ir tvarumo poreikius.

„Netflix“ mašininio mokymosi platforma ir nepriklausomi mašininio mokymosi įrankiai

„Netflix“ vidinė mašininio mokymosi platforma siūlo glaudžiai integruotus, didelio masto įrankius, skirtus transliacijų suasmeninimui, o nepriklausomi mašininio mokymosi įrankiai suteikia mažesnėms komandoms lankstumo ir kontrolės. Pasirinkimas priklauso nuo masto, pritaikymo poreikių ir esamų investicijų į infrastruktūrą.

Adaptyvioji infrastruktūra ir statinė infrastruktūros projektavimas

Adaptyvi infrastruktūra dinamiškai prisitaiko prie kintančių darbo krūvių, naudodama automatizavimą ir mastelio keitimą realiuoju laiku, o statinės infrastruktūros projektavimas remiasi fiksuotais, iš anksto sukonfigūruotais ištekliais. Pasirinkimas priklauso nuo darbo krūvio kintamumo, biudžeto nuspėjamumo ir veikimo brandos jūsų debesijos aplinkoje.

Apkrovos balansavimas mašininio mokymosi sistemose ir paprastas API užklausų tvarkymas

Apkrovos balansavimas mašininio mokymosi sistemose valdo GPU reikalaujančius išvadų ir mokymo darbo krūvius specializuotoje įrangoje, o paprastas API užklausų apdorojimas paskirsto nedidelį HTTP srautą bendrosios paskirties serveriuose. Jie labai skiriasi sudėtingumu, išteklių poreikiu ir maršruto parinkimo išmanumu.

Atsparumas gedimams ir sistemos paleidimas iš naujo

Atsparumas gedimams proaktyviai perkelia darbo krūvius į sveikas sistemas, kol vartotojai nepastebi problemų, o sistemos gedimų atveju iš naujo paleidžiamos sistemos reaktyviai atkuria paslaugas po netikėtų gedimų. Abu metodai siekia palaikyti prieinamumą, tačiau iš esmės skiriasi laiku, architektūros sudėtingumu ir poveikiu vartotojams.