Keičiamos išvadų sistemos ir lokalizuotos išvadų sistemos
Keičiamo mastelio išvadų sistemos veikia su dirbtinio intelekto modeliais paskirstytoje debesų infrastruktūroje, kuri auga kartu su paklausa, o lokalizuotos išvadų sistemos apdoroja duomenis netoliese esančioje arba įrenginyje esančioje įrangoje, kad sumažintų delsą ir pagerintų valdymą. Pasirinkimas priklauso nuo darbo krūvio dydžio, privatumo poreikių ir realaus laiko našumo reikalavimų.
Akcentai
Keičiamo dydžio sistemos gali aptarnauti modelius, kurie yra per dideli vienam įrenginiui, o lokalizuotos sistemos keičia modelio dydį dėl greičio ir privatumo.
Tinklo delsa suteikia lokalizuotai išvadai struktūrinį pranašumą realaus laiko programoms
Debesų kompiuterijos išvados kapitalo sąnaudas paverčia veiklos sąnaudomis, o vietinės išvados šią lygtį apverčia aukštyn kojomis.
Hibridinės architektūros, kurios nukreipia duomenis tarp vietinio ir debesies, tampa numatytąja gamybinių diegimų versija.
Kas yra Keičiamos išvadų sistemos?
Debesijos pagrindu sukurtos dirbtinio intelekto išvadų platformos, kurios dinamiškai plečia skaičiavimo išteklius, kad galėtų valdyti svyruojančius darbo krūvius paskirstytuose serveriuose.
Veikia elastingoje debesijos infrastruktūroje, kuri gali pridėti arba pašalinti GPU ir CPU pagal realaus laiko srautą
Dažniausiai naudojami hiperskalintojų, tokių kaip AWS, „Google Cloud“, „Azure“ ir specializuotų platformų, tokių kaip „Together AI“ ir „Fireworks“,
Palaiko didelius kalbos modelius su šimtais milijardų parametrų, kurie viršija vieno įrenginio atmintį
Pasitelkite tokias technikas kaip modelių lygiagretumas, tenzorių lygiagretumas ir konvejerio lygiagretumas daugelyje mašinų
Kainodara paprastai nustatoma pagal mokėjimo už žetoną arba mokėjimo už užklausą modelį, susietą su faktiniu naudojimu.
Kas yra Lokalizuotos išvadų sistemos?
Dirbtinio intelekto išvadų konfigūracijos, kurios paleidžia modelius vietiniuose serveriuose, periferiniuose įrenginiuose arba vartotojo įrangoje, esančioje netoli duomenų kilmės vietos.
Paleiskite modelius tiesiogiai naudotojų įrenginiuose, tokiuose kaip nešiojamieji kompiuteriai, telefonai arba speciali periferinė įranga, pvz., „NVIDIA Jetson“
Tokios sistemos kaip „Ollama“, „LM Studio“, „llama.cpp“ ir „ONNX Runtime“ leidžia diegti vietinius sprendimus net ir ne specialistams.
Pašalinkite poreikį siųsti neskelbtinus duomenis internetu, pagerindami privatumo laikymąsi
Vėlavimas gali sumažėti iki milisekundžių, nes apdorojimas vyksta be tinklo apkrovų.
Aparatinės įrangos apribojimai paprastai riboja modelio dydį, nors kvantavimas padeda pritaikyti didelius modelius vartotojų GPU.
Palyginimo lentelė
Funkcija
Keičiamos išvadų sistemos
Lokalizuotos išvadų sistemos
Dislokavimo vieta
Nuotoliniai duomenų centrai ir debesijos regionai
Vietiniai serveriai, periferiniai įrenginiai arba vartotojo aparatinė įranga
Mastelio keitimas
Beveik neribotas dėl elastingų skaičiavimų
Riboja vietinės aparatinės įrangos pajėgumai
Vėlavimas
Didesnis dėl tinklo judėjimo, paprastai 100–500 ms
Mažesnis, dažnai mažesnis nei 50 ms mažiems modeliams
Modelio dydžio palaikymas
Gali paleisti modelius su šimtais milijardų parametrų
Paprastai apsiribojama modeliais, kurių parametrai yra mažesni nei ~70B vartotojų aparatinėje įrangoje
Privatumas ir duomenų kontrolė
Duomenys palieka vartotojo tinklą ir yra apdorojami trečiųjų šalių
Duomenys lieka vietinėje įrangoje su visiška vartotojo kontrole
Sąnaudų struktūra
Mokėjimas už naudojimą arba prenumerata, keičiasi atsižvelgiant į paklausą
Išankstinės investicijos į aparatinę įrangą, o vėliau beveik nulinės ribinės išlaidos
Priklausomybė nuo interneto
Reikalingas stabilus, didelio pralaidumo ryšys
Veikia neprisijungus, kai modeliai atsisiunčiami
Priežiūra
Paslaugų teikėjas tvarko atnaujinimus, saugos pataisas ir mastelio keitimą
Vartotojas, atsakingas už atnaujinimus, tvarkykles ir aparatinės įrangos priežiūrą
Išsamus palyginimas
Našumas ir delsa
Keičiamo mastelio išvadų sistemos įveda tinklo apytakos ratus, kurie padidina delsą ir dažnai trunka nuo 100 iki 500 milisekundžių, priklausomai nuo geografinės padėties ir apkrovos. Lokalizuotos sistemos visiškai praleidžia šį tinklo šuolį, o tai labai svarbu realaus laiko programoms, tokioms kaip balso asistentai ar robotika. Tačiau keičiamo mastelio sistemos gali aptarnauti daug didesnius modelius, kurie tiesiog netelpa viename įrenginyje, todėl delsos palyginimai yra prasmingi tik tada, kai modelio dydis išlieka pastovus.
Sąnaudų ekonomika
Debesijos išvados taiko veiklos sąnaudų modelį, kai mokama už kiekvieną žetoną, užklausą arba GPU valandą. Tai gerai veikia esant nenuspėjamiems darbo krūviams, nes išlaidos didėja kartu su pajamomis. Lokalizuota išvada reikalauja iš anksto investuoti į GPU arba periferinę įrangą, tačiau kiekvienos papildomos išvados ribinė kaina iš esmės yra elektra. Didelio masto, pastoviems darbo krūviams vietinis diegimas dažnai laimi pagal kainą už išvadą po rentabilumo taško.
Privatumas ir atitiktis
Kai duomenys palieka vartotojo įrenginį arba įmonės tinklą, jie patenka į kito asmens infrastruktūrą, o tai sukelia reguliavimo problemų pagal BDAR, HIPAA ir panašias sistemas. Lokalizuota išvada leidžia viską išlaikyti vietoje, todėl tai yra numatytasis pasirinkimas sveikatos priežiūros, teisinėms ir gynybos programoms. Keičiamo mastelio teikėjai tai kompensuoja naudodami privačius VPC, klientų valdomus raktus ir duomenų saugojimo garantijas, tačiau pasitikėjimo prielaida išlieka.
Mastelio keitimas ir lankstumas
Keičiamo mastelio sistemos sužiba, kai srautas netikėtai padidėja, pavyzdžiui, mažmeninės prekybos vietoje per Juodąjį penktadienį arba pokalbių roboto paleidimas, kuris išpopuliarėja. Automatinio mastelio grupės gali paleisti šimtus GPU egzempliorių per kelias minutes. Lokalizuotos sistemos pasiekia griežtas ribas, susietas su fizine įranga, o pajėgumų didinimas reiškia naujų mašinų pirkimą ir diegimą. Esant dideliems darbo krūviams, debesijos elastingumą išties sunku atkartoti vietoje.
Modelio galimybės
Didžiausiems ir pajėgiausiems modeliams, įskaitant GPT-4 klasės sistemas ir pažangiausius atvirojo svorio modelius, tokius kaip „Llama 3.1 405B“, reikalingi kelių GPU klasteriai, kuriuos gali užtikrinti tik keičiamo mastelio infrastruktūra. Lokalizuotose sistemose paprastai veikia mažesni modeliai, kurių parametrų diapazonas yra nuo 7 iki 70 B, dažnai kvantuojami iki 4 bitų tikslumo. Pajėgumų skirtumas yra realus, tačiau mažėja, atsirandant efektyvioms architektūroms ir geresniems kvantavimo metodams.
Privalumai ir trūkumai
Keičiamos išvadų sistemos
Privalumai
+Elastinė talpa
+Prieiga prie pasienio modelio
+Jokių investicijų į aparatinę įrangą
+Teikėjo valdomi atnaujinimai
Pasirinkta
−Nuolatinės naudojimo išlaidos
−Tinklo delsa
−Duomenys palieka patalpas
−Reikalingas internetas
Lokalizuotos išvadų sistemos
Privalumai
+Mažas delsos laikas
+Visiška duomenų kontrolė
+Jokių pasikartojančių mokesčių
+Veikia neprisijungus prie interneto
Pasirinkta
−Aparatūros lubos
−Išankstinės išlaidos
−Rankinė priežiūra
−Ribotas modelio dydis
Dažni klaidingi įsitikinimai
Mitas
Vietinis išvadų darymas visada yra pigesnis nei debesijos išvadų darymas.
Realybė
Vietinis duomenų išvedimas tampa pigesnis tik tada, kai peržengiama naudojimo riba, pateisinanti techninės įrangos pirkimą. Esant mažam arba dideliam srautui, debesijos mokėjimas už naudojimą dažnai kainuoja mažiau nei pirkti GPU, kurie didžiąją laiko dalį neveikia.
Mitas
Debesų kompiuterijos išvados iš esmės yra nesaugios.
Realybė
Didžiausi debesijos paslaugų teikėjai siūlo šifravimą tiek saugojimo, tiek perdavimo metu, privačius tinklus, kliento valdomus šifravimo raktus ir atitikties sertifikatus. Rizikos profilis priklauso nuo teikėjo valdiklių ir jūsų konfigūracijos, o ne nuo paties debesies.
Mitas
Vietiniai modeliai yra per maži, kad būtų naudingi rimtam darbui.
Realybė
Kvantuoti 70B parametrų modeliai, veikiantys viename aukštos klasės GPU, dabar daugelyje etaloninių testų prilygsta arba pranoksta senesnius „frontier“ modelius. Daugeliui įmonės užduočių atlikti gerai suderintas vietinis modelis yra daugiau nei pajėgus.
Mitas
Keičiamo mastelio išvada visada turi didesnę delsą nei vietinė išvada.
Realybė
Kai vietinė aparatinė įranga yra per silpna arba modelis yra per didelis turimai atminčiai, išvados gali būti atliekamos labai lėtai. Gerai aprūpintas debesies galinis taškas su regioniniu ryšiu gali pranokti per mažą vietinę sistemą.
Mitas
Jums reikia pasirinkti vieną požiūrį visam laikui.
Realybė
Hibridiniai išvadų modeliai tampa vis dažnesni, kai maršruto parinkimo logika siunčia paprastas užklausas į vietinius modelius, o sudėtingas – į debesies API. Tai dinamiškai subalansuoja kainą, delsą ir galimybes.
Dažnai užduodami klausimai
Kuo skiriasi keičiamo mastelio ir lokalizuota išvada?
Keičiamo mastelio išvados veikia DI modelius debesijos infrastruktūroje, kuri gali augti arba mažėti priklausomai nuo paklausos, o lokalizuotos išvados veikia aparatinėje įrangoje, fiziškai arti vartotojo, pavyzdžiui, vietiniame serveryje, periferiniame įrenginyje ar nešiojamajame kompiuteryje. Pagrindinis kompromisas yra tarp elastingo pajėgumo ir mažo delsos, privataus apdorojimo.
Kas yra greitesnis – debesijos ar vietinio dirbtinio intelekto išvados?
Vietinis duomenų išvedimas paprastai yra greitesnis, nes pašalina tinklo duomenų perdavimą pirmyn ir atgal, o mažų modelių atveju tai dažnai atliekama per mažiau nei 50 milisekundžių. Debesijos duomenų išvedimas paprastai prideda 100–500 milisekundžių tinklo delsos, nors jis gali aptarnauti daug didesnius modelius, kurių vietinė įranga visiškai negali paleisti.
Ar galite lokaliai paleisti didelius kalbos modelius?
Taip, modeliai, turintys iki maždaug 70 milijardų parametrų, gali veikti aukščiausios klasės vartotojams skirtose GPU, tokiose kaip NVIDIA RTX 4090 arba Apple M3 Ultra, su pakankamai RAM. Kvantavimo metodai, tokie kaip GPTQ, AWQ ir GGUF, sumažina modelius, kad jie tilptų mažiau atminties ir kuo mažiau prarastų kokybę.
Kiek kainuoja debesijos išvados, palyginti su vietinėmis?
Debesijos pagrindu veikiančios išvados paprastai kainuoja nuo 0,50 iki 15 USD už milijoną žetonų, priklausomai nuo modelio, o vietinės išvados atveju reikia vienkartinio GPU įsigijimo, kurio vertė siekia nuo 2 000 iki 30 000 USD plius elektra. Vietinės išvados tampa pigesnės, kai apdorojama pakankamai žetonų, kad būtų galima amortizuoti aparatinę įrangą.
Ar vietinės dirbtinio intelekto išvados yra privatesnės nei debesijos?
Paprastai taip, nes duomenys niekada nepalieka jūsų įrenginio ar tinklo. Debesijos paslaugų teikėjai gali pasiūlyti tvirtas privatumo garantijas naudodami šifravimą ir sutartines sąlygas, tačiau jūs vis tiek pasitikite savo duomenimis trečiajai šaliai, o tai nepriimtina reguliuojamose pramonės šakose, tokiose kaip sveikatos apsauga ir finansai.
Kokios aparatinės įrangos man reikia vietiniam išvadai?
7B parametrų modeliams pakanka 8 GB vaizdo atminties arba unifikuotos atminties. 13B modeliams planuokite 16 GB. 70B modeliams su 4 bitų kvantavimu reikia apie 40 GB vaizdo atminties, o tai reiškia RTX 4090, A6000 arba „Apple Silicon“ su 64 GB ar daugiau unifikuotos atminties.
Kokie yra populiarūs vietinio dirbtinio intelekto išvadų įrankiai?
„Ollama“, „LM Studio“ ir „GPT4All“ yra populiarūs pradedantiesiems, nes siūlo modelių atsisiuntimą vienu spustelėjimu. „llama.cpp“ ir „vLLM“ yra mėgstami kūrėjų dėl našumo. „ONNX Runtime“ ir „TensorRT“ teikia optimizuotas išvadas įvairiems aparatinės įrangos tipams.
Ar keičiamo mastelio ir lokalizuotos išvados gali veikti kartu?
Žinoma. Hibridinis tinklas maršrutizuoja užklausas pagal sudėtingumą, delsos poreikius arba kainos ribas. Įprastas modelis įprastoms užklausoms palieka nedidelį vietinį modelį, o sunkesnius klausimus perduoda didesniam debesies modeliui, subalansuodamas greitį, privatumą ir galimybes.
Kuris požiūris yra geresnis įmonės dirbtiniam intelektui?
Įmonės dažnai naudoja abu. Lokalizuota išvada tvarko jautrius darbo krūvius, tokius kaip vidinė dokumentų paieška ir asmens duomenų redagavimas, o keičiamo mastelio debesijos išvada leidžia naudoti su klientais bendraujančius pokalbių robotus ir duomenų srautinę analizę. Tinkamas derinys priklauso nuo duomenų jautrumo, apimties ir delsos tikslų.
Kaip keičiamo mastelio išvadų sistemos tvarko srauto šuolius?
Jie naudoja automatinio mastelio keitimo grupes, apkrovos balansavimo priemones ir be serverio veikiančius išvadų galinius taškus, kurie sukuria naujus GPU egzempliorius, kai eilės gylis arba užklausų dažnis viršija ribas. Tokie paslaugų teikėjai kaip „AWS SageMaker“, „Google Vertex AI“ ir „Azure ML“ šiuos valdiklius teikia tiesiogiai klientams.
Nuosprendis
Rinkitės keičiamo mastelio išvadas, kai jums reikia nestandartinės modelio kokybės, nenuspėjamo mastelio keitimo arba greito pateikimo į rinką be techninės įrangos pirkimo. Rinkitės lokalizuotas išvadas, kai privatumas yra nekeičiamas, delsos biudžetas yra ribotas arba nuolatinis didelis srautas yra palankus vietinei ekonomikai. Daugelyje gamybinių sistemų dabar derinami abu šie būdai, nukreipiant paprastas užklausas lokaliai ir sudėtingas perduodant į debesį.