mākslīgā intelekta infrastruktūramašīnmācīšanāsGPU skaitļošanamākoņinfrastruktūrallm optimizācija

Secinājumu efektivitāte salīdzinājumā ar apmācības aprēķinu izmaksām

Secinājumu efektivitāte mēra, cik labi izvietotais mākslīgā intelekta modelis apstrādā pieprasījumus, izmantojot minimālu skaitļošanas apjomu, savukārt apmācības skaitļošanas izmaksas atspoguļo resursus, kas iztērēti modeļa apmācībai no nulles. Abi veido mākslīgā intelekta ekonomiku, bet darbojas pilnīgi dažādos modeļa dzīves cikla posmos.

Iezīmes

Secinājumu izmaksas parasti pārsniedz apmācības izmaksas dažu mēnešu laikā pēc veiksmīgas modeļa palaišanas.
Apmācība ir vienreizējs izdevums, savukārt secinājumi ir pastāvīgas darbības izmaksas.
Katrai fāzei optimāla ir atšķirīga aparatūra, apmācībai dodot priekšroku H100/B200 un secinājumiem dodot priekšroku L40S vai pielāgotiem ASIC.
Secinājumu optimizācijas metodes, piemēram, KV kešatmiņas atkārtota izmantošana un kvantēšana, var samazināt izmaksas 3–10 reizes bez atkārtotas apmācības.

Kas ir Secinājumu efektivitāte?

Cik efektīvi apmācīts mākslīgā intelekta modelis nodrošina prognozes, izmantojot minimālu skaitļošanas, atmiņas un enerģijas patēriņu katram pieprasījumam.

Secinājumi notiek pēc modeļa apmācības un ieviešanas, apstrādājot katru jauno ievadi pa vienai vai nelielās partijās.
Mūsdienu secinājumu optimizācijas ietver kvantizāciju, KV kešatmiņas atkārtotu izmantošanu, spekulatīvu dekodēšanu un partiju veidošanas stratēģijas, kas var samazināt izmaksas 3–10 reizes.
Apkalpojošie ietvari, piemēram, vLLM, TensorRT-LLM un SGLang, specializējas tokenu sekundē uz vienu GPU caurlaidspējas palielināšanā.
Ražošanas secinājumu latentuma mērķi parasti svārstās no 50 ms tērzēšanai līdz vairākām sekundēm garās formas ģenerēšanai.
Secinājumu izmaksas dominē kopējās mākslīgā intelekta izmaksās plašā mērogā, bieži vien pārsniedzot apmācības izmaksas dažu mēnešu laikā pēc ieviešanas.

Kas ir Apmācības aprēķinu izmaksas?

Kopējais GPU stundu, enerģijas un dolāru skaits, kas nepieciešams, lai apmācītu modeli no neapstrādātiem datiem līdz izvietojamam stāvoklim.

Tiek lēsts, ka tādu robežmodeļu kā GPT-4 vai Gemini Ultra apmācība vien skaitļošanas ziņā izmaksās desmitiem miljonu dolāru.
Aprēķinus parasti mēra FLOP (peldošā komata operācijās), un mūsdienu LLM tiek apmācīti ar 10^23 līdz 10^25 FLOP.
Apmācības darbos paralēli nedēļām vai mēnešiem ilgi tiek izmantoti tūkstošiem GPU vai TPU, kas sagrupēti kopā.
Izmaksas ietver ne tikai GPU laiku, bet arī datu sagatavošanu, neveiksmīgas eksperimentālās palaišanas un hiperparametru pārbaudes.
Iepriekšēja apmācība ir vienreizējs izdevums, lai gan precīza pielāgošana un nepārtraukta apmācība rada atkārtotas izmaksas visā modeļa dzīves ciklā.

Salīdzinājuma tabula

Funkcija	Secinājumu efektivitāte	Apmācības aprēķinu izmaksas
Kad tas notiek	Pēc izvietošanas katru reizi, kad modelis tiek izmantots	Pirms izvietošanas, modeļa izveides laikā
Izmaksu ilgums	Pastāvīgi, mērogojas ar lietošanas apjomu	Vienreizējs uzliesmojums, kas ilgst nedēļām vai mēnešiem ilgi
Primārā metrika	Žetoni sekundē uz GPU, latentums, maksa par pieprasījumu	Kopējais FLOP skaits, GPU stundas, sienas pulksteņa apmācības laiks
Tipiska skala	Miljoniem līdz miljardiem pieprasījumu mēnesī	Tūkstošiem GPU, kas darbojas 1–6 mēnešus
Izmaksu optimizācijas rīki	Kvantizācija, partiju apstrāde, kešatmiņa, modeļa destilācija	Jaukta precizitāte, gradienta kontrolpunkti, datu paralēlisms
Dominējošais izmaksu virzītājspēks	Atmiņas joslas platums un KV kešatmiņas lielums	Starpgrafisko procesoru komunikācija un atmiņas ietilpība
Enerģijas profils	Stabils, sadalīts starp daudziem mazākiem pieprasījumiem	Masīvs koncentrēts impulss treniņa laikā
Aparatūras fokuss	Secinājumiem optimizētas mikroshēmas (L40S, TPU v5e, pielāgotas ASIC)	Apmācībai optimizētas mikroshēmas (H100, B200, TPU v5p)

Detalizēts salīdzinājums

Dzīves cikla posms un biežums

Apmācības aprēķinu izmaksas ir vienreizējs ieguldījums, kas tiek veikts pirms modeļa palaišanas. Savukārt secinājumu efektivitāte ir pastāvīga problēma, kas sākas brīdī, kad modelis tiek palaists, un turpinās katram pieprasījumam, ko tas apstrādā. Uzņēmums var iztērēt 50 miljonus dolāru modeļa apmācībai vienreiz un pēc tam, ja modelis kļūst populārs, kopumā secinājumiem iztērēt daudz vairāk nekā šo summu modeļa dzīves laikā.

Izmaksu struktūra un mērogošanas uzvedība

Apmācības izmaksas aptuveni paredzamā veidā palielinās līdz ar modeļa lielumu un datu kopas lielumu, proti, skaitļošanas apjoma dubultošana zināmā mērā aptuveni dubulto jaudu. Secināšanas izmaksas palielinās līdz ar lietotāju pieprasījumu, kas ir daudz mazāk paredzams un var strauji pieaugt vienas nakts laikā, ja produkts kļūst populārs. Tāpēc jaunuzņēmumi bieži vien nenovērtē secinājumu budžetus, vienlaikus pārvērtējot apmācības budžetus, kā rezultātā pirmajā ieviešanas gadā rodas naudas plūsmas pārsteigumi.

Optimizācijas metodes

Apmācības optimizācija koncentrējas uz lielākas mācīšanās iespiešanu no katra FLOP, izmantojot tādas metodes kā jauktas precizitātes aritmētika, ZeRO stila atmiņas sadalīšana un gradienta uzkrāšana. Secinājumu optimizācija izmanto citu pieeju, prioritāri piešķirot atmiņas joslas platumam, KV kešatmiņas pārvaldībai un spekulatīvai dekodēšanai, lai apkalpotu vairāk pieprasījumu uz vienu GPU. Abām jomām ir daži kopīgi pamati, taču tās lielā mērā atšķiras atsevišķās inženierijas specialitātēs ar saviem ietvariem un etaloniem.

Aparatūras un infrastruktūras izvēles

Apmācības darba slodzes dod priekšroku GPU ar milzīgu HBM atmiņu un liela joslas platuma savienojumiem, piemēram, NVIDIA H100 un B200, kas paredzēti, lai nodrošinātu tūkstošiem paātrinātāju nepārtrauktu darbību. Secinājumu darba slodzes var darbināt ar lētākām, energoefektīvākām mikroshēmām, piemēram, L40S, TPU v5e vai pat pielāgotu Groq un Cerebras silīciju, kas prioritāti piešķir viena pieprasījuma latentumam, nevis neapstrādātai apmācības caurlaidspējai. Daudzas organizācijas tagad katrai fāzei izmanto atsevišķus klasterus, lai optimizētu izmaksas.

Uzņēmējdarbības ietekme un lēmumu pieņemšana

Apmācības aprēķinu izmaksas nosaka, vai modeli vispār ir iespējams izveidot, bieži vien nosakot, kuras organizācijas var konkurēt progresīvā līmenī. Secinājumu efektivitāte nosaka, vai ieviestais modelis ir rentabls, jo katrs efektivitātes uzlabojuma procentpunkts tieši uzlabo peļņas normu katrā API izsaukumā vai produkta mijiedarbībā. Investori un finanšu direktori arvien vairāk rūpīgi pārbauda secinājumu vienības ekonomiku, jo tieši tur atrodas ilgtermiņa biznesa vērtība.

Priekšrocības un trūkumi

Secinājumu efektivitāte

Iepriekšējumi

+ Tieša ietekme uz peļņas normu
+ Nepārtrauktas optimizācijas ieguvumi
+ Zemāka latentuma funkcija piesaista lietotājus
+ Mērogojas atbilstoši pieprasījumam

Ievietots

− Neparedzami satiksmes pieaugumi
− Aparatūras fragmentācija
− Sarežģīta kešatmiņas loģika
− Grūti godīgi salīdzināt

Apmācības aprēķinu izmaksas

Iepriekšējumi

+ Paredzams budžets iepriekš
+ Vienreizējie kapitālieguldījumi
+ Skaidri ieguldījumu atdeves rādītāji
+ Robežas spēju atbloķēšana

Ievietots

− Liela tūlītēja naudas izšķiešana
− Neveiksmīgi braucieni izšķiež resursus
− Pārdevēja atkarības risks
− Gari iterācijas cikli

Biežas maldības

Mīts

Apmācība vienmēr ir dārgāka nekā secinājumu izdarīšana.

Realitāte

Populāri izvietotajiem modeļiem secinājumu izmaksas regulāri pārsniedz kopējās apmācības izmaksas 6–12 mēnešu laikā. Tiek ziņots, ka ChatGPT katru gadu tērē simtiem miljonu secinājumiem, ievērojami pārsniedzot sākotnējo apmācības budžetu. Apmācības izmaksas ir vienreizējs trieciens, savukārt secinājumi uzkrājas uz visiem laikiem.

Mīts

Dārgāks treniņš vienmēr rada labāku modeli.

Realitāte

Aprēķini ir nepieciešami, bet nepietiekami. Datu kvalitāte, arhitektūras izvēles un apmācības metodoloģija bieži vien ir svarīgāki par neapstrādātiem FLOP. Daži no labākajiem atvērtā pirmkoda modeļiem tika apmācīti ar nelielu budžetu, izmantojot gudras metodes, savukārt dārgas palaišanas ir devušas neapmierinošus rezultātus.

Mīts

Secinājumu efektivitāte ir tikai modeļu paātrināšana.

Realitāte

Ātrums ir viens no aspektiem, bet secinājumu efektivitāte ietver arī izmaksas par vienu marķieri, enerģijas patēriņu, atmiņas aizņemto daļu un uzticamību slodzes apstākļos. Modelis var būt ātrs, bet dārgs, vai lēts, bet neuzticams, un patiesa efektivitāte līdzsvaro visus šos faktorus.

Mīts

Jums jāuztraucas tikai par vienu vai otru.

Realitāte

Mūsdienu mākslīgā intelekta sistēmām ir jāoptimizē abi. Lēti apmācīts, bet neefektīvi apkalpots modelis izšķies naudu, savukārt dārgi apmācīts modelis ar sliktu secinājumu ekonomiku gūs grūtības atrast ilgtspējīgu biznesa modeli. Šīs abas problēmas ir cieši saistītas.

Mīts

Lētāka secinājumu izdarīšana vienmēr nozīmē sliktāku kvalitāti.

Realitāte

Tādas metodes kā kvantēšana, destilēšana un spekulatīvā dekodēšana var ievērojami samazināt secinājumu izmaksas ar minimālu kvalitātes zudumu. INT8 vai INT4 kvantēšana bieži vien saglabā vairāk nekā 95% modeļa kvalitātes, vienlaikus samazinot skaitļošanas prasības uz pusi vai vairāk.

Bieži uzdotie jautājumi

Kāda ir atšķirība starp secinājumiem un apmācību mākslīgajā intelektā?

Apmācība ir modeļa apmācības process, pielāgojot tā svarus, izmantojot lielus datu kopumus, kam parasti nepieciešami tūkstošiem grafisko procesoru (GPU) darbība nedēļām ilgi. Secināšana notiek pēc izvietošanas, kur apmācītais modelis apstrādā jaunus ievades datus, lai ģenerētu prognozes vai tekstu. Apmācība notiek vienreiz (vai reizēm precizēšanai), savukārt secinājumi notiek katru reizi, kad kāds izmanto modeli.

Cik maksā liela valodas modeļa apmācība?

Robežmodeļu apmācības izmaksas svārstās no aptuveni 1 miljona ASV dolāru mazākiem atvērtiem modeļiem līdz vairāk nekā 100 miljoniem ASV dolāru tādām sistēmām kā GPT-4 vai Gemini Ultra. Šie skaitļi ietver tikai skaitļošanas izmaksas, nevis datu iegūšanu vai pētnieku algas. Tendence ir aptuveni 10 reižu izmaksu pieaugums ik pēc 1–2 gadiem, modeļiem paplašinoties.

Kāpēc secinājumu izdarīšana bieži vien ir dārgāka nekā apmācība?

Tā kā secinājumi tiek veikti nepārtraukti miljardiem pieprasījumu, kumulatīvais skaitļošanas apjoms strauji pieaug. Modelis, kas apkalpo 100 miljonus lietotāju, kuri veic 10 pieprasījumus dienā, gada laikā patērēs daudz vairāk GPU stundu nekā sākotnējā apmācības cikls. Tāpēc tādi uzņēmumi kā OpenAI lielāko daļu sava skaitļošanas budžeta tērē esošo modeļu apkalpošanai, nevis jaunu modeļu apmācībai.

Kādi ir labākie veidi, kā samazināt secinājumu izmaksas?

Visietekmīgākās metodes ietver kvantizāciju (skaitliskās precizitātes samazināšana no FP16 līdz INT8 vai INT4), KV kešatmiņas optimizāciju, pieprasījumu partijveida apstrādi, spekulatīvu dekodēšanu un modeļa destilāciju. Izmantojot secinājumiem optimizētu aparatūru, piemēram, L40S GPU vai TPU, var arī samazināt izmaksas 2–5 reizes salīdzinājumā ar apmācībai optimizētām mikroshēmām, piemēram, H100, darba slodžu apkalpošanai.

Vai jūs varat efektīvi apmācīt modeli ar nelielu budžetu?

Jā, īpaši konkrētai jomai paredzētiem vai mazākiem modeļiem. Tādas metodes kā LoRA precizēšana, parametru ziņā efektīva apmācība un iepriekš apmācītu bāzes modeļu izmantošana var samazināt apmācības izmaksas 100 reizes vai vairāk. Tādi modeļi kā Llama 3 8B un Mistral 7B tika apmācīti par mazāk nekā 5 miljoniem ASV dolāru, vienlaikus nodrošinot konkurētspējīgu veiktspēju daudzos uzdevumos.

Kā jūs mērāt secinājumu efektivitāti?

Bieži sastopamie rādītāji ietver žetonus sekundē uz GPU, laiku līdz pirmajam žetonam (TTFT), žetonu savstarpējo latentumu, izmaksas par miljonu žetonu un caurlaidspēju vienlaicīgas slodzes laikā. Tādi ietvari kā vLLM un TensorRT-LLM ziņo par šiem rādītājiem, un tādi etaloni kā MLPerf Inference nodrošina standartizētus salīdzinājumus dažādās aparatūrās.

Vai apmācības aprēķinu izmaksas ietver neveiksmīgus eksperimentus?

Praksē jā. Lielākā daļa nopietnu apmācības mēģinājumu ietver desmitiem neveiksmīgu palaišanu kļūdu, hiperparametru problēmu vai mērogošanas problēmu dēļ. Nozares aplēses liecina, ka 30–50 % no kopējā apmācības skaitļošanas apjoma tiek izšķiesti eksperimentiem, kas nerada galīgo modeli, tāpēc rūpīga eksperimentu izsekošana un mazāka mēroga validācijas palaišanas ir tik svarīgas.

Kāda aparatūra ir vislabākā secinājumiem salīdzinājumā ar apmācību?

Apmācībai ir noderīgi GPU ar milzīgu HBM atmiņu un ātru savienojumu, piemēram, NVIDIA H100 vai B200, kas sinhronizē tūkstošiem paātrinātāju. Secinājumiem var izmantot lētākas, efektīvākas mikroshēmas, piemēram, L40S, TPU v5e vai specializētus Groq un Cerebras paātrinātājus, kas prioritāti piešķir pieprasījuma latentumam un energoefektivitātei, nevis neapstrādātai caurlaidspējai.

Kā modeļa izmērs ietekmē abas izmaksas?

Lielāku modeļu apmācība izmaksā vairāk, jo tiem nepieciešams vairāk FLOP un atmiņas, un to apkalpošana izmaksā vairāk, jo katram pieprasījumam nepieciešams vairāk aprēķinu un atmiņas joslas platuma. Tomēr lielāki modeļi bieži vien nodrošina labāku kvalitāti ar zemāku latentumu (nepieciešams mazāk žetonu), tāpēc šī saistība nav stingri lineāra. Optimālais modeļa lielums ir ļoti atkarīgs no konkrētā lietošanas gadījuma un datplūsmas modeļiem.

Vai secinājumu izmaksas turpinās samazināties?

Jā, secinājumu izmaksas ir samazinājušās aptuveni 10 reizes ik pēc 1–2 gadiem, pateicoties labākai aparatūrai, programmatūras optimizācijai un algoritmiskiem uzlabojumiem. GPT-3.5 līmeņa kvalitātes nodrošināšanas izmaksas kopš 2023. gada ir samazinājušās par vairāk nekā 90 %, un paredzams, ka šī tendence turpināsies, attīstoties tādām metodēm kā destilācija, kvantēšana un specializētās secinājumu mikroshēmas.

Spriedums

Izvēlieties optimizēt secinājumu efektivitāti, ja jūsu modelis jau ir ieviests un apkalpo reālus lietotājus, jo katra ietaupītā milisekunde un marķieris nodrošina ievērojamus izmaksu ietaupījumus. Koncentrējieties uz skaitļošanas apmācības izmaksām, ja veidojat jaunu modeli no nulles un jums ir jālīdzsvaro spēju pieaugums ar sākotnējām investīcijām. Lielākā daļa nobriedušu mākslīgā intelekta organizāciju uzskata abus par kritiski svarīgiem, taču secinājumu efektivitāte parasti nodrošina labāku ieguldījumu atdevi jau esošiem produktiem, savukārt skaitļošanas apmācība ir jaunu izrāvienu vārtu sargs.

Saistītie salīdzinājumi

Adaptīvā infrastruktūra pret statisko infrastruktūras dizainu

Adaptīvā infrastruktūra dinamiski pielāgojas mainīgajām darba slodzēm, izmantojot automatizāciju un mērogošanu reāllaikā, savukārt statiskās infrastruktūras dizains balstās uz fiksētiem, iepriekš konfigurētiem resursiem. Izvēle starp tiem ir atkarīga no darba slodzes mainīguma, budžeta paredzamības un darbības brieduma jūsu mākoņvidē.

Augstas caurlaidspējas apkalpošanas sistēmas salīdzinājumā ar zemas datplūsmas API

Augstas caurlaidspējas apkalpošanas sistēmas apstrādā milzīgu pieprasījumu apjomu ar milisekundes līmeņa latentumu, nodrošinot ieteikumu dzinēju un reklāmu platformu darbību. API ar mazu datplūsmu apkalpo mazākas lietotāju bāzes, kur vienkāršība, izmaksu efektivitāte un uzturēšanas vieglums ir svarīgāki par neapstrādātu mērogu.

Augstas caurlaidspējas ieteikumu apkalpošana salīdzinājumā ar zemas latentuma API sistēmām

Augstas caurlaidspējas ieteikumu apkalpošana koncentrējas uz miljonu vienumu ranžēšanu katrā pieprasījumā plašā mērogā, savukārt zemas latentuma API sistēmas piešķir prioritāti ātram, paredzamam atbildes laikam vispārējas nozīmes vaicājumiem. Abas pieprasa veiktspēju zem 100 ms, bet risina fundamentāli atšķirīgas inženiertehniskās problēmas mūsdienu mākoņinfrastruktūrā.

AWS pret Google Cloud

Šis salīdzinājums izvērtē Amazon Web Services un Google Cloud, analizējot to pakalpojumu piedāvājumus, cenu modeļus, globālo infrastruktūru, veiktspēju, izstrādātāju pieredzi un optimālos lietošanas gadījumus, palīdzot organizācijām izvēlēties mākoņplatformu, kas vislabāk atbilst to tehniskajām un biznesa prasībām.

Baitu nobīdes kontrolpunktēšana salīdzinājumā ar bezvalstnieku atkopšanu

Baitu nobīdes kontrolpunkti un bezstāvokļa atkopšana ir principiāli atšķirīgas pieejas kļūdu tolerancei izkliedētās sistēmās, kur pirmā saglabā precīzas straumes pozīcijas precīzai atsākšanas iespējai, bet otrā atjauno stāvokli no nulles, izmantojot nemainīgus datu avotus, aizstājot krātuves pieskaitāmās izmaksas rekonstrukcijas vienkāršības labad.