Secinājumu efektivitāte salīdzinājumā ar apmācības aprēķinu izmaksām
Secinājumu efektivitāte mēra, cik labi izvietotais mākslīgā intelekta modelis apstrādā pieprasījumus, izmantojot minimālu skaitļošanas apjomu, savukārt apmācības skaitļošanas izmaksas atspoguļo resursus, kas iztērēti modeļa apmācībai no nulles. Abi veido mākslīgā intelekta ekonomiku, bet darbojas pilnīgi dažādos modeļa dzīves cikla posmos.
Iezīmes
Secinājumu izmaksas parasti pārsniedz apmācības izmaksas dažu mēnešu laikā pēc veiksmīgas modeļa palaišanas.
Apmācība ir vienreizējs izdevums, savukārt secinājumi ir pastāvīgas darbības izmaksas.
Katrai fāzei optimāla ir atšķirīga aparatūra, apmācībai dodot priekšroku H100/B200 un secinājumiem dodot priekšroku L40S vai pielāgotiem ASIC.
Secinājumu optimizācijas metodes, piemēram, KV kešatmiņas atkārtota izmantošana un kvantēšana, var samazināt izmaksas 3–10 reizes bez atkārtotas apmācības.
Kas ir Secinājumu efektivitāte?
Cik efektīvi apmācīts mākslīgā intelekta modelis nodrošina prognozes, izmantojot minimālu skaitļošanas, atmiņas un enerģijas patēriņu katram pieprasījumam.
Secinājumi notiek pēc modeļa apmācības un ieviešanas, apstrādājot katru jauno ievadi pa vienai vai nelielās partijās.
Mūsdienu secinājumu optimizācijas ietver kvantizāciju, KV kešatmiņas atkārtotu izmantošanu, spekulatīvu dekodēšanu un partiju veidošanas stratēģijas, kas var samazināt izmaksas 3–10 reizes.
Apkalpojošie ietvari, piemēram, vLLM, TensorRT-LLM un SGLang, specializējas tokenu sekundē uz vienu GPU caurlaidspējas palielināšanā.
Ražošanas secinājumu latentuma mērķi parasti svārstās no 50 ms tērzēšanai līdz vairākām sekundēm garās formas ģenerēšanai.
Secinājumu izmaksas dominē kopējās mākslīgā intelekta izmaksās plašā mērogā, bieži vien pārsniedzot apmācības izmaksas dažu mēnešu laikā pēc ieviešanas.
Kas ir Apmācības aprēķinu izmaksas?
Kopējais GPU stundu, enerģijas un dolāru skaits, kas nepieciešams, lai apmācītu modeli no neapstrādātiem datiem līdz izvietojamam stāvoklim.
Tiek lēsts, ka tādu robežmodeļu kā GPT-4 vai Gemini Ultra apmācība vien skaitļošanas ziņā izmaksās desmitiem miljonu dolāru.
Aprēķinus parasti mēra FLOP (peldošā komata operācijās), un mūsdienu LLM tiek apmācīti ar 10^23 līdz 10^25 FLOP.
Apmācības darbos paralēli nedēļām vai mēnešiem ilgi tiek izmantoti tūkstošiem GPU vai TPU, kas sagrupēti kopā.
Izmaksas ietver ne tikai GPU laiku, bet arī datu sagatavošanu, neveiksmīgas eksperimentālās palaišanas un hiperparametru pārbaudes.
Iepriekšēja apmācība ir vienreizējs izdevums, lai gan precīza pielāgošana un nepārtraukta apmācība rada atkārtotas izmaksas visā modeļa dzīves ciklā.
Salīdzinājuma tabula
Funkcija
Secinājumu efektivitāte
Apmācības aprēķinu izmaksas
Kad tas notiek
Pēc izvietošanas katru reizi, kad modelis tiek izmantots
Pirms izvietošanas, modeļa izveides laikā
Izmaksu ilgums
Pastāvīgi, mērogojas ar lietošanas apjomu
Vienreizējs uzliesmojums, kas ilgst nedēļām vai mēnešiem ilgi
Primārā metrika
Žetoni sekundē uz GPU, latentums, maksa par pieprasījumu
Kopējais FLOP skaits, GPU stundas, sienas pulksteņa apmācības laiks
Tipiska skala
Miljoniem līdz miljardiem pieprasījumu mēnesī
Tūkstošiem GPU, kas darbojas 1–6 mēnešus
Izmaksu optimizācijas rīki
Kvantizācija, partiju apstrāde, kešatmiņa, modeļa destilācija
Jaukta precizitāte, gradienta kontrolpunkti, datu paralēlisms
Dominējošais izmaksu virzītājspēks
Atmiņas joslas platums un KV kešatmiņas lielums
Starpgrafisko procesoru komunikācija un atmiņas ietilpība
Enerģijas profils
Stabils, sadalīts starp daudziem mazākiem pieprasījumiem
Apmācības aprēķinu izmaksas ir vienreizējs ieguldījums, kas tiek veikts pirms modeļa palaišanas. Savukārt secinājumu efektivitāte ir pastāvīga problēma, kas sākas brīdī, kad modelis tiek palaists, un turpinās katram pieprasījumam, ko tas apstrādā. Uzņēmums var iztērēt 50 miljonus dolāru modeļa apmācībai vienreiz un pēc tam, ja modelis kļūst populārs, kopumā secinājumiem iztērēt daudz vairāk nekā šo summu modeļa dzīves laikā.
Izmaksu struktūra un mērogošanas uzvedība
Apmācības izmaksas aptuveni paredzamā veidā palielinās līdz ar modeļa lielumu un datu kopas lielumu, proti, skaitļošanas apjoma dubultošana zināmā mērā aptuveni dubulto jaudu. Secināšanas izmaksas palielinās līdz ar lietotāju pieprasījumu, kas ir daudz mazāk paredzams un var strauji pieaugt vienas nakts laikā, ja produkts kļūst populārs. Tāpēc jaunuzņēmumi bieži vien nenovērtē secinājumu budžetus, vienlaikus pārvērtējot apmācības budžetus, kā rezultātā pirmajā ieviešanas gadā rodas naudas plūsmas pārsteigumi.
Optimizācijas metodes
Apmācības optimizācija koncentrējas uz lielākas mācīšanās iespiešanu no katra FLOP, izmantojot tādas metodes kā jauktas precizitātes aritmētika, ZeRO stila atmiņas sadalīšana un gradienta uzkrāšana. Secinājumu optimizācija izmanto citu pieeju, prioritāri piešķirot atmiņas joslas platumam, KV kešatmiņas pārvaldībai un spekulatīvai dekodēšanai, lai apkalpotu vairāk pieprasījumu uz vienu GPU. Abām jomām ir daži kopīgi pamati, taču tās lielā mērā atšķiras atsevišķās inženierijas specialitātēs ar saviem ietvariem un etaloniem.
Aparatūras un infrastruktūras izvēles
Apmācības darba slodzes dod priekšroku GPU ar milzīgu HBM atmiņu un liela joslas platuma savienojumiem, piemēram, NVIDIA H100 un B200, kas paredzēti, lai nodrošinātu tūkstošiem paātrinātāju nepārtrauktu darbību. Secinājumu darba slodzes var darbināt ar lētākām, energoefektīvākām mikroshēmām, piemēram, L40S, TPU v5e vai pat pielāgotu Groq un Cerebras silīciju, kas prioritāti piešķir viena pieprasījuma latentumam, nevis neapstrādātai apmācības caurlaidspējai. Daudzas organizācijas tagad katrai fāzei izmanto atsevišķus klasterus, lai optimizētu izmaksas.
Uzņēmējdarbības ietekme un lēmumu pieņemšana
Apmācības aprēķinu izmaksas nosaka, vai modeli vispār ir iespējams izveidot, bieži vien nosakot, kuras organizācijas var konkurēt progresīvā līmenī. Secinājumu efektivitāte nosaka, vai ieviestais modelis ir rentabls, jo katrs efektivitātes uzlabojuma procentpunkts tieši uzlabo peļņas normu katrā API izsaukumā vai produkta mijiedarbībā. Investori un finanšu direktori arvien vairāk rūpīgi pārbauda secinājumu vienības ekonomiku, jo tieši tur atrodas ilgtermiņa biznesa vērtība.
Priekšrocības un trūkumi
Secinājumu efektivitāte
Iepriekšējumi
+Tieša ietekme uz peļņas normu
+Nepārtrauktas optimizācijas ieguvumi
+Zemāka latentuma funkcija piesaista lietotājus
+Mērogojas atbilstoši pieprasījumam
Ievietots
−Neparedzami satiksmes pieaugumi
−Aparatūras fragmentācija
−Sarežģīta kešatmiņas loģika
−Grūti godīgi salīdzināt
Apmācības aprēķinu izmaksas
Iepriekšējumi
+Paredzams budžets iepriekš
+Vienreizējie kapitālieguldījumi
+Skaidri ieguldījumu atdeves rādītāji
+Robežas spēju atbloķēšana
Ievietots
−Liela tūlītēja naudas izšķiešana
−Neveiksmīgi braucieni izšķiež resursus
−Pārdevēja atkarības risks
−Gari iterācijas cikli
Biežas maldības
Mīts
Apmācība vienmēr ir dārgāka nekā secinājumu izdarīšana.
Realitāte
Populāri izvietotajiem modeļiem secinājumu izmaksas regulāri pārsniedz kopējās apmācības izmaksas 6–12 mēnešu laikā. Tiek ziņots, ka ChatGPT katru gadu tērē simtiem miljonu secinājumiem, ievērojami pārsniedzot sākotnējo apmācības budžetu. Apmācības izmaksas ir vienreizējs trieciens, savukārt secinājumi uzkrājas uz visiem laikiem.
Mīts
Dārgāks treniņš vienmēr rada labāku modeli.
Realitāte
Aprēķini ir nepieciešami, bet nepietiekami. Datu kvalitāte, arhitektūras izvēles un apmācības metodoloģija bieži vien ir svarīgāki par neapstrādātiem FLOP. Daži no labākajiem atvērtā pirmkoda modeļiem tika apmācīti ar nelielu budžetu, izmantojot gudras metodes, savukārt dārgas palaišanas ir devušas neapmierinošus rezultātus.
Mīts
Secinājumu efektivitāte ir tikai modeļu paātrināšana.
Realitāte
Ātrums ir viens no aspektiem, bet secinājumu efektivitāte ietver arī izmaksas par vienu marķieri, enerģijas patēriņu, atmiņas aizņemto daļu un uzticamību slodzes apstākļos. Modelis var būt ātrs, bet dārgs, vai lēts, bet neuzticams, un patiesa efektivitāte līdzsvaro visus šos faktorus.
Mīts
Jums jāuztraucas tikai par vienu vai otru.
Realitāte
Mūsdienu mākslīgā intelekta sistēmām ir jāoptimizē abi. Lēti apmācīts, bet neefektīvi apkalpots modelis izšķies naudu, savukārt dārgi apmācīts modelis ar sliktu secinājumu ekonomiku gūs grūtības atrast ilgtspējīgu biznesa modeli. Šīs abas problēmas ir cieši saistītas.
Mīts
Lētāka secinājumu izdarīšana vienmēr nozīmē sliktāku kvalitāti.
Realitāte
Tādas metodes kā kvantēšana, destilēšana un spekulatīvā dekodēšana var ievērojami samazināt secinājumu izmaksas ar minimālu kvalitātes zudumu. INT8 vai INT4 kvantēšana bieži vien saglabā vairāk nekā 95% modeļa kvalitātes, vienlaikus samazinot skaitļošanas prasības uz pusi vai vairāk.
Bieži uzdotie jautājumi
Kāda ir atšķirība starp secinājumiem un apmācību mākslīgajā intelektā?
Apmācība ir modeļa apmācības process, pielāgojot tā svarus, izmantojot lielus datu kopumus, kam parasti nepieciešami tūkstošiem grafisko procesoru (GPU) darbība nedēļām ilgi. Secināšana notiek pēc izvietošanas, kur apmācītais modelis apstrādā jaunus ievades datus, lai ģenerētu prognozes vai tekstu. Apmācība notiek vienreiz (vai reizēm precizēšanai), savukārt secinājumi notiek katru reizi, kad kāds izmanto modeli.
Cik maksā liela valodas modeļa apmācība?
Robežmodeļu apmācības izmaksas svārstās no aptuveni 1 miljona ASV dolāru mazākiem atvērtiem modeļiem līdz vairāk nekā 100 miljoniem ASV dolāru tādām sistēmām kā GPT-4 vai Gemini Ultra. Šie skaitļi ietver tikai skaitļošanas izmaksas, nevis datu iegūšanu vai pētnieku algas. Tendence ir aptuveni 10 reižu izmaksu pieaugums ik pēc 1–2 gadiem, modeļiem paplašinoties.
Kāpēc secinājumu izdarīšana bieži vien ir dārgāka nekā apmācība?
Tā kā secinājumi tiek veikti nepārtraukti miljardiem pieprasījumu, kumulatīvais skaitļošanas apjoms strauji pieaug. Modelis, kas apkalpo 100 miljonus lietotāju, kuri veic 10 pieprasījumus dienā, gada laikā patērēs daudz vairāk GPU stundu nekā sākotnējā apmācības cikls. Tāpēc tādi uzņēmumi kā OpenAI lielāko daļu sava skaitļošanas budžeta tērē esošo modeļu apkalpošanai, nevis jaunu modeļu apmācībai.
Kādi ir labākie veidi, kā samazināt secinājumu izmaksas?
Visietekmīgākās metodes ietver kvantizāciju (skaitliskās precizitātes samazināšana no FP16 līdz INT8 vai INT4), KV kešatmiņas optimizāciju, pieprasījumu partijveida apstrādi, spekulatīvu dekodēšanu un modeļa destilāciju. Izmantojot secinājumiem optimizētu aparatūru, piemēram, L40S GPU vai TPU, var arī samazināt izmaksas 2–5 reizes salīdzinājumā ar apmācībai optimizētām mikroshēmām, piemēram, H100, darba slodžu apkalpošanai.
Vai jūs varat efektīvi apmācīt modeli ar nelielu budžetu?
Jā, īpaši konkrētai jomai paredzētiem vai mazākiem modeļiem. Tādas metodes kā LoRA precizēšana, parametru ziņā efektīva apmācība un iepriekš apmācītu bāzes modeļu izmantošana var samazināt apmācības izmaksas 100 reizes vai vairāk. Tādi modeļi kā Llama 3 8B un Mistral 7B tika apmācīti par mazāk nekā 5 miljoniem ASV dolāru, vienlaikus nodrošinot konkurētspējīgu veiktspēju daudzos uzdevumos.
Kā jūs mērāt secinājumu efektivitāti?
Bieži sastopamie rādītāji ietver žetonus sekundē uz GPU, laiku līdz pirmajam žetonam (TTFT), žetonu savstarpējo latentumu, izmaksas par miljonu žetonu un caurlaidspēju vienlaicīgas slodzes laikā. Tādi ietvari kā vLLM un TensorRT-LLM ziņo par šiem rādītājiem, un tādi etaloni kā MLPerf Inference nodrošina standartizētus salīdzinājumus dažādās aparatūrās.
Vai apmācības aprēķinu izmaksas ietver neveiksmīgus eksperimentus?
Praksē jā. Lielākā daļa nopietnu apmācības mēģinājumu ietver desmitiem neveiksmīgu palaišanu kļūdu, hiperparametru problēmu vai mērogošanas problēmu dēļ. Nozares aplēses liecina, ka 30–50 % no kopējā apmācības skaitļošanas apjoma tiek izšķiesti eksperimentiem, kas nerada galīgo modeli, tāpēc rūpīga eksperimentu izsekošana un mazāka mēroga validācijas palaišanas ir tik svarīgas.
Kāda aparatūra ir vislabākā secinājumiem salīdzinājumā ar apmācību?
Apmācībai ir noderīgi GPU ar milzīgu HBM atmiņu un ātru savienojumu, piemēram, NVIDIA H100 vai B200, kas sinhronizē tūkstošiem paātrinātāju. Secinājumiem var izmantot lētākas, efektīvākas mikroshēmas, piemēram, L40S, TPU v5e vai specializētus Groq un Cerebras paātrinātājus, kas prioritāti piešķir pieprasījuma latentumam un energoefektivitātei, nevis neapstrādātai caurlaidspējai.
Kā modeļa izmērs ietekmē abas izmaksas?
Lielāku modeļu apmācība izmaksā vairāk, jo tiem nepieciešams vairāk FLOP un atmiņas, un to apkalpošana izmaksā vairāk, jo katram pieprasījumam nepieciešams vairāk aprēķinu un atmiņas joslas platuma. Tomēr lielāki modeļi bieži vien nodrošina labāku kvalitāti ar zemāku latentumu (nepieciešams mazāk žetonu), tāpēc šī saistība nav stingri lineāra. Optimālais modeļa lielums ir ļoti atkarīgs no konkrētā lietošanas gadījuma un datplūsmas modeļiem.
Vai secinājumu izmaksas turpinās samazināties?
Jā, secinājumu izmaksas ir samazinājušās aptuveni 10 reizes ik pēc 1–2 gadiem, pateicoties labākai aparatūrai, programmatūras optimizācijai un algoritmiskiem uzlabojumiem. GPT-3.5 līmeņa kvalitātes nodrošināšanas izmaksas kopš 2023. gada ir samazinājušās par vairāk nekā 90 %, un paredzams, ka šī tendence turpināsies, attīstoties tādām metodēm kā destilācija, kvantēšana un specializētās secinājumu mikroshēmas.
Spriedums
Izvēlieties optimizēt secinājumu efektivitāti, ja jūsu modelis jau ir ieviests un apkalpo reālus lietotājus, jo katra ietaupītā milisekunde un marķieris nodrošina ievērojamus izmaksu ietaupījumus. Koncentrējieties uz skaitļošanas apmācības izmaksām, ja veidojat jaunu modeli no nulles un jums ir jālīdzsvaro spēju pieaugums ar sākotnējām investīcijām. Lielākā daļa nobriedušu mākslīgā intelekta organizāciju uzskata abus par kritiski svarīgiem, taču secinājumu efektivitāte parasti nodrošina labāku ieguldījumu atdevi jau esošiem produktiem, savukārt skaitļošanas apmācība ir jaunu izrāvienu vārtu sargs.