mākslīgais intelektsmašīnmācīšanāsdziļā mācīšanāsMākslīgā intelekta pētījumineironu tīkli

Modeļa mērogošanas likumi pret arhitektūras inovācijām

Modeļu mērogošanas likumi un arhitektūras inovācijas ir divas konkurējošas filozofijas mākslīgā intelekta spēju uzlabošanai. Mērogošanas likumi liecina, ka lielāki modeļi, kas apmācīti ar lielāku datu apjomu, sniedz paredzamus ieguvumus, savukārt arhitektūras inovācijas koncentrējas uz viedākiem dizainiem, kas sasniedz vairāk ar mazāku skaitļošanas apjomu.

Iezīmes

Mērogošanas likumi piedāvā matemātisku paredzamību, ko arhitektūras inovācijas nevar nodrošināt.
Arhitektūras inovācijas var sasniegt salīdzināmus rezultātus ar par lieluma kārtām mazāku skaitļošanas apjomu.
Činčilas skaitļošanas ziņā optimālā apmācība mainīja to, kā laboratorijas sadala resursus starp modeļa lielumu un datiem.
Nozare konverģē uz hibrīda pieeju, apvienojot abas stratēģijas.

Kas ir Modeļa mērogošanas likumi?

Empīriski principi, kas parāda, kā mākslīgā intelekta modeļa veiktspēja paredzami uzlabojas, palielinoties parametru, datu un skaitļošanas apjomu skaitam.

OpenAI 2020. gada Kaplana un līdzautoru rakstā tika konstatēts, ka modeļa zudums atbilst pakāpes likuma attiecībām ar parametru skaitu, datu kopas lielumu un skaitļošanas spēju.
Šinčilla (Hoffmann et al., 2022) precizēja šos likumus, parādot, ka modeļi jāapmāca ar aptuveni 20 žetoniem uz parametru, lai nodrošinātu optimālu skaitļošanas veiktspēju.
GPT-3 demonstrēja mērogojamību ar 175 miljardiem parametru, savukārt GPT-4, kā ziņots, pārsniedza vienu triljonu parametru.
Mērogošanas likumi attiecas uz dažādām modalitātēm, tostarp valodas, redzes un multimodāliem modeļiem, lai gan ar atšķirīgiem eksponentiem.
Samazināta atdeve parādās ekstremālos mērogos, un katra skaitļošanas divkāršošanās rada mazākus veiktspējas uzlabojumus nekā iepriekšējā.

Kas ir Arhitektūras inovācijas?

Jauni neironu tīklu dizaini, kas uzlabo mākslīgā intelekta efektivitāti un iespējas, pārsniedzot to, ko nodrošina tikai neapstrādāta mērogošana.

Transformer arhitektūra (Vaswani et al., 2017) aizstāja reģistrētos neironu tīklus (RNN) un ļāva izveidot mūsdienīgus lielus valodu modeļus, izmantojot pašnovērošanas mehānismus.
Ekspertu kombinācijas (MoE) arhitektūras aktivizē tikai daļas no tīkla katrā ievades reizē, ievērojami uzlabojot skaitļošanas efektivitāti.
Stāvokļa telpas modeļi, piemēram, Mamba (2023), piedāvā lineāra laika alternatīvas kvadrātiskajai uzmanībai garām secībām.
Izguves paplašinātā ģenerēšana (RAG) apvieno parametrisko atmiņu ar ārēju zināšanu izgūšanu, lai paplašinātu iespējas bez pārapmācības.
Arhitektūras inovācijas, piemēram, Flash Attention, samazina atmiņas izmantošanu un apmācības laiku, izmantojot algoritmiskus uzlabojumus, nevis lielāku skaitļošanas apjomu.

Salīdzinājuma tabula

Funkcija	Modeļa mērogošanas likumi	Arhitektūras inovācijas
Galvenā filozofija	Lielāki modeļi + vairāk datu = labāka veiktspēja	Gudrāki dizaini sasniedz vairāk ar mazāku skaitļošanas apjomu
Galvenais izmaksu virzītājspēks	Aprēķini un enerģija treniņiem	Pētniecības talants un dizaina iterācija
Ieguvumu paredzamība	Ļoti paredzams, izmantojot pakāpes likumus	Neparedzami; izrāvieni ir neregulāri
Galvenie atbalstītāji	OpenAI, antropiskās, mērogošanas hipotēzes aizstāvji	DeepMind, akadēmiskie pētnieki, uz efektivitāti vērstas laboratorijas
Aprēķinu prasības	Masveida un eksponenciāli augošs	Bieži vien zemāks; var darboties ar pieticīgu aparatūru
Veiktspējas griesti	Ierobežots ar pieejamajiem skaitļošanas datiem un datiem	Ierobežota ar cilvēka atjautību dizainā
Rezultātu sasniegšanas laika horizonts	Paredzams, bet lēns (vairāku mēnešu apmācība)	Mainīgs; var ātri nodrošināt izrāvienu
Reprezentatīvi piemēri	GPT-4, Klods 3, Gemini Ultra	Mamba, MoE modeļi, zibspuldzes uzmanības novēršana, RAG sistēmas

Detalizēts salīdzinājums

Filozofiskie pamati

Modeļa mērogošanas likumi balstās uz vienkāršu, bet spēcīgu ideju: intelekts rodas no mēroga. Empīriskie pierādījumi no Kaplana 2020. gada raksta un Činčilas 2022. gada precizējuma liecina, ka veiktspējas uzlabojumi atbilst paredzamām matemātiskām attiecībām. Arhitektūras inovāciju pārstāvji pauž pretēju viedokli, apgalvojot, ka gudra inženierija var iegūt vairāk iespēju no esošajiem skaitļošanas resursiem. Abas nometnes piekrīt, ka mērogošana darbojas; tās nepiekrīt tam, vai tas ir vienīgais ceļš uz priekšu.

Izmaksu un resursu ietekme

Jaunu, plaša mēroga modeļu apmācība vien skaitļošanas ziņā izmaksā desmitiem miljonu dolāru, un GPT-4 klases sistēmu izmaksas, kā ziņots, pārsniedz 100 miljonus dolāru. Arhitektūras inovācijas piedāvā fundamentāli atšķirīgu ekonomiku: labi izstrādāts modelis var sasniegt vai pārspēt lielākus konkurentus par daudz zemākām apmācības izmaksām. Tas padara arhitektūras inovācijas īpaši pievilcīgas akadēmiskajām laboratorijām, jaunuzņēmumiem un organizācijām bez hiperskalibratoru budžeta.

Uzticamība un risks

Mērogošanas likumi sniedz kaut ko retu mākslīgā intelekta pētījumos: paredzamību. Ja veicat dubultu aprēķinu, jūs aptuveni zināt, kādus uzlabojumus sagaidīt. Arhitektūras inovācijas pēc savas būtības ir riskantākas, jo sasniegumi ir atkarīgi no ieskatiem, nevis aritmētikas. Tomēr, kad tiek panākti arhitektūras sasniegumi, tie var pārspēt gadiem ilgu pakāpenisku mērogošanas pieaugumu. Pats Transformers bija šāds lēciens, kas novecoja gadiem ilgu RNN mērogošanas darbu vienas nakts laikā.

Pašreizējās nozares tendences

Nozare arvien vairāk atzīst, ka tīrai mērogošanai ir ierobežojumi. Pat OpenAI vadība ir publiski apspriedusi sadursmes ar datu pieejamības un skaitļošanas ekonomikas šķēršļiem. Tikmēr arhitektūras inovācijas paātrinās: ekspertu sajaukšanas modeļi, piemēram, Mixtral, efektīvi uzmanības varianti un stāvokļa telpas modeļi, gūst popularitāti. Lielākā daļa progresīvo laboratoriju tagad īsteno abas stratēģijas vienlaicīgi, uzskatot tās par papildinošām, nevis konkurējošām.

Ilgtermiņa trajektorija

Raugoties nākotnē, neviena no šīm pieejām atsevišķi, visticamāk, nenodrošinās mākslīgā intelekta (MI) cilvēka līmeņa spējas. Mērogošanas likumi liecina, ka mēs turpināsim palielināt modeļa lielumu, taču samazinātā atdeve un resursu ierobežojumi liks vairāk paļauties uz arhitektūras attapību. Visdaudzsološākais virziens uz priekšu apvieno abus: mērogošanas likumu izmantošanu, lai noteiktu optimālo modeļa lielumu, vienlaikus piemērojot arhitektūras inovācijas, lai maksimāli palielinātu iespējas katram parametram. Šī hibrīdpieeja nosaka pašreizējo MI pētījumu robežu.

Priekšrocības un trūkumi

Modeļa mērogošanas likumi

Iepriekšējumi

+ Paredzami uzlabojumi
+ Empīriski labi validēts
+ Vienkāršāk izpildāms
+ Konsekventi visās jomās

Ievietots

− Ārkārtīgi dārgi
− Samazinoša atdeve
− Rodas datu sastrēgumi
− Vides problēmas

Arhitektūras inovācijas

Iepriekšējumi

+ Skaitļošanas ziņā efektīvi rezultāti
+ Zemākas apmācību izmaksas
+ Atbloķētas jaunas iespējas
+ Demokratizē mākslīgā intelekta izstrādi

Ievietots

− Neparedzami sasniegumi
− Grūtāk atkārtot
− Nepieciešamas dziļas zināšanas
− Lēnāks sākotnējais progress

Biežas maldības

Mīts

Mērogošanas likumi nozīmē, ka lielāki modeļi vienmēr ir labāki.

Realitāte

Chinchilla parādīja, ka modeļa lielumam un apmācības datiem ir jābūt mērogojamiem kopā. 70B modelis, kas apmācīts ar nepietiekamiem datiem, darbosies sliktāk nekā mazāks modelis, kas apmācīts ar atbilstošiem datiem. Attiecības ir saistītas ar līdzsvaru, ne tikai ar izmēru.

Mīts

Arhitektūras inovācijas ir tikai veids, kā izvairīties no izdevumiem skaitļošanas vajadzībām.

Realitāte

Arhitektūras sasniegumi bieži vien paver pilnīgi jaunas iespējas, ko nevar panākt tikai ar mērogošanu. Transformer ne tikai padarīja modeļus lētākus; tas ļāva apstrādāt ilgākus kontekstus un paralēli apmācīt, ko RNN principiāli nevarēja atbalstīt.

Mīts

Mērogošanas likumi turpināsies bezgalīgi, līdz mēs sasniegsim AGI.

Realitāte

Pētnieki ir dokumentējuši samazinātu atdevi robežsastāvdaļās. Katra skaitļošanas jaudas dubultošana tagad nodrošina mazāku veiktspējas pieaugumu nekā iepriekšējās dubultošanas. Arī datu kvalitāte un pieejamība kļūst par stingriem ierobežojumiem, kurus vienkārša mērogošana nevar pārvarēt.

Mīts

Šīs divas pieejas ir savstarpēji izslēdzošas.

Realitāte

Mūsdienu pierobežas modeļi izmanto abus. GPT-4, visticamāk, ietver arhitektūras inovācijas līdzās milzīgam mērogam. Debates patiesībā ir par uzsvaru un resursu sadali, nevis par izvēli starp diviem vai vairākiem variantiem.

Mīts

Arhitektūras inovācijas vienmēr ir labākas par mērogošanu.

Realitāte

Gudra arhitektūra ar nepietiekamiem parametriem vai datiem stagnēs. Arhitektūras inovācijas parasti vislabāk darbojas, ja tās tiek apvienotas ar atbilstošu mērogu. Veiksmīgākās sistēmas vienlaikus optimizē abas dimensijas.

Bieži uzdotie jautājumi

Kādi ir modeļu mērogošanas likumi mākslīgajā intelektā?

Modeļa mērogošanas likumi ir empīriskas sakarības, kas parāda, ka mākslīgā intelekta modeļa veiktspēja uzlabojas kā trīs mainīgo pakāpes funkcija: parametru skaits, datu kopas lielums un apmācības skaitļošanas lielums. Pirmo reizi Kaplans un līdzautori šos likumus OpenAI konferencē pirmo reizi stingri nodemonstrēja 2020. gadā, un tie ļauj pētniekiem prognozēt, cik daudz labāk modelis darbosies, ja tam būs vairāk resursu. Činčila to precizēja 2022. gadā, parādot, ka skaitļošanas ziņā optimālai apmācībai nepieciešami aptuveni 20 apmācības datu žetoni katram parametram.

Kas tiek uzskatīts par arhitektūras inovāciju mākslīgajā intelektā?

Arhitektūras inovācijas attiecas uz fundamentālām izmaiņām neironu tīklu projektēšanā, tostarp jauniem slāņu veidiem, uzmanības mehānismiem vai informācijas plūsmas modeļiem. Piemēri ir Transformer, kas aizstāj RNN, Mixture of Experts, kas aktivizē tikai atbilstošos parametrus, stāvokļa telpas modeļi, piemēram, Mamba, efektīvai secību apstrādei un Flash Attention atmiņas ziņā efektīvai apmācībai. Šīs inovācijas maina to, ko modeļi spēj paveikt, ne tikai to lielumu.

Kura pieeja rada labākus mākslīgā intelekta modeļus?

Abas pieejas ir devušas vismodernākos rezultātus, taču tās optimizē atšķirīgu mērķu sasniegšanai. Mērogošana rada uzticami labākus modeļus ar pietiekamu skaitļošanas jaudu, savukārt arhitektūras inovācijas rada efektīvākus modeļus, kas var darboties ar mazāku aparatūras jaudu. Mūsdienu progresīvie modeļi apvieno abus: milzīgu mērogu ar sarežģītu arhitektūru. “Labākā” pieeja ir atkarīga no jūsu ierobežojumiem, budžeta un mērķa iespējām.

Kāpēc Šinšila mainīja mūsu domāšanu par zvīņošanos?

Pirms Chinchilla daudzas laboratorijas apmācīja relatīvi mazus modeļus ar milzīgiem datu kopumiem, pieņemot, ka dati ir vājā vieta. DeepMind Hoffmann et al. parādīja, ka modeļi faktiski bija nepietiekami apmācīti attiecībā pret to lielumu. Izveidotais īkšķa noteikums, aptuveni 20 žetoni uz parametru, nozīmēja, ka 70B modelim vajadzētu apmācīties ar 1,4 triljoniem žetonu. Tas novirzīja skaitļošanas jaudu uz lielākiem modeļiem un lielāku apmācību, ne tikai uz lielāku datu apjomu.

Vai mērogošanas likumi atsitas pret sienu?

Pierādījumi liecina, ka mērogošana saskaras ar reāliem ierobežojumiem. Iļja Suckevers un citi OpenAI līderi ir publiski apsprieduši datu pieejamības ierobežojumus, un augstas kvalitātes teksta dati, iespējams, būs izsmelti līdz 2026. gadam. Arī veiktspējas pieaugums uz skaitļošanas jaudas dubultošanu ir samazinājies. Tomēr mērogošana turpina darboties; tā vienkārši kļūst dārgāka salīdzinājumā ar ieguvumiem. Tas mudina nozari virzīties uz arhitektūras inovācijām kā papildinājumu.

Kas ir ekspertu maisījuma arhitektūra?

Ekspertu maisījums (MoE) ir arhitektūra, kurā jebkurai dotajai ievadei aktivizējas tikai tīkla parametru apakškopa, ko sauc par ekspertiem. Maršrutēšanas mehānisms izlemj, kurus ekspertus izmantot. Tas nozīmē, ka modelim var būt triljoni kopējo parametru, vienlaikus secinājumu izdarīšanas laikā izmantojot tikai daļu, kas ievērojami samazina aprēķinu izmaksas. Modeļi, piemēram, Mixtral 8x7B un GPT-4, kā ziņots, izmanto MoE dizainus, lai līdzsvarotu iespējas ar efektivitāti.

Vai arhitektūras inovācijas var pilnībā aizstāt mērogošanu?

Iespējams, ne tuvākajā laikā. Arhitektūras inovācijas var ievērojami uzlabot efektivitāti, taču lielākā daļa sasniegumu joprojām ir gūst labumu no to piemērošanas plašā mērogā. Gudra arhitektūra ar pārāk maz parametriem neattīstīs savas iespējas. Reālākais ceļš uz priekšu ir arhitektūras inovāciju izmantošana, lai padarītu mērogošanu efektīvāku, iegūstot lielākas iespējas uz katru skaitļošanas vienību, nevis pilnībā atsakoties no mērogošanas.

Kā mērogošanas likumi attiecas uz multimodāliem modeļiem?

Mērogošanas likumi attiecas arī uz multimodāliem modeļiem, taču ar atšķirīgiem eksponentiem un kompromisiem. Modeļa apmācība gan ar attēliem, gan tekstu prasa skaitļošanas līdzsvarošanu starp modalitātēm. Meta un Google pētījumi liecina, ka multimodālā mērogošana atbilst līdzīgiem pakāpes likuma modeļiem, lai gan redze un valoda var konkurēt par ietilpību viena modeļa ietvaros. Attiecības ir mazāk labi raksturotas nekā tikai teksta modeļiem.

Kāds bija lielākais arhitektūras jauninājums mākslīgā intelekta vēsturē?

Transformer arhitektūra, kas tika ieviesta 2017. gada rakstā “Uzmanība ir viss, kas jums nepieciešams” (“Attention Is All You Need”), tiek plaši uzskatīta par ietekmīgāko arhitektūras inovāciju. Tā aizstāja rekurenci ar pašuzmanību, nodrošinot paralēlu apmācību un daudz garākus konteksta logus. Gandrīz visi mūsdienu lielie valodu modeļi, tostarp GPT, Claude un Gemini, ir veidoti uz Transformer pamatiem. Tās ietekme uz šo jomu ir salīdzināma ar pāreju no ekspertu sistēmām uz dziļo mācīšanos.

Cik maksā apmācīt mākslīgā intelekta perifērijas modeli?

Izmaksas ir dramatiski pieaugušas. Tiek ziņots, ka GPT-3 apmācība izmaksāja aptuveni 4 miljonus ASV dolāru, savukārt GPT-4 klases modeļu apmācība tiek lēsta 50–100 miljonu ASV dolāru vai vairāk apmērā. Google Gemini Ultra apmācības izmaksas, visticamāk, pārsniegs 100 miljonus ASV dolāru. Šie skaitļi ietver tikai skaitļošanas resursus, nevis datu apstrādi vai personālu. Arhitektūras inovācijas var samazināt šīs izmaksas 10 reizes vai vairāk, nodrošinot salīdzināmas iespējas, tāpēc ir pastiprinājusies uz efektivitāti vērsta pētniecība.

Vai mums beigsies apmācības dati mērogošanai?

Saskaņā ar pašreizējiem modeļa patēriņa rādītājiem, tiek prognozēts, ka augstas kvalitātes teksta dati tiks izsmelti laikā no 2026. līdz 2030. gadam. Tas ir būtisks ierobežojums tīrām mērogošanas pieejām. Tiek pētīti risinājumi, tostarp sintētisko datu ģenerēšana, apmācība ar multimodāliem avotiem, piemēram, video un audio, un mazāku, augstākas kvalitātes datu kopu efektīvāka izmantošana. Arhitektūras inovācijas, piemēram, izguves papildināta ģenerēšana, arī samazina atkarību no apmācības datu iegaumēšanas.

Kuras mākslīgā intelekta laboratorijas koncentrējas uz arhitektūras inovācijām?

DeepMind vēsturiski ir uzsvēris arhitektūras inovācijas, sniedzot ieguldījumu Transformers, AlphaGo arhitektūrā un nesenajā darbā ar stāvokļa telpas modeļiem. Mistral AI savu reputāciju ir veidojis, pateicoties efektīviem atvērtā svara modeļiem. Akadēmiskās iestādes, piemēram, Stenforda, MIT un ETH Cīrihe, veicina ievērojamu arhitektūras pētījumu apjomu. Tomēr visas lielākās laboratorijas tagad iegulda līdzekļus abās pieejās, atzīstot, ka nākotnē, visticamāk, būs jāapvieno mērogošana ar viedākiem dizainiem.

Spriedums

Izvēlieties modeļa mērogošanas likumus, ja jums ir milzīgi skaitļošanas budžeti un nepieciešami paredzami, pakāpeniski uzlabojumi esošajās arhitektūrās. Izvēlieties arhitektūras inovācijas, ja resursi ir ierobežoti, ja nepieciešama efektivitāte secinājumu izdarīšanas laikā vai ja meklējat iespējas, kuras tīra mērogošana nespēj nodrošināt. Praksē mūsdienās veiksmīgākās mākslīgā intelekta sistēmas apvieno abas filozofijas, nevis apņemas izmantot tikai vienu.

Saistītie salīdzinājumi

A/B testēšana modeļu rādīšanā salīdzinājumā ar viena modeļa ieviešanu

A/B testēšana modeļu apkalpošanā novirza trafiku starp konkurējošām modeļu versijām, lai novērtētu reālo veiktspēju, savukārt viena modeļa ieviešana visiem lietotājiem nosūta vienu modeli. Komandas izvēlas starp tiem, pamatojoties uz riska toleranci, trafika apjomu un statistiskās validācijas nepieciešamību pirms pilnīgas ieviešanas.

A/B testēšana satura izlaidumos salīdzinājumā ar vienreizējiem satura izlaidumiem

A/B testēšana satura izlaidumos ietver variāciju ieviešanu dažādiem auditorijas segmentiem un veiktspējas mērīšanu, savukārt vienreizēji satura izlaidumi vienlaikus nodrošina vienu versiju visiem lietotājiem. Katra pieeja atbilst dažādiem mērķiem, A/B testēšanai dodot priekšroku uz datiem balstītai optimizācijai, bet vienreizējiem izlaidumiem prioritāte ir ātrums un vienkāršība.

Adaptīvā izguve salīdzinājumā ar statisko izguves cauruļvadiem

Adaptīvā izguve dinamiski pielāgo, kā un kādu informāciju sistēma izgūst, pamatojoties uz vaicājumu, savukārt statiskās izguves cauruļvadi ievēro fiksētus noteikumus neatkarīgi no konteksta. Abas nodrošina modernas mākslīgā intelekta lietojumprogrammas, taču tās ievērojami atšķiras pēc elastības, izmaksām un precizitātes. Izvēle starp tām ir atkarīga no darba slodzes sarežģītības un budžeta.

Adaptīvais intelekts pret fiksētas uzvedības sistēmām

Šajā detalizētajā salīdzinājumā tiek pētītas adaptīvo intelekta dzinēju arhitektūras atšķirības, darbības ierobežojumi un reālā veiktspēja salīdzinājumā ar fiksētas uzvedības automatizācijas sistēmām. Mēs aplūkojam, kā sistēmas, kas nepārtraukti mācās no jauniem vides datiem, atbilst stingrām, paredzamām, uz noteikumiem balstītām sistēmām.

Aģentu apmācība vidēs salīdzinājumā ar bezsaistes datu kopu apmācību

Aģentu apmācība vidēs ietver mācīšanos, izmantojot reāllaika mijiedarbību ar simulētu vai fizisku vidi, savukārt bezsaistes datu kopu apmācība balstās uz iepriekš apkopotiem datiem bez papildu piekļuves videi. Abas pieejas apmāca mašīnmācīšanās modeļus, taču būtiski atšķiras tas, kā aģenti apkopo pieredzi un uzlabo veiktspēju.