modelio kalibravimasmokymai nuo nuliomašininis mokymasisgilusis mokymasisdirbtinis intelektastikslusis derinimasperkėlimo mokymasisneuroniniai tinklai
Modelio kalibravimas ir modelio mokymas nuo nulio
Modelio kalibravimas tiksliai sureguliuoja iš anksto apmokyto modelio patikimumo balus ir elgseną konkrečioms užduotims, o mokymas nuo nulio sukuria modelio parametrus iš atsitiktinės inicijavimo naudojant didelius duomenų rinkinius, kuriems reikia daug daugiau išteklių, bet gali duoti labiau pritaikytus rezultatus.
Akcentai
Kalibravimas koreguoja patikimumo balus nekeisdamas pagrindinių modelio svorių, todėl jis yra skaičiavimo požiūriu efektyvesnis, palyginti su visišku perkvalifikavimu.
Mokymas nuo nulio reikalauja duomenų rinkinių ir skaičiavimo biudžetų, kuriuos paprastai turi tik didelės technologijų įmonės ir mokslinių tyrimų įstaigos
Labai tikslus modelis vis tiek gali būti prastai kalibruotas, todėl gali būti pateikiamos pernelyg pasitikinčios klaidingos prognozės, kurios kenkia pasitikėjimui dirbtinio intelekto sistemomis.
Kalibravimas leidžia greitai specializuotis srityje, o mokymas nuo nulio suteikia visišką architektūrinę laisvę už milžiniškas išlaidas.
Kas yra Modelio kalibravimas?
Iš anksto apmokyto modelio išvesties koregavimas, siekiant suderinti numatytas tikimybes su faktiniu tikslumu.
Kalibravimo metodai, tokie kaip Platto mastelio keitimas ir temperatūros mastelio keitimas, koreguoja „softmax“ išvestis nekeisdami modelio svorių.
Gerai sukalibruoti modeliai sukuria tikimybės balus, kurie iš tikrųjų atspindi patikimumo lygius, pavyzdžiui, 80 % prognozė yra teisinga 80 % laiko.
Kalibravimas yra ypač svarbus didelės rizikos srityse, tokiose kaip medicininė diagnostika ir autonominis vairavimas, kur svarbi tikimybių interpretacija.
Šiuolaikiniai kalibravimo metodai apima etikečių išlyginimą, židinio nuostolų modifikavimą ir Bajeso metodus neapibrėžtumo kiekybiniam įvertinimui.
Modelis gali pasiekti didelį tikslumą, tačiau likti prastai kalibruotas, kaip matyti iš pernelyg pasitikinčių giliųjų neuroninių tinklų, naudojamų neplatinamuose duomenyse.
Kas yra Modelių mokymas nuo nulio?
Neuroninio tinklo kūrimas iš atsitiktinės inicijacijos naudojant pilnus duomenų rinkinius ir visišką atgalinę sklaidą.
Mokymas nuo nulio paprastai reikalauja milijonų ar milijardų parametrų ir proporcingai masteliu pakeistų duomenų rinkinių, pavyzdžiui, GPT-3 175 milijardų parametrų 300 milijardų žetonų.
Atsitiktinė inicializacija reiškia, kad svoriai prasideda nuo mažų atsitiktinių verčių, o modelis mokosi reprezentacijų tik iš pateiktų mokymo duomenų.
Viso mokymo ciklai gali kainuoti milijonus skaičiavimo išlaidų; pranešama, kad GPT-4 infrastruktūros sąnaudoms reikėjo daugiau nei 100 mln. dolerių.
Nuo nulio apmokytos architektūros gali būti tiksliai pritaikytos konkrečios srities poreikiams be apribojimų, kylančių iš jau esamų projektavimo sprendimų.
Tokios technikos kaip Xavier/Glorot ir He inicializavimas buvo specialiai sukurtos siekiant spręsti mokymo nestabilumo problemą nuo nulio giliuose tinkluose.
Palyginimo lentelė
Funkcija
Modelio kalibravimas
Modelių mokymas nuo nulio
Skaičiavimo kaina
Žemas arba vidutinis (valandos ar dienos naudojant vieną GPU)
Labai didelis (savaitės ar mėnesiai GPU klasteriuose)
Duomenų reikalavimai
Maži arba vidutinio dydžio duomenų rinkiniai (nuo tūkstančių iki milijonų pavyzdžių)
Dideli duomenų rinkiniai (nuo milijonų iki milijardų pavyzdžių)
Laikas iki dislokavimo
Greitas (nuo kelių dienų iki savaičių)
Lėtas (nuo mėnesių iki metų)
Poveikis aplinkai
Mažesnis anglies pėdsakas dėl sumažintų skaičiavimo sąnaudų
Reikšmingas energijos suvartojimas ir CO2 išmetimas
Pritaikymo laisvė
Apribota bazinės architektūros ir iš anksto apmokytų svorių
Visiškas architektūrinis ir metodologinis lankstumas
Išvesties kokybės bazinis lygis
Aukštas atspirties taškas nuo perkėlimo mokymosi
Kintamas; labai priklauso nuo duomenų kokybės ir mokymo dizaino
Reikalinga patirtis
Vidutinis (supratimas apie tiksliųjų derinimo metodų taikymą)
Išsamios (gilios optimizavimo, architektūros projektavimo, hiperparametrų derinimo žinios)
Tipiniai naudojimo atvejai
Srities adaptacija, pasitikėjimo balo gerinimas, konkrečios užduoties patikslinimas
Naujos architektūros, patentuotos duomenų sritys, tyrimų proveržiai
Išsamus palyginimas
Išteklių investicijos ir prieinamumas
Kalibravimas demokratizuoja dirbtinio intelekto kūrimą, nes galingi modeliai tampa prieinami organizacijoms, neturinčioms didelių biudžetų. Mokslininkų komanda gali paimti atvirojo kodo teisės magistro (LLM) modelį ir sukalibruoti jį konkrečiam naudojimo atvejui, naudodama vieną GPU. Tuo tarpu mokymai nuo nulio lieka gerai finansuojamų institucijų sritimi. Net ir naudojant debesų kompiuteriją, daugumai specialistų išlaidos greitai tampa pernelyg didelės, todėl tik kelios organizacijos išleido pagrindinius modelius, apmokytus nuo nulio.
Mokymosi dinamika ir žinių perdavimas
Kalibruodami modelį, iš esmės mokote jį sąžiningiau išreikšti tai, ką jis jau žino. Pagrindinės reprezentacijos – kaip jis supranta kalbą, vaizdus ar kitus duomenis – išlieka iš esmės nepakitusios. Mokymas nuo nulio reiškia, kad modelis šias reprezentacijas konstruoja de novo, o tai gali lemti iš esmės skirtingas vidines organizacijas. Tai paaiškina, kodėl du modeliai, apmokyti nuo nulio su panašiais duomenimis, gali išsiugdyti skirtingą elgesį, o kalibruoti to paties bazinio modelio variantai linkę glaudžiau grupuotis pagal galimybes.
Neapibrėžtumo kiekybinis įvertinimas ir patikimumas
Prastai sukalibruoti modeliai yra pavojingai pernelyg pasitikintys savimi – problema, kurią kalibravimas tiesiogiai išsprendžia. 2020 m. tyrėjai pademonstravo, kad šiuolaikiniai neuroniniai tinklai gali būti tikslūs, tačiau neteisingai sukalibruoti, o jų patikimumo balai mažai susiję su teisingumu. Mokymas nuo nulio savaime šios problemos neišsprendžia; iš tikrųjų didesni, nuo nulio apmokyti modeliai dažnai pasižymi prastesniu kalibravimu, nebent būtų taikomi specialūs metodai. Kalibravimas kaip post-hoc arba mokymo metu atliekama intervencija tapo būtina norint patikimai diegti dirbtinį intelektą.
Domeno adaptacija ir specializacija
Kalibravimas išryškėja pritaikant bendruosius modelius nišinėms sritims – teisinių dokumentų analizei, retų ligų diagnostikai ar specializuotai gamybos kokybės kontrolei. Iš anksto apmokytas modelis suteikia plačių pasaulinių žinių; kalibravimas koreguoja tų žinių išraišką. Mokymas nuo nulio šiose siaurose srityse būtų iki nepraktiškumo duomenų atžvilgiu, nors jis galėtų užfiksuoti konkrečioms sritims būdingus niuansus, kuriems bendro modelio architektūra nebuvo sukurta.
Ilgalaikė priežiūra ir evoliucija
Kalibruoti modeliai paveldi savo bazinių modelių priežiūros trajektoriją. Kai išleidžiama patobulinta pagrindinio modelio versija, kalibravimo darbus dažnai reikia kartoti. Nuo nulio apmokyti modeliai suteikia daugiau kontrolės savo evoliucijai, tačiau norint išlikti konkurencingiems, reikia nuolatinių investicijų. Organizacijos turi pasverti kalibravimo lankstumą ir strateginę nepriklausomybę, kurią suteikia visiška atsakomybė, atsirandanti mokant nuo nulio.
Privalumai ir trūkumai
Modelio kalibravimas
Privalumai
+Mažos skaičiavimo išlaidos
+Greitas dislokavimas
+Pasitelkia esamas žinias
+Pagerina patikimumą
+Prieinama mažesnėms komandoms
Pasirinkta
−Riboti architektūriniai pakeitimai
−Priklauso nuo bazinio modelio kokybės
−Galbūt esminių klaidų neištaisys
−Reikalinga kalibravimo patirtis
−Paveldėti modelio šališkumai
Modelių mokymas nuo nulio
Privalumai
+Visiška pritaikymo laisvė
+Jokių paveldimų apribojimų
+Proveržio inovacijų potencialas
+Visiška duomenų kontrolė
+Nuosavybės teise saugoma intelektinė nuosavybė
Pasirinkta
−Labai brangu
−Dideli duomenų reikalavimai
−Ilgi vystymosi ciklai
−Didelis poveikis aplinkai
−Reikalingas retas meistriškumas
Dažni klaidingi įsitikinimai
Mitas
Kalibravimas pagerina modelio tikslumą atliekant pagrindinę užduotį.
Realybė
Kalibravimas konkrečiai orientuotas į tikimybių įverčių patikimumą, o ne į užduoties tikslumą. Kalibruotas modelis vis tiek gali padaryti tiek pat klaidų, tačiau jo patikimumo balais pasitikėsite tinkamai. Galite turėti idealiai sukalibruotus, bet netikslius modelius ir labai tikslius, bet neteisingai sukalibruotus.
Mitas
Mokymasis nuo nulio visada sukuria geresnius modelius nei naudojant iš anksto apmokytus.
Realybė
Iš anksto apmokyti modeliai beveik visada pranoksta lygiavertes architektūras, apmokytas nuo nulio su ribotais duomenimis. Mokymosi perkeliamuoju būdu pranašumas yra toks ryškus, kad mokymas nuo nulio retai pateisinamas taikymams skirtame darbe. Mokymas nuo nulio potencialiai yra prasmingas tik tada, kai jūsų duomenų pasiskirstymas iš esmės skiriasi nuo turimų išankstinio mokymo korpusų.
Mitas
Kalibravimas būtinas tik modeliams, naudojamiems kritinėse srityse, tokiose kaip sveikatos priežiūra.
Realybė
Nors kalibravimo svarba labiausiai matoma sveikatos priežiūros ir autonominių transporto priemonių srityse, kalibravimas naudingas bet kuriai sistemai, kurioje žmonės ar tolesni procesai veikia pagal pasitikėjimo balus. Rekomendacijų sistemos, sukčiavimo aptikimas ir turinio moderavimas nukenčia, kai tikimybės įverčiai klaidina vartotojus dėl tikrumo.
Mitas
Jei turite pakankamai pinigų, mokymai nuo nulio visada yra geresni.
Realybė
Be išlaidų, mokymas nuo nulio yra susijęs su didele rizika ir neapibrėžtumu. Optimizavimo sunkumai, hiperparametrų jautrumas ir mokymo nestabilumas gali sužlugdyti projektus. Daugelis organizacijų, turinčių pakankamą biudžetą, vis dar renkasi kalibravimą, kad iteracija būtų greitesnė ir rezultatai labiau nuspėjami.
Mitas
Kalibruoti modeliai yra mažiau linkę turėti žalingų šališkumų.
Realybė
Kalibravimas koreguoja tai, kaip išreiškiamas pasitikėjimas, o ne tai, ką modelis išmoko. Šališkas iš anksto apmokytas modelis greičiausiai išliks šališkas ir po kalibravimo. Šališkumui spręsti reikia tikslinių intervencijų mokymo duomenų kuravimo, tikslinimo ar papildomo apdorojimo metu, o ne vien kalibravimo.
Dažnai užduodami klausimai
Ką tiksliai reiškia, kai modelis yra „gerai sukalibruotas“?
Gerai sukalibruotas modelis pateikia tikimybės įverčius, kurie atitinka faktinį teisingumo dažnį. Jei toks modelis priskiria 70 % patikimumą 100 skirtingų prognozių, maždaug 70 iš šių prognozių turėtų būti teisingos. Šis tikimybių interpretavimo patikimumas yra labai svarbus sprendimų priėmimo sistemoms, kuriose žmonės lygina modelio patikimumą su kitais veiksniais.
Ar galite sukalibruoti bet kurį iš anksto apmokytą modelį, ar jis veikia tik su tam tikromis architektūromis?
Dauguma šiuolaikinių architektūrų palaiko kalibravimą, nors metodai skiriasi. Temperatūros mastelio keitimas plačiai veikia įvairiuose neuroninių tinklų tipuose su „softmax“ išvestimis. Platt mastelio keitimas ir izotoninė regresija reikalauja riboto kalibravimo duomenų rinkinio. Kai kurios architektūros, pavyzdžiui, tam tikri ansamblio metodai arba Bajeso neuroniniai tinklai, turi integruotą kalibravimą, o kitoms gali reikėti sudėtingesnių metodų.
Kiek duomenų man reikia efektyviam kalibravimui, palyginti su mokymu nuo nulio?
Kai kuriems metodams kalibravimas gali būti atliekamas su tūkstančiais ar net šimtais kruopščiai atrinktų pavyzdžių. Norint gauti panašų našumą, mokymui nuo nulio paprastai reikia milijonų ar milijardų pavyzdžių. Tiksli riba priklauso nuo užduoties sudėtingumo, tačiau duomenų reikalavimų skirtumas paprastai siekia nuo dviejų iki keturių dydžių eilių.
Ar temperatūros mastelio keitimas yra vienintelis kalibravimo metodas, kurį man reikia žinoti?
Temperatūros mastelio keitimas yra paprastas ir dažnai efektyvus, tačiau ne visada pakanka. Labai neteisingai kalibruotiems modeliams arba modeliams su sudėtingais paklaidų modeliais gali prireikti tokių metodų kaip Platto mastelio keitimas, izotoninė regresija ar net išmokti kalibravimo tinklai. Pasirinkimas priklauso nuo konkrečių modelio kalibravimo klaidų charakteristikų ir turimų patvirtinimo duomenų.
Kodėl tokios įmonės kaip „OpenAI“ ir „Google“ mokosi nuo nulio, o ne tik kalibruoja esamus modelius?
Šios organizacijos siekia pajėgumų, kurie pranoksta dabartinius modelius, todėl reikalingos architektūrinės inovacijos ir mokymai naudojant patentuotus duomenis precedento neturinčiu mastu. Jos taip pat siekia konkurencinių pranašumų, turėdamos unikalią modelių nuosavybę. Tačiau net ir jos plačiai naudoja kalibravimo metodus galutiniams produktams. Baziniai mokymai ir kalibravimas nėra vienas kitą paneigiantys – tai vienas kitą papildantys etapai.
Ar kalibravimas padeda nuo haliucinacijų dideliuose kalbos modeliuose?
Kalibravimas gali sumažinti pernelyg pasitikėjimo savimi haliucinacijas, nes modelis sąžiningiau išreiškia neapibrėžtumą, tačiau tai visiškai nepašalina haliucinacijų. Modelis vis tiek gali generuoti neteisingą informaciją, tačiau idealiu atveju su mažesniais patikimumo balais, kurie sukelia žmogaus peržiūrą. Norint išspręsti haliucinacijas, iš esmės reikia pakeisti mokymo duomenis, architektūrą ar paieškos mechanizmus, neapsiribojant vien kalibravimu.
Kaip sužinoti, ar mano modelį reikia kalibruoti?
Nubraižykite patikimumo diagramą: palyginkite numatomus patikimumo intervalus su faktiniu tikslumu kiekviename intervale. Jei taškai labai nukrypsta nuo įstrižainės, jūsų modelį reikia kalibruoti. Laukiama kalibravimo paklaida (ECE) pateikia vieną rodiklį, kurio vertės, didesnės nei 0,05, paprastai rodo reikšmingą kalibravimo klaidą, kurią verta spręsti.
Ar galiu derinti kalibravimą su kitais tikslinimo metodais?
Žinoma. Praktiškai kalibravimas dažnai atliekamas po konkrečios užduoties tikslinimo. Pirmiausia galite tiksliai suderinti iš anksto apmokytą modelį su savo srities duomenimis, o tada pritaikyti temperatūros mastelį naudodami atskirą patvirtinimo rinkinį. Kai kurie metodai kalibravimo tikslus integruoja tiesiai į tikslinimo nuostolių funkciją, skirtą jungties optimizavimui.
Kuo skiriasi šių metodų poveikis aplinkai?
Mokymo GPT-3 metu buvo išmesta maždaug 552 metrinės tonos CO2 – tai atitinka daugiau nei 100 automobilių metinį išmetamų teršalų kiekį. To paties modelio kalibravimas gali sunaudoti mažiau nei 1 % šios energijos. Dirbtiniam intelektui didėjant, šis skirtumas tampa etiškai ir praktiškai reikšmingas, todėl kyla susidomėjimas efektyvesniais prisitaikymo metodais.
Ar yra situacijų, kai mokymai nuo nulio iš tikrųjų tampa vis dažnesni?
Paradoksalu, bet taip. Kadangi specializuoti dirbtinio intelekto lustai tampa efektyvesni, o tam tikros sritys (pvz., molekulinė biologija ar geoprinė analizė) sukuria pakankamai unikalius duomenų korpusus, nišinių mokymų nuo nulio skaičius auga. Tačiau, kadangi viso dirbtinio intelekto kūrimo dalį sudaro kalibravimas ir tikslinimas, ši tendencija stiprėja, kai baziniai modeliai tampa didesni.
Kaip kalibravimas veikia modelio delsą gamyboje?
Dauguma kalibravimo metodų prideda nereikšmingą delsą. Temperatūros mastelio keitimui reikia tik vieno parametro padalijimo išvados metu. Net sudėtingesni kalibravimo metodai paprastai prideda mažiau nei milisekundę. Skaičiavimo išlaidos yra nereikšmingos, palyginti su bazinio modelio tiesioginiu perdavimu, todėl kalibravimas iš esmės neturi įtakos delsos perspektyvai.
Jei treniruojuosi nuo nulio, ar man vis tiek reikės vėliau kalibruoti?
Paprastai taip. Nuo nulio apmokyti modeliai dažnai būna prastai kalibruoti, ypač gilieji neuroniniai tinklai. Juos kamuoja tos pačios pernelyg didelio pasitikėjimo savimi problemos, kartais net rimčiau. Kalibravimas kaip paskutinis žingsnis pagerina patikimumą, nepriklausomai nuo to, kaip modelis buvo iš pradžių apmokytas. Įsivaizduokite tai kaip gerą praktiką bet kuriam modeliui, teikiančiam tikimybių įverčius.
Nuosprendis
Rinkitės modelio kalibravimą, kai reikia greito diegimo, turite ribotus išteklius arba norite panaudoti esamus bendrosios paskirties modelius konkrečioms reikmėms. Rinkitės mokymą nuo nulio, kai vykdote fundamentinius tyrimus, dirbate su labai patentuotais duomenimis, kurie radikaliai skiriasi nuo esamų mokymo korpusų, arba kai tikslas yra pats architektūrinis inovavimas. Dauguma praktinių dirbtinio intelekto programų šiandien labai naudingos iš kalibravimo metodų.