Transformatorių modeliai ir CNN pagrindu sukurtos architektūros
Transformatoriniai modeliai ir CNN pagrindu sukurtos architektūros yra du dominuojantys gilaus mokymosi metodai, kurių kiekvienas pasižymi skirtingomis sritimis. Transformatoriai remiasi savęs dėmesiu, kad užfiksuotų globalius ryšius, o CNN naudoja konvoliucinius filtrus, kad efektyviai aptiktų vietinius erdvinius modelius.
Akcentai
Transformatoriai fiksuoja globalų kontekstą iš pirmojo sluoksnio, o CNN stiprina supratimą per vietinių ir globalių funkcijų hierarchijas.
CNN išlieka efektyvesni parametrų atžvilgiu ir greitesni atliekant didelės skiriamosios gebos regėjimo užduotis kraštinėje įrangoje.
Transformatoriai dominuoja kalbos užduotyse ir po didelio masto išankstinio mokymo tampa vis konkurencingesni regėjimo srityje.
Hibridinės architektūros, jungiančios konvoliucinius sluoksnius su dėmesiu, dabar yra įprastos pažangiausiuose modeliuose.
Kas yra Transformatorių modeliai?
Giliojo mokymosi architektūros, naudojantys savęs dėmesio mechanizmus nuosekliems ir kontekstiniams duomenims apdoroti įvairiais būdais.
Pristatyta 2017 m. Vaswani ir kolegų iš „Google Brain“ straipsnyje „Dėmesys yra viskas, ko jums reikia“.
Pagrindinis mechanizmas yra savęs stebėjimas, kuris vienu metu apskaičiuoja visų sekos žetonų ryšius.
Palaiko didelius kalbų modelius, tokius kaip GPT-4, BERT ir Llama, taip pat regėjimo transformatorius, tokius kaip ViT.
Efektyviai pritaikomas prie didžiulių duomenų rinkinių ir parametrų skaičiaus, dažnai turinčių milijardus parametrų.
Mokymui reikalingi dideli skaičiavimo ištekliai, paprastai lygiagrečiai naudojant GPU arba TPU.
Kas yra CNN pagrindu sukurtos architektūros?
Neuroniniai tinklai, kurie taiko konvoliucinius filtrus įvesties duomenims, kad išskirtų hierarchines erdvines ypatybes šablonų atpažinimui.
Įkvėpta regos žievės, o ankstyvosios koncepcijos siekia Fukušimos „Neocognitron“ 1980 m.
Yann LeCun sukurtas „LeNet-5“ (1998 m.) buvo pirmasis sėkmingai ranka rašytų skaitmenų atpažinimui pritaikytas CNN metodas.
„AlexNet“ (2012 m.) pademonstravo CNN dominavimą „ImageNet“ tinkle, taip sukeldamas šiuolaikinę gilaus mokymosi revoliuciją.
Naudoja svorio pasidalijimą ir vietinį ryšį, todėl jie yra efektyvesni parametrų atžvilgiu, palyginti su visiškai sujungtais tinklais.
Išlieka standartiniu pagrindu daugeliui realaus laiko regėjimo užduočių, tokių kaip objektų aptikimas ir medicininis vaizdavimas.
Palyginimo lentelė
Funkcija
Transformatorių modeliai
CNN pagrindu sukurtos architektūros
Pagrindinis mechanizmas
Dėmesys sau visose pozicijose
Konvoliuciniai filtrai vietiniuose regionuose
Įvedimo metai
2017 m.
1980-ieji (Neocognitron), 1998 m. (LeNet-5)
Receptinis laukas
Globalus nuo pirmojo sluoksnio
Vietinis, plečiantis gyliu
Duomenų efektyvumas
Reikia didelių duomenų rinkinių, kad spindėtų
Gerai veikia su vidutiniais duomenimis
Skaičiavimo kaina
Kvadratinis sudėtingumas su sekos ilgiu
Linijinis su įvesties dydžiu
Pirminiai domenai
NLP, vizija, multimodalinis dirbtinis intelektas
Kompiuterinė rega, medicininis vaizdavimas
Aiškinamasis aspektas
Dėmesio žemėlapiai suteikia tam tikros įžvalgos
Funkcijų žemėlapiai vizualizuoja išmoktus filtrus
Indukcinis šališkumas
Minimalūs integruoti prielaidos
Stiprus lokalumas ir vertimo invariantiškumas
Mastelio keitimas
Pastebimai keičiasi su parametrais
Mažėjanti grąža, viršijanti tam tikrą dydį
Išsamus palyginimas
Architektūros filosofija
Transformatoriai atsisako nuosekliųjų arba erdvinių lokalumo prielaidų, įskiepytų į ankstesnes architektūras, ir leidžia modeliui per dėmesį mokytis, kurie ryšiai yra svarbūs. CNN taiko priešingą požiūrį, įprogramuodami lokalumą į projektą su slankiojančiais filtrais, kurie natūraliai fiksuoja netoliese esančius modelius. Šis filosofinis susiskaldymas formuoja viską, kas vyksta toliau – nuo to, kiek mokymo duomenų nori kiekvienas modelis, iki to, kaip lengvai jie apibendrinami naujoms užduotims.
Našumas skirtingose srityse
Natūralios kalbos apdorojime transformatoriai iš esmės pakeitė ankstesnius metodus, pasiekdami pažangiausius rezultatus tokiuose etalonuose kaip GLUE ir SuperGLUE. CNN vis dar dominuoja daugelyje kompiuterinės regos procesų, ypač kai svarbus išvadų darymo greitis, nors regos transformatoriai (ViT) panaikino tikslumo spragą. Užduotims, kuriose dalyvauja ir vaizdai, ir tekstas, vis dažniau naudojami hibridiniai modeliai ir gryni transformatoriai.
Skaičiavimo reikalavimai
Savęs dėmesys keičiasi kvadratiškai su sekos ilgiu, o tai reiškia, kad transformatorius, apdorojantis 4K žetonų įvestį, atlieka maždaug 16 kartų daugiau darbo nei tas, kuris apdoroja 1K žetonų. CNN tiesiškai keičiasi su įvesties matmenimis, todėl jie yra daug efektyvesni didelės raiškos vaizdams ar realaus laiko vaizdo įrašams apdoroti. Kita vertus, transformatoriai puikiai lygiagretizuojasi tarp GPU, o labai gilūs CNN gali susidurti su atminties kliūtimis atgalinio sklidimo metu.
Duomenų ir mokymo dinamika
Transformatoriai yra pagarsėję savo duomenų ištroškimu ir dažnai jiems reikia milijonų pavyzdžių, kol jų lankstumas atsiperka, nors iš anksto apmokyti modeliai, tokie kaip BERT, pakeitė šią lygtį per mokymosi perkeliamąjį mokymąsi. CNN gali pasiekti gerų rezultatų su mažesniais duomenų rinkiniais dėl savo integruotų indukcinių šališkumų, todėl jie išlieka populiarūs tokiose srityse kaip medicininis vaizdavimas, kur trūksta paženklintų duomenų. Abiem atvejais išankstinis mokymas yra labai naudingas, tačiau kelias iki veikiančio modelio su CNN, kai duomenų kiekis mažas, paprastai yra trumpesnis.
Praktinis diegimas
Kraštinių įrenginių ir mobiliųjų programų atveju CNN vis dar pirmauja efektyvumo požiūriu, o tokios architektūros kaip „MobileNet“ ir „EfficientNet“ yra optimizuotos mažo energijos suvartojimo išvadoms. „Transformers“ vejasi taikydamos tokias technologijas kaip žinių distiliavimas, kvantavimas ir efektyvaus dėmesio variantai, tokie kaip „Linformer“ ir „Performer“. Debesų kompiuterijos sistemose, kur tikslumas yra svarbiausias, „Transformers“ dažnai pateisina didesnes skaičiavimo sąnaudas.
Privalumai ir trūkumai
Transformatorių modeliai
Privalumai
+Fiksuoja tolimojo nuotolio priklausomybes
+Labai lygiagretinamas mokymas
+Puikus perkėlimo mokymasis
+Multimodalinis lankstumas
Pasirinkta
−Kvadratinės skaičiavimo išlaidos
−Duomenų ištroškimo mokymai
−Didelis atminties naudojimas
−Sunkiau interpretuoti
CNN pagrindu sukurtos architektūros
Privalumai
+Skaičiavimo požiūriu efektyvus
+Stiprūs indukciniai poslinkiai
+Veikia su mažiau duomenų
+Suaugusiųjų optimizavimo įrankiai
Pasirinkta
−Ribotas pasaulinis kontekstas
−Sunkiau padidinti mastelį
−Mažiau lankstus skirtingose srityse
−Fiksuota įvesties skiriamoji geba
Dažni klaidingi įsitikinimai
Mitas
Transformatoriai visiškai pakeitė CNN kompiuterinėje regoje.
Realybė
CNN ir toliau plačiai naudojami gamybinėse regos sistemose, ypač realaus laiko ir mobiliosiose programose. Transformatoriai pasiekė tokį pat tikslumą kaip CNN arba net jį viršijo lyginamuosiuose testuose, tačiau efektyvumo kompromisai išlaiko konvoliucinių modelių aktualumą daugelyje diegimo scenarijų.
Mitas
CNN negali užfiksuoti tolimojo nuotolio priklausomybių.
Realybė
Nors atskiri konvoliuciniai sluoksniai turi vietinius receptinius laukus, daugelio sluoksnių sujungimas ir išplėstinių konvoliucijų naudojimas žymiai išplečia efektyvų receptyvų lauką. Šiuolaikiniai CNN gali modeliuoti ryšius dideliuose vaizdo regionuose, nors transformatoriai tai padaro tiesioginį.
Mitas
Transformatoriai neturi indukcinių poslinkių.
Realybė
Transformatoriai turi silpnesnius indukcinius poslinkius nei CNN, tačiau jie nėra be poslinkių. Poziciniai kodavimai, tokenizavimo schemos ir architektūriniai pasirinkimai, tokie kaip priežastinis maskavimas, į modelį įterpia prielaidas apie duomenų struktūrą.
Mitas
Didesni transformatoriniai modeliai visada yra geresni.
Realybė
Mastelio keitimo dėsniai rodo, kad našumas gerėja didėjant modeliui, tačiau grąža mažėja, o mažesni modeliai dažnai pranoksta didesnius atliekant konkrečias užduotis po patikslinimo. Skaičiavimo sąnaudos, delsa ir diegimo apribojimai dažnai daro mažesnius modelius praktišku pasirinkimu.
Mitas
CNN yra pasenusi technologija.
Realybė
CNN toliau tobulėja su tokiomis inovacijomis kaip gyliu atskiriamos konvoliucijos, neuroninės architektūros paieška ir modernūs dizainai, tokie kaip „ConvNeXt“, kurie konkuruoja su transformatorių našumu. Jie išlieka daugelio pažangiausių sistemų pagrindu.
Dažnai užduodami klausimai
Koks yra pagrindinis skirtumas tarp transformatorių ir CNN?
Esminis skirtumas slypi tame, kaip kiekviena architektūra apdoroja informaciją. Transformatoriai naudoja savidėmesį, kad susietų kiekvieną įvesties elementą su kiekvienu kitu elementu vienu metu, nuo pat pradžių užfiksuodami globalų kontekstą. CNN taiko išmoktus filtrus vietiniuose pataisymuose, gilindami didesnių modelių supratimą tik duomenims tekant per gilesnius sluoksnius.
Ar transformatoriai yra geresni nei CNN vaizdų klasifikavimui?
Dideliuose testuose, tokiuose kaip „ImageNet“, vaizdo transformatoriai gali prilygti arba pranokti geriausius CNN, tačiau tik po išankstinio apmokymo su šimtais milijonų vaizdų. Mažesniems duomenų rinkiniams arba ribotiems skaičiavimo pajėgumams CNN, tokie kaip „ResNet“ ir „EfficientNet“, dažnai veikia geriau iš karto dėl savo naudingų integruotų prielaidų apie vaizdo struktūrą.
Kodėl NLP užduotims pirmenybė teikiama transformatoriams?
Kalba iš esmės apima ilgalaikes priklausomybes, kai žodis pastraipos pradžioje gali turėti įtakos daugelio vėlesnių sakinių reikšmei. Dėmesys sau šiuos ryšius tvarko tiesiogiai, o RNN ir CNN turi skleisti informaciją per daugelį sluoksnių arba laiko žingsnių. Ši tiesioginė prieiga prie konteksto yra priežastis, kodėl tokie modeliai kaip GPT ir BERT sukėlė revoliuciją NLP.
Ar galima sujungti CNN ir transformatorius?
Taip, hibridiniai modeliai tampa vis populiaresni. Konvoliuciniai sluoksniai gali iš anksto apdoroti vaizdus į transformatorių įterpimus, arba į CNN magistrales galima pridėti dėmesio mechanizmus, kad būtų užfiksuotas globalus kontekstas. Tokie modeliai kaip DETR objektų aptikimui ir ConvNeXt rodo, kad abiejų metodų derinimas dažnai duoda geriausius rezultatus.
Kuri architektūra yra greitesnė išvadoms gauti?
CNN paprastai yra greitesni išvadų darymui, ypač kraštiniuose įrenginiuose ir GPU, optimizuotuose konvoliucijos operacijoms. Transformatoriams reikia daugiau atminties ir skaičiavimo pajėgumų vienam išvadų darymo etapui dėl dėmesio skaičiavimų, nors optimizuoti įgyvendinimai ir efektyvūs dėmesio variantai mažina šį atotrūkį.
Ar transformatoriams reikia daugiau mokymo duomenų nei CNN?
Paprastai taip. Transformatoriai turi mažiau integruotų prielaidų apie duomenų struktūrą, todėl jiems reikia daugiau pavyzdžių, kad išmoktų modelius, kuriuos CNN pasiima beveik automatiškai. Štai kodėl mokymasis perkeliamas iš iš anksto apmokytų transformatorių tapo toks svarbus – jis kompensuoja jų duomenų poreikį, pasitelkdamas žinias iš didžiulių išankstinio mokymo korpusų.
Kokie yra efektyvūs transformatorių variantai?
Tyrėjai sukūrė daug variantų, skirtų transformatorių skaičiavimo sąnaudoms sumažinti, įskaitant „Linformer“ (tiesinis dėmesys), „Performer“ (atsitiktinių požymių dėmesys), „Longformer“ (slenkančio lango dėmesys) ir „Reformer“ (lokalumo jautrus maišymas). Šie metodai šiek tiek tikslumo pakeičia į didelį efektyvumo padidėjimą ilgose sekose.
Kokią architektūrą turėčiau naudoti medicininiam vaizdavimui?
Dėl ribotų paženklintų duomenų rinkinių ir poreikio interpretuojamiems funkcijų žemėlapiams CNN išlieka dominuojančiu pasirinkimu medicininiam vaizdavimui. Tačiau regėjimo transformatoriai ir hibridiniai modeliai populiarėja, ypač atliekant tokias užduotis kaip navikų segmentavimas, kai svarbu užfiksuoti tolimojo nuotolio audinių kontekstą. Daugelyje naujausių straipsnių pranešama apie konkurencingus transformatoriais pagrįstų metodų rezultatus.
Kaip transformatoriai tvarko vaizdus, jei jie buvo sukurti tekstui?
Regėjimo transformatoriai padalija vaizdus į fiksuoto dydžio fragmentus (paprastai 16 x 16 pikselių), kiekvieną fragmentą suplokština į vektorių ir traktuoja juos kaip žetonus sakinyje. Išmoktas pozicinis įterpimas išsaugo erdvinę informaciją, o standartinis transformatoriaus kodavimo įrenginys apdoroja seką. Šis paprastas pritaikymas pasirodė esąs nepaprastai efektyvus.
Ar transformatoriai galiausiai visiškai pakeis CNN?
Tikriausiai ne artimiausiu metu. Kiekviena architektūra turi stipriųjų pusių, pritaikytų skirtingiems apribojimams, o tyrimų tendencija yra hibridinių dizainų, kurie sujungia konvoliucinį efektyvumą su dėmesio lankstumu, link. Ateitis greičiausiai priklauso modeliams, kurie sumaniai derina abu metodus, atsižvelgdami į užduotį ir diegimo reikalavimus.
Nuosprendis
Rinkitės CNN pagrindu veikiančias architektūras, kai jums reikia efektyvaus išvadų darymo, dirbate su ribotais mokymo duomenimis arba diegiate ribotų išteklių aplinkoje, pavyzdžiui, mobiliuosiuose įrenginiuose. Naudokite transformatorinius modelius, kai tvarkote nuoseklius duomenis, atliekate daugiarūšes užduotis arba kai ilgalaikių priklausomybių fiksavimas ir mastelio keitimas skaičiavimo priemonėmis užtikrins reikšmingą tikslumo padidėjimą.