Tarkkaavaisuusmekanismit tukevat nykyaikaista tekoälyä sekä konenäössä että luonnollisen kielen prosessoinnissa, mutta niillä on eri tarkoitukset ja ne ovat kehittyneet eri polkuja pitkin. Näköaistin tarkkaavaisuus auttaa malleja keskittymään olennaisiin kuva-alueisiin, kun taas NLP-tarkkaavaisuus mahdollistaa sanasuhteiden ymmärtämisen tekstisarjoissa.
Korostukset
Näköaistin tarkkaavaisuus keskittyy spatiaalisiin alueisiin, kun taas NLP-tarkkailu tallentaa symbolisia suhteita sekvenssien välillä.
NLP-tarkkaavaisuus edeltää visiotarkkaavaisuutta, ja Transformer-arkkitehtuuri inspiroi Vision Transformereita vuosia myöhemmin.
Vision-mallit käyttävät 2D-paikkatietoja, kun taas NLP-mallit perustuvat 1D-paikkatietoihin.
Ristikkäishuomio yhdistää nyt nämä kaksi aluetta, mahdollistaen tehokkaat multimodaaliset tekoälyjärjestelmät, kuten CLIPin ja GPT-4V:n.
Mikä on Huomiomekanismit näkökyvyssä?
Tekniikoita, joiden avulla näkömallit voivat valikoivasti tarkentaa kuvien ja videoiden tärkeisiin alueisiin tai ominaisuuksiin.
Vision Transformers (ViT) -laitteet jakavat kuvat alueiksi ja kohdistavat niihin itseensä kohdistuvaa huomiota, mikä saavuttaa huippuluokan tuloksia ImageNetissä.
Spatiaalinen tarkkaavaisuus auttaa malleja tunnistamaan, mitkä kuvan osat ovat tärkeimpiä esimerkiksi objektien havaitsemisessa ja segmentoinnissa.
Squeeze-and-Excitation-verkkojen suosima kanavan huomio kalibroi ominaisuusvasteet uudelleen suodatinkanavien välillä.
Tarkkaavaisuuteen perustuvat näkömallit ovat usein CNN-malleja parempia, kun käytettävissä on riittävästi harjoitusdataa, tyypillisesti miljoonia kuvia.
Näkökielimallien, kuten CLIP:n, ristiintarkkailu kohdistaa kuvapisteet tekstimerkkien kanssa multimodaalista ymmärrystä varten.
Mikä on Huomio NLP:ssä?
Menetelmät, joiden avulla kielimallit voivat punnita eri sanojen ja tokenien tärkeyttä käsiteltäessä peräkkäistä tekstidataa.
Vuonna 2017 esitelty Transformer-arkkitehtuuri perustuu täysin itsekeskeisyyteen ja mullisti NLP:n.
Itsekeskeisyys sallii jokaisen sekvenssin merkin huomioimisen jokaiseen muuhun merkkiin, jolloin pitkän kantaman riippuvuudet tallentuvat.
Moniotteinen huomio suorittaa useita huomiooperaatioita rinnakkain, jolloin mallit keskittyvät samanaikaisesti erityyppisiin suhteisiin.
Syy-seuraussuhteiden peittäminen dekooderimalleissa, kuten GPT:ssä, varmistaa, että jokainen token huomioi vain edelliset tokenit tekstin luomisen aikana.
Huomiomekanismit korvasivat RNN:t ja LSTM:t hallitsevana lähestymistapana kääntämiseen, yhteenvetoon ja kielen mallintamiseen.
Vertailutaulukko
Ominaisuus
Huomiomekanismit näkökyvyssä
Huomio NLP:ssä
Ensisijainen syötetyyppi
Kuvat, videoruudut tai visuaaliset laastarit
Tekstitunnisteet, sanat tai osasanayksiköt
Huomion tarkkuus
Alueelliset alueet, laikut tai ominaisuuskanavat
Tunnusten väliset suhteet sekvenssien välillä
Alkuperäarkkitehtuuri
Vision Transformer (ViT), DETR, SE-Net
Alkuperäinen Transformer-enkooderi-dekooderi (Vaswani et al., 2017)
2D-paikannusupotukset spatiaalista rakennetta varten
1D-paikannusupotukset merkkijärjestykselle
Tietovaatimukset
Laajamittaiset kuva-aineistot, kuten ImageNet tai JFT-300M
Suuret tekstiaineistot, kuten Common Crawl tai Wikipedia
Yksityiskohtainen vertailu
Keskeinen tarkoitus ja tehtävä
Näköaistin tarkkaavaisuus auttaa malleja päättämään, mihin kuvassa kannattaa katsoa, korostamalla olennaisesti ne alueelliset alueet, jotka sisältävät tietyn tehtävän kannalta olennaisimman tiedon. NLP-tarkkaavaisuus puolestaan määrittää, miten sanat liittyvät toisiinsa lauseen sisällä tai dokumentin eri osissa, ja tallentaa semanttisia riippuvuuksia etäisyydestä riippumatta. Molemmilla on sama perusajatus painotetusta tärkeydestä, mutta niiden käyttämät rakenteet eroavat merkittävästi toisistaan.
Arkkitehtoninen evoluutio
Nykyaikaisessa muodossaan NLP-tarkkaavaisuus syntyi ensimmäisenä, kun vuoden 2017 Transformer-artikkelissa itsetarkkailu määriteltiin kielen ymmärtämisen selkärangaksi. Näköhavaitsevaisuus lainasi vahvasti näistä NLP:n läpimurroista, ja Vision Transformers osoitti vuonna 2020, että puhtaasti tarkkaavaisuuteen perustuvat arkkitehtuurit voisivat vastata konvoluutioverkkoihin tai jopa ylittää ne. Siitä lähtien nämä kaksi alaa ovat jatkaneet ristipölytystä, ja tekniikat, kuten ristiintarkkaavaisuus, yhdistävät nyt näön ja kielen multimodaalisissa malleissa.
Laskennalliset näkökohdat
Molemmat kohtaavat neliöllisen monimutkaisuuden haasteita, mutta mittakaava eroaa. NLP-mallit käsittelevät sadoista satoihin tuhansiin tokeneita sisältäviä sekvenssejä, kun taas näkömallien on käsiteltävä kuvia, jotka voivat sisältää tuhansia merkkijonoja korkealla resoluutiolla. Näön tutkijat ovat kehittäneet tehokkaita variantteja, kuten Swin Transformerin ikkunoidun huomiokyvyn, kun taas NLP on tuottanut harvoja ja lineaarisia huomiomenetelmiä pidempien kontekstien käsittelyyn.
Peittäytyminen ja suuntaaminen
Keskeinen ero on siinä, miten huomio virtaa. NLP-dekooderimallit käyttävät kausaalista maskausta, joten jokainen merkki näkee vain edelliset merkit, mikä on olennaista autoregressiivisen tekstin luomisen kannalta. Näkömallit käyttävät tyypillisesti kaksisuuntaista huomiota, koska kuvan ymmärtäminen ei vaadi vasemmalta oikealle -järjestystä. Jotkut näkötehtävät käyttävät maskattua huomiota, erityisesti maskatuissa autoenkoodereissa, joissa osa syötteestä piilotetaan harjoittelun aikana.
Paikkakoodaus
Koska tekstillä on luonnollinen peräkkäinen järjestys, NLP käyttää yksiulotteisia paikkasidonnaisia upotuksia kertoakseen mallille, missä kukin merkki sijaitsee sekvenssissä. Näkö vaatii kaksiulotteisia paikkasidonnaisia upotuksia säilyttääkseen alueelliset suhteet osien välillä, koska kuvilla on korkeus- ja leveysmitat. Tämä ero vaikuttaa siihen, miten kukin alue suunnittelee upotusjärjestelmänsä ja miten mallit yleistyvät eri syöttökokoihin.
Verkkotunnusten väliset sovellukset
Näön ja NLP-tarkkaavaisuuden välinen raja on hämärtynyt huomattavasti. Mallit, kuten CLIP, DALL-E ja Flamingo, käyttävät ristiintarkkaavaisuutta visuaalisten ja tekstimuotoisten esitysten yhdistämiseen, mikä mahdollistaa tehtäviä, kuten kuvatekstien luomisen, visuaalisten kysymysten vastaamisen ja tekstistä kuvan luomisen. Nämä multimodaaliset järjestelmät osoittavat, että tarkkaavaisuusmekanismit ovat huomattavan joustavia ja voivat yhdistää eri tietotyyppejä yhden arkkitehtuurin sisällä.
Hyödyt ja haitat
Huomiomekanismit näkökyvyssä
Plussat
+Tallentaa globaalin kontekstin
+Vahva suurten tietojoukkojen kanssa
+Tulkittavat tarkkaavaisuuskartat
+Joustava arkkitehtuuri
Sisältö
−Korkeat laskentakustannukset
−Tarvitsee paljon dataa
−Patch-pohjainen monimutkaisuus
−Vähemmän induktiivista esijännitystä
Huomio NLP:ssä
Plussat
+Käsittelee pitkiä riippuvuuksia
+Rinnakkaistettavissa oleva koulutus
+Voimanlähteenä nykyaikaiset LLM-ohjelmat
+Rikas siirto-oppiminen
Sisältö
−Neliöllinen kompleksisuus
−Kontekstin pituusrajoitukset
−Hallusinaatioiden riskit
−Resurssiintensiivinen
Yleisiä harhaluuloja
Myytti
Näön ja NLP:n tarkkaavaisuusmekanismit ovat täysin eri tekniikoita.
Todellisuus
Niillä on sama matemaattinen perusta, jossa lasketaan painotettuja summia kysely-avain-arvo-vuorovaikutusten perusteella. Erot liittyvät pääasiassa siihen, miten syötteet on jäsennelty ja mitä sijaintitietoja lisätään, eivätkä itse taustalla olevaan mekanismiin.
Myytti
Vision Transformers toimii hyvin myös pienten tietojoukkojen kanssa.
Todellisuus
Toisin kuin CNN-verkot, joissa on sisäänrakennettuja induktiivisia vinoumia, ViT-menetelmät vaativat tyypillisesti massiivisia tietojoukkoja (usein satoja miljoonia kuvia) konvoluutiomenetelmiä paremmin suoriutuakseen. Pienemmissä tietojoukoissa CNN-verkot usein silti voittavat, ellei käytetä vahvaa regularisointia tai esikoulutusta.
Myytti
NLP:ssä tarkkaavaisuus tarkoittaa, että malli todella ymmärtää kieltä.
Todellisuus
Tarkkaavaisuus on laskennallinen mekanismi syötteiden painottamiseen, ei ymmärryksen tae. Suuret kielimallit voivat tuottaa sujuvaa tekstiä tehden silti päättelyvirheitä, hallusinoimalla faktoja tai epäonnistumalla yksinkertaisissa loogisissa tehtävissä.
Myytti
Huomio korvaa konvoluutio- ja rekurrenttiverkot kokonaan.
Todellisuus
Hybridiarkkitehtuurit ovat edelleen suosittuja ja toimivat usein paremmin kuin puhtaat tarkkaavaisuusmallit. Konvoluutiotasoja esiintyy edelleen monissa huippuluokan näköjärjestelmissä, ja jotkut NLP-mallit hyötyvät tarkkaavaisuuden yhdistämisestä muihin lähestymistapoihin.
Myytti
Huomiokartat näyttävät suoraan, mitä malli ajattelee.
Todellisuus
Huomiopainotukset eivät aina ole luotettavia selityksiä mallin käyttäytymiselle. Tutkimukset ovat osoittaneet, että huomiojakaumat eivät välttämättä korreloi ominaisuuksien tärkeyden kanssa, ja niiden tulkinnassa on oltava varovainen.
Usein kysytyt kysymykset
Mikä on tärkein ero näön tarkkaavaisuuden ja NLP:n välillä?
Näköaistiharjoitus käsittelee 2D-tilarakenteita, kuten kuvalaikkuja, ja keskittyy tärkeiden alueiden tunnistamiseen, kun taas NLP-harjoitus käsittelee 1D-tokenisarjoja tallentaakseen sanojen välisiä suhteita. Molemmat käyttävät samankaltaisia matemaattisia formulaatioita, mutta eroavat toisistaan siinä, miten sijaintitiedot koodataan ja miten peittämistä käytetään.
Ovatko tarkkaavaisuusmekanismit peräisin NLP:stä vai konenäöstä?
Nykyaikaiset tarkkaavaisuusmekanismit saivat alkunsa neurolingvistisestä ohjelmoinnista (NLP), ja Vaswanin ym. vuonna 2017 julkaisema Transformer-artikkeli oli merkittävä käännekohta. Myöhemmin vuonna 2020 ilmestyi Vision Transformers (ViT), jossa samat itsetarkkailuperiaatteet sovellettiin kielestä kuviin käsittelemällä niitä lyhyinä sarjoina.
Pystyvätkö tarkkaavaisuusmekanismit käsittelemään pitkiä sarjoja tai korkearesoluutioisia kuvia?
Tavallisella itsekeskeisyydellä on neliöllinen kompleksisuus, mikä tekee siitä kallista pitkien syötteiden käsittelyssä. Tutkijat ovat kehittäneet tehokkaita muunnelmia, kuten Linformerin, Performerin ja Longformerin NLP:hen sekä Swin Transformerin tai MaxViT:n näköön, jotka vähentävät laskentakustannuksia säilyttäen samalla suorituskyvyn.
Miksi Vision Transformers tarvitsee niin paljon harjoitusdataa?
Toisin kuin CNN-verkoissa, joissa on sisäänrakennettuja oletuksia lokaaliudesta ja translaatioinvarianssista, ViT-verkkojen on opittava nämä spatiaaliset suhteet alusta alkaen tarkkaavaisuuden avulla. Ilman riittäviä tietoja ne yleensä ylisopivat, minkä vuoksi laajamittainen esikoulutus esimerkiksi JFT-300M:n kaltaisilla tietojoukoilla on usein tarpeen.
Miten ristiintarkkaavaisuus yhdistää näkö- ja kielimallit?
Ristitarkkailu mahdollistaa yhden modaliteetin merkkien huomion toisen modaliteetteihin, mikä mahdollistaa mallien, kuten CLIP:n, kohdistaa kuvapisteet tekstikuvauksiin. Tämä mekanismi on olennainen multimodaalisille järjestelmille, jotka suorittavat kuvatekstejä, visuaalisia kysymysvastauksia ja tekstistä kuvaksi -muunnoksia.
Ovatko huomiopainot hyödyllisiä mallin tulkittavuuden kannalta?
Huomiopainotukset voivat antaa jonkin verran tietoa siitä, mihin syötteisiin malli keskittyy, mutta niitä ei tule pitää lopullisina selityksinä. Tutkimukset ovat osoittaneet, että huomio ei aina korreloi ominaisuuksien tärkeyden kanssa, ja muut tulkittavuusmenetelmät voivat olla luotettavampia.
Mitä on moniotteinen tarkkaavaisuus ja miksi se on tärkeää?
Monipääinen tarkkaavaisuus suorittaa useita tarkkaavaisuusoperaatioita rinnakkain, joista jokainen oppii keskittymään erityyppisiin suhteisiin. NLP:ssä yksi pää saattaa seurata syntaktisia riippuvuuksia, kun taas toinen tallentaa semanttista samankaltaisuutta. Näössä eri päät voivat kiinnittää huomiota erilaisiin avaruudellisiin kuvioihin tai objektin osiin samanaikaisesti.
Käyttävätkö näkömallit kausaalista peittämistä kuten NLP-dekooderit?
Useimmat näkömallit käyttävät kaksisuuntaista tarkkaavaisuutta ilman kausaalista peittämistä, koska kuvan ymmärtäminen ei vaadi peräkkäistä järjestystä. Peitetyt autoenkooderit kuitenkin piilottavat satunnaisia alueita harjoittelun aikana kannustaakseen mallia oppimaan vankkoja representaatioita, jotka ovat hengeltään samankaltaisia mutta tarkoitukseltaan erilaisia.
Miten positionaaliset upotukset eroavat vision ja NLP:n välillä?
NLP käyttää yksiulotteisia paikkamerkintöjä koodaamaan merkkien järjestyksen sekvenssissä, kun taas näkömallit tarvitsevat kaksiulotteisia paikkamerkintöjä säilyttääkseen spatiaaliset suhteet kuvan korkeuden ja leveyden välillä. Jotkut edistyneet näkömallit käyttävät myös suhteellista paikkamerkintää vaihtelevien kuvaresoluutioiden paremman käsittelyn takaamiseksi.
Huomioon perustuvat arkkitehtuurit ovat tällä hetkellä johtavia useimmissa tekoälyvertailuissa, mutta tutkimus jatkuu vaihtoehtojen, kuten tila-avaruusmallien (Mamba), asiantuntijoiden yhdistelmämallien ja uusien arkkitehtuurien, parissa. Ala kehittyy nopeasti, ja hybridilähestymistavat, jotka yhdistävät huomion muihin mekanismeihin, voivat muokata seuraavan sukupolven malleja.
Tuomio
Valitse näkökeskeinen huomiointi, kun tehtävääsi kuuluu kuvien tai videoiden spatiaalisten suhteiden ymmärtäminen, erityisesti silloin, kun sinulla on suuria tietojoukkoja ja tarvitset tarkkaa lokalisointia. Valitse NLP-huomio, kun työskentelet peräkkäisen tekstidatan kanssa, joka vaatii kontekstin ymmärtämistä, luomista tai kääntämistä. Multimodaalisissa projekteissa molempien yhdistäminen ristihuomion avulla tuottaa usein parhaat tulokset.