Mechanizmy pozornosti vo videní vs. pozornosť v NLP
Mechanizmy pozornosti poháňajú modernú umelú inteligenciu v oblasti počítačového videnia aj spracovania prirodzeného jazyka, ale slúžia na odlišné účely a vyvíjali sa rôznymi cestami. Zraková pozornosť pomáha modelom zamerať sa na relevantné oblasti obrazu, zatiaľ čo pozornosť NLP umožňuje pochopenie vzťahov medzi slovami v textových sekvenciách.
Zvýraznenia
Zraková pozornosť sa zameriava na priestorové oblasti, zatiaľ čo NLP pozornosť zachytáva vzťahy tokenov naprieč sekvenciami.
Pozornosť NLP predchádza pozornosť zraku a architektúra Transformer inšpirovala Vision Transformers o niekoľko rokov neskôr.
Modely videnia používajú 2D pozičné vnorenia, zatiaľ čo modely NLP sa spoliehajú na 1D pozičné informácie.
Krížová pozornosť teraz premosťuje obe domény, čo umožňuje výkonné multimodálne systémy umelej inteligencie, ako sú CLIP a GPT-4V.
Čo je Mechanizmy pozornosti vo videní?
Techniky, ktoré umožňujú modelom videnia selektívne sa zamerať na dôležité priestorové oblasti alebo prvky v obrázkoch a videách.
Vision Transformers (ViT) rozdeľuje obrázky na oblasti a aplikuje vlastnú pozornosť, čím dosahuje najmodernejšie výsledky na ImageNet.
Priestorová pozornosť pomáha modelom identifikovať, ktoré časti obrazu sú najdôležitejšie pre úlohy, ako je detekcia objektov a segmentácia.
Pozornosť na kanáli, popularizovaná sieťami typu Squeeze-and-Excitation, rekalibruje reakcie prvkov naprieč filtračnými kanálmi.
Modely videnia založené na pozornosti často prekonávajú CNN, ak je k dispozícii dostatok trénovacích údajov, zvyčajne milióny obrázkov.
Krížová pozornosť v modeloch vizuálneho jazyka, ako je CLIP, zarovnáva obrazové záplaty s textovými tokenmi pre multimodálne porozumenie.
Čo je Pozornosť v NLP?
Metódy, ktoré umožňujú jazykovým modelom zvážiť dôležitosť rôznych slov a tokenov pri spracovaní sekvenčných textových údajov.
Architektúra Transformer, predstavená v roku 2017, sa úplne spolieha na sebapozornosť a revolucionizovalo NLP.
Sebapozornosť umožňuje každému tokenu v sekvencii venovať pozornosť každému inému tokenu a zachytávať tak dlhodobé závislosti.
Viachlavá pozornosť vykonáva niekoľko operácií pozornosti paralelne, čo umožňuje modelom sústrediť sa na rôzne typy vzťahov súčasne.
Kauzálne maskovanie v dekodérových modeloch, ako je GPT, zabezpečuje, že každý token sa počas generovania textu venuje iba predchádzajúcim tokenom.
Mechanizmy pozornosti nahradili RNN a LSTM ako dominantný prístup k prekladu, sumarizácii a modelovaniu jazyka.
Tabuľka porovnania
Funkcia
Mechanizmy pozornosti vo videní
Pozornosť v NLP
Typ primárneho vstupu
Obrázky, videozáznamy alebo vizuálne záplaty
Textové tokeny, slová alebo jednotky podslov
Granularita pozornosti
Priestorové oblasti, záplaty alebo kanály prvkov
Vzťahy medzi tokenmi naprieč sekvenciami
Pôvodná architektúra
Vision Transformer (ViT), DETR, SE-Net
Pôvodný transformátorový kodér-dekodér (Vaswani a kol., 2017)
Výpočtová zložitosť
Kvadratické metódy s rozlíšením obrazu; metódy založené na záplatách znižujú náklady
Kvadratické s dĺžkou sekvencie; existujú varianty s riedkou pozornosťou
Preklad, generovanie textu, odpovede na otázky, sumarizácia
Stratégia maskovania
Zvyčajne žiadne kauzálne maskovanie; bežná je obojsmerná pozornosť
Kauzálne maskovanie pre dekodéry; obojsmerné pre enkodéry
Informácie o polohe
2D pozičné vnorenia pre priestorovú štruktúru
1D pozičné vnorenia pre poradie tokenov
Požiadavky na údaje
Rozsiahle súbory obrazových údajov ako ImageNet alebo JFT-300M
Veľké textové korpusy ako Common Crawl alebo Wikipédia
Podrobné porovnanie
Hlavný účel a funkcia
Zraková pozornosť pomáha modelom rozhodnúť sa, kam sa v obraze pozerať, pričom v podstate zvýrazňuje priestorové oblasti, ktoré obsahujú najrelevantnejšie informácie pre danú úlohu. NLP pozornosť na druhej strane určuje, ako slová spolu súvisia vo vete alebo v dokumente, a zachytáva sémantické závislosti bez ohľadu na vzdialenosť. Obe zdieľajú rovnakú základnú myšlienku váženej dôležitosti, ale štruktúry, s ktorými fungujú, sa výrazne líšia.
Architektonická evolúcia
NLP pozornosť sa objavila na prvom mieste v jej modernej podobe, pričom článok Transformer z roku 2017 stanovil sebapozornosť ako chrbticu porozumenia jazyku. Z týchto prelomových objavov NLP si vizuálna pozornosť vo veľkej miere požičala, pričom článok Vision Transformers v roku 2020 demonštroval, že architektúry založené na čistej pozornosti by sa mohli rovnať alebo prekonať konvolučné siete. Odvtedy sa tieto dve oblasti neustále krížovo prelínajú, pričom techniky ako krížová pozornosť teraz premosťujú zrak a jazyk v multimodálnych modeloch.
Výpočtové úvahy
Obe čelia výzvam kvadratickej zložitosti, ale rozsah sa líši. Modely NLP pracujú so sekvenciami od stoviek do stoviek tisíc tokenov, zatiaľ čo modely videnia musia spracovať obrázky, ktoré môžu obsahovať tisíce záplat vo vysokom rozlíšení. Výskumníci v oblasti videnia vyvinuli efektívne varianty, ako napríklad okienkovú pozornosť Swin Transformera, zatiaľ čo NLP vytvorilo metódy riedkej a lineárnej pozornosti na spracovanie dlhších kontextov.
Maskovanie a smerovosť
Kľúčový rozdiel spočíva v spôsobe toku pozornosti. Modely dekodérov NLP používajú kauzálne maskovanie, takže každý token vidí iba predchádzajúce tokeny, čo je nevyhnutné pre autoregresné generovanie textu. Modely videnia zvyčajne používajú obojsmernú pozornosť, pretože pochopenie obrázka nevyžaduje poradie zľava doprava. Niektoré úlohy videnia používajú maskovanú pozornosť, najmä v maskovaných autoenkodéroch, kde sú časti vstupu počas trénovania skryté.
Pozičné kódovanie
Keďže text má prirodzené sekvenčné poradie, NLP používa 1D pozičné vnorenia na určenie miesta každého tokenu v sekvencii pre model. Zrak vyžaduje 2D pozičné vnorenia na zachovanie priestorových vzťahov medzi oblasťami, pretože obrázky majú rozmery výšky a šírky. Tento rozdiel ovplyvňuje, ako každá doména navrhuje svoje schémy vnorenia a ako sa modely zovšeobecňujú na rôzne veľkosti vstupu.
Aplikácie naprieč doménami
Hranica medzi zrakom a pozornosťou NLP sa značne rozmazala. Modely ako CLIP, DALL-E a Flamingo využívajú krížovú pozornosť na prepojenie vizuálnych a textových reprezentácií, čo umožňuje úlohy ako popisovanie obrázkov, vizuálne odpovede na otázky a generovanie textu do obrázka. Tieto multimodálne systémy demonštrujú, že mechanizmy pozornosti sú pozoruhodne flexibilné a dokážu zjednotiť rôzne typy údajov v rámci jednej architektúry.
Výhody a nevýhody
Mechanizmy pozornosti vo videní
Výhody
+Zachytáva globálny kontext
+Silný pri práci s veľkými súbormi údajov
+Interpretovateľné mapy pozornosti
+Flexibilná architektúra
Cons
−Vysoké výpočtové náklady
−Vyžaduje veľa údajov
−Zložitosť založená na záplatách
−Menej indukčného skreslenia
Pozornosť v NLP
Výhody
+Spracováva dlhé závislosti
+Paralelizovateľné trénovanie
+Podporuje moderné programy LLM
+Bohaté transferové učenie
Cons
−Kvadratická zložitosť
−Obmedzenia dĺžky kontextu
−Riziká halucinácií
−Náročné na zdroje
Bežné mylné predstavy
Mýtus
Mechanizmy pozornosti vo videní a NLP sú úplne odlišné technológie.
Realita
Zdieľajú rovnaký matematický základ výpočtu vážených súm na základe interakcií medzi dopytom a kľúčom a hodnotou. Rozdiely spočívajú najmä v spôsobe štruktúrovania vstupov a v tom, aké informácie o polohe sa pridávajú, nie v samotnom základnom mechanizme.
Mýtus
Vision Transformers fungujú dobre aj s malými súbormi údajov.
Realita
Na rozdiel od konvolučných mutácií (CNN), ktoré majú zabudované induktívne skreslenia, ViT zvyčajne vyžadujú rozsiahle súbory údajov (často stovky miliónov obrázkov), aby prekonali konvolučné prístupy. Na menších súboroch údajov CNN často stále vyhrávajú, pokiaľ sa nepoužije silná regularizácia alebo predtrénovanie.
Mýtus
Pozornosť v NLP znamená, že model skutočne rozumie jazyku.
Realita
Pozornosť je výpočtový mechanizmus na váženie vstupov, nie záruka porozumenia. Rozsiahle jazykové modely môžu produkovať plynulý text a zároveň robiť chyby v uvažovaní, halucinovať fakty alebo zlyhávať v jednoduchých logických úlohách.
Mýtus
Pozornosť úplne nahrádza konvolučné a rekurentné siete.
Realita
Hybridné architektúry zostávajú populárne a často fungujú lepšie ako modely zamerané výlučne na pozornosť. Konvolučné vrstvy sa stále vyskytujú v mnohých najmodernejších systémoch videnia a niektoré modely NLP profitujú zo zmiešania pozornosti s inými prístupmi.
Mýtus
Mapy pozornosti priamo ukazujú, o čom model premýšľa.
Realita
Váhy pozornosti nie sú vždy spoľahlivým vysvetlením správania modelu. Výskum ukázal, že rozdelenie pozornosti nemusí nevyhnutne korelovať s dôležitosťou prvkov a ich interpretácia si vyžaduje opatrnosť.
Často kladené otázky
Aký je hlavný rozdiel medzi pozornosťou vo videní a NLP?
Zraková pozornosť pracuje s 2D priestorovými štruktúrami, ako sú obrazové záplaty, a zameriava sa na identifikáciu dôležitých oblastí, zatiaľ čo NLP pozornosť pracuje s 1D sekvenciami tokenov na zachytenie vzťahov medzi slovami. Obe používajú podobné matematické formulácie, ale líšia sa v tom, ako sú kódované informácie o polohe a ako sa aplikuje maskovanie.
Vznikli mechanizmy pozornosti v NLP alebo v počítačovom videní?
Moderné mechanizmy pozornosti vznikli v NLP, pričom prelomovým momentom bol článok Transformer od Vaswaniho a kol. z roku 2017. Vision Transformers (ViT) prišiel neskôr v roku 2020 a adaptoval rovnaké princípy sebapozornosti z jazyka na obrazy tým, že ich považoval za sekvencie záplat.
Dokážu mechanizmy pozornosti spracovať dlhé sekvencie alebo obrázky s vysokým rozlíšením?
Štandardná sebapozornosť má kvadratickú zložitosť, čo ju robí nákladnou pre dlhé vstupy. Výskumníci vyvinuli efektívne varianty ako Linformer, Performer a Longformer pre NLP a Swin Transformer alebo MaxViT pre videnie, ktoré znižujú výpočtové náklady a zároveň zachovávajú výkon.
Prečo Vision Transformers potrebujú toľko tréningových dát?
Na rozdiel od CNN, ktoré majú zabudované predpoklady o lokalite a invariantnosti translácie, sa ViT musia tieto priestorové vzťahy naučiť od nuly prostredníctvom pozornosti. Bez dostatočných údajov majú tendenciu k preusporiadaniu, a preto je často potrebné rozsiahle predtrénovanie na súboroch údajov, ako je JFT-300M.
Ako krížová pozornosť prepája modely videnia a jazyka?
Krížová pozornosť umožňuje tokenom jednej modality venovať sa tokenom inej, čo umožňuje modelom ako CLIP zarovnať obrazové záplaty s textovými popismi. Tento mechanizmus je základom multimodálnych systémov, ktoré vykonávajú titulky k obrázkom, vizuálne odpovede na otázky a generovanie textu do obrázka.
Sú váhy pozornosti užitočné pre interpretovateľnosť modelu?
Váhy pozornosti môžu poskytnúť určitý prehľad o tom, na ktoré vstupy sa model zameriava, ale nemali by sa považovať za definitívne vysvetlenia. Štúdie ukázali, že pozornosť nie vždy koreluje s dôležitosťou prvkov a iné metódy interpretovateľnosti môžu byť spoľahlivejšie.
Čo je to pozornosť viacerých hláv a prečo je dôležitá?
Viachlavá pozornosť vykonáva paralelne niekoľko operácií pozornosti, pričom každá sa učí zameriavať na rôzne typy vzťahov. V NLP môže jedna hlava sledovať syntaktické závislosti, zatiaľ čo iná zachytáva sémantickú podobnosť. Pri videní sa rôzne hlavy môžu súčasne venovať rôznym priestorovým vzorcom alebo častiam objektov.
Používajú modely videnia kauzálne maskovanie ako dekodéry NLP?
Väčšina modelov videnia používa obojsmernú pozornosť bez kauzálneho maskovania, pretože pochopenie obrazu nevyžaduje sekvenčné poradie. Maskované autoenkodéry však počas trénovania skrývajú náhodné oblasti, aby povzbudili model k učeniu sa robustných reprezentácií, ktoré majú podobný duch, ale odlišný účel.
Aký je rozdiel medzi pozičnými vnoreniami medzi víziou a NLP?
NLP používa 1D pozičné vnorenia na kódovanie poradia tokenov v sekvencii, zatiaľ čo modely videnia potrebujú 2D pozičné vnorenia na zachovanie priestorových vzťahov naprieč výškou a šírkou obrazu. Niektoré pokročilé modely videnia tiež používajú kódovanie relatívnej polohy na lepšie spracovanie rôznych rozlíšení obrazu.
Zostanú mechanizmy pozornosti dominantné v umelej inteligencii?
Architektúry založené na pozornosti v súčasnosti vedú vo väčšine benchmarkov umelej inteligencie, ale výskum alternatív, ako sú modely stavového priestoru (Mamba), kombinácia expertov a nové architektúry, pokračuje. Táto oblasť sa rýchlo vyvíja a hybridné prístupy kombinujúce pozornosť s inými mechanizmami môžu formovať ďalšiu generáciu modelov.
Rozsudok
Zvoľte si zrakovú pozornosť, keď vaša úloha zahŕňa pochopenie priestorových vzťahov v obrázkoch alebo videu, najmä ak máte rozsiahle súbory údajov a potrebujete jemnú lokalizáciu. Zvoľte si NLP pozornosť, keď pracujete so sekvenčnými textovými údajmi, ktoré vyžadujú pochopenie kontextu, generovanie alebo preklad. V prípade multimodálnych projektov kombinácia oboch prostredníctvom krížovej pozornosti často prináša najlepšie výsledky.