Mechanizmy uwagi w wizji a uwaga w przetwarzaniu języka naturalnego
Mechanizmy uwagi napędzają współczesną sztuczną inteligencję, zarówno w zakresie widzenia komputerowego, jak i przetwarzania języka naturalnego, ale służą one różnym celom i ewoluowały różnymi ścieżkami. Uwaga wzrokowa pomaga modelom skupić się na istotnych obszarach obrazu, podczas gdy uwaga NLP umożliwia zrozumienie relacji między wyrazami w sekwencjach tekstu.
Najważniejsze informacje
Uwaga wzrokowa skupia się na obszarach przestrzennych, podczas gdy uwaga NLP wychwytuje zależności symboliczne pomiędzy sekwencjami.
Uwaga NLP poprzedza uwagę wizualną, a architektura Transformer stała się inspiracją dla Vision Transformers wiele lat później.
Modele wizji wykorzystują dwuwymiarowe osadzenia pozycyjne, natomiast modele przetwarzania języka naturalnego bazują na jednowymiarowych informacjach pozycyjnych.
Wzajemna uwaga łączy teraz obydwie domeny, umożliwiając tworzenie wydajnych multimodalnych systemów sztucznej inteligencji, takich jak CLIP i GPT-4V.
Czym jest Mechanizmy uwagi w widzeniu?
Techniki umożliwiające modelom wizji selektywne skupianie się na ważnych obszarach przestrzennych lub cechach obrazów i filmów.
Vision Transformers (ViT) dzielą obrazy na fragmenty i stosują autoregulację, uzyskując najnowocześniejsze rezultaty w ImageNet.
Uwaga przestrzenna pomaga modelom określić, które części obrazu są najważniejsze w przypadku takich zadań, jak wykrywanie obiektów i segmentacja.
Uwaga kanału, spopularyzowana przez sieci Squeeze-and-Excitation, kalibruje na nowo odpowiedzi cech w kanałach filtrów.
Modele widzenia oparte na uwadze często przewyższają sieci CNN, jeśli dostępne są wystarczające dane treningowe, zazwyczaj miliony obrazów.
Wzajemna uwaga w modelach wizyjno-językowych, takich jak CLIP, dopasowuje fragmenty obrazu do tokenów tekstowych, zapewniając multimodalne zrozumienie.
Czym jest Uwaga w NLP?
Metody umożliwiające modelom językowym ocenę ważności różnych słów i tokenów podczas przetwarzania sekwencyjnych danych tekstowych.
Architektura Transformer, wprowadzona w 2017 r., opiera się całkowicie na samouważności i zrewolucjonizowała przetwarzanie języka naturalnego.
Samouwaga pozwala każdemu tokenowi w sekwencji zwracać uwagę na każdy inny token, co pozwala na uchwycenie zależności długoterminowych.
Wielogłowicowa uwaga wykonuje kilka operacji uwagi równolegle, pozwalając modelom skupić się na różnych typach relacji jednocześnie.
Maskowanie przyczynowe w modelach dekodujących, takich jak GPT, zapewnia, że każdy token obsługuje tylko poprzednie tokeny podczas generowania tekstu.
Mechanizmy uwagi zastąpiły RNN i LSTM jako dominujące podejście do tłumaczenia, podsumowywania i modelowania języka.
Tabela porównawcza
Funkcja
Mechanizmy uwagi w widzeniu
Uwaga w NLP
Typ wejścia podstawowego
Obrazy, klatki wideo lub fragmenty wizualne
Tokeny tekstowe, słowa lub jednostki podwyrazów
Granularność uwagi
Regiony przestrzenne, łatki lub kanały obiektów
Relacje token-token w sekwencjach
Architektura pochodzenia
Transformator wizyjny (ViT), DETR, SE-Net
Oryginalny koder-dekoder transformatorowy (Vaswani i in., 2017)
Złożoność obliczeniowa
Kwadratowe z rozdzielczością obrazu; metody oparte na łatkach obniżają koszty
Kwadratowy z długością sekwencji; istnieją rzadkie warianty uwagi
Typowe przypadki użycia
Klasyfikacja obrazów, wykrywanie obiektów, segmentacja, rozumienie wideo
Tłumaczenie, generowanie tekstu, odpowiadanie na pytania, podsumowywanie
Strategia maskowania
Zwykle brak maskowania przyczynowego; powszechna jest uwaga dwukierunkowa
Maskowanie przyczynowe dla dekoderów; dwukierunkowe dla koderów
Informacje o położeniu
Osadzenia pozycyjne 2D dla struktury przestrzennej
Osadzenia pozycyjne 1D dla kolejności tokenów
Wymagania dotyczące danych
Duże zbiory danych obrazowych, takie jak ImageNet lub JFT-300M
Duże korpusy tekstowe, takie jak Common Crawl czy Wikipedia
Szczegółowe porównanie
Główny cel i funkcja
Uwaga wzrokowa pomaga modelom decydować, gdzie patrzeć na obrazie, zasadniczo podkreślając obszary przestrzenne niosące najistotniejsze informacje dla danego zadania. Uwaga NLP z kolei określa, jak słowa są ze sobą powiązane w zdaniu lub w dokumencie, rejestrując zależności semantyczne niezależnie od odległości. Oba systemy opierają się na tej samej fundamentalnej idei ważonej ważności, ale struktury, na których operują, znacząco się różnią.
Ewolucja architektoniczna
Uwaga NLP pojawiła się najpierw w swojej współczesnej formie, a artykuł w Transformer z 2017 roku ustanowił samouważność jako podstawę rozumienia języka. Uwaga wizyjna w dużej mierze czerpała z tych przełomowych odkryć NLP, a publikacja Vision Transformers z 2020 roku pokazała, że architektury oparte wyłącznie na uwadze mogą dorównać, a nawet przewyższyć sieci konwolucyjne. Od tego czasu te dwie dziedziny nieustannie się przenikają, a techniki takie jak uwaga krzyżowa łączą obecnie wizję i język w modelach multimodalnych.
Rozważania obliczeniowe
Oba modele mierzą się z wyzwaniami związanymi ze złożonością kwadratową, ale skala jest różna. Modele NLP obsługują sekwencje od setek do setek tysięcy tokenów, podczas gdy modele wizyjne muszą obsługiwać obrazy, które mogą zawierać tysiące fragmentów w wysokiej rozdzielczości. Badacze wizji opracowali wydajne warianty, takie jak uwaga okienkowa Swin Transformer, podczas gdy NLP stworzyło rzadkie i liniowe metody uwagi do obsługi dłuższych kontekstów.
Maskowanie i kierunkowość
Kluczowe rozróżnienie dotyczy przepływu uwagi. Modele dekoderów NLP wykorzystują maskowanie przyczynowe, dzięki czemu każdy token widzi tylko poprzednie tokeny, co jest niezbędne do autoregresyjnego generowania tekstu. Modele widzenia zazwyczaj wykorzystują uwagę dwukierunkową, ponieważ rozumienie obrazu nie wymaga kolejności od lewej do prawej. Niektóre zadania związane z widzeniem wykorzystują maskowanie uwagi, szczególnie w maskowanych autokoderach, w których fragmenty danych wejściowych są ukryte podczas treningu.
Kodowanie pozycyjne
Ponieważ tekst ma naturalny, sekwencyjny porządek, przetwarzanie języka naturalnego (NLP) wykorzystuje jednowymiarowe osadzenia pozycyjne, aby wskazać modelowi, gdzie znajduje się każdy token w sekwencji. Wizja wymaga dwuwymiarowych osadzeń pozycyjnych, aby zachować relacje przestrzenne między fragmentami, ponieważ obrazy mają wymiary wysokości i szerokości. Ta różnica wpływa na sposób, w jaki każda domena projektuje swoje schematy osadzenia oraz na sposób, w jaki modele generalizują się dla różnych rozmiarów danych wejściowych.
Aplikacje międzydomenowe
Granica między widzeniem a uwagą w przetwarzaniu języka naturalnego znacznie się zatarła. Modele takie jak CLIP, DALL-E i Flamingo wykorzystują uwagę krzyżową do łączenia reprezentacji wizualnych i tekstowych, umożliwiając zadania takie jak tworzenie podpisów do obrazów, wizualne odpowiadanie na pytania i generowanie tekstu na obrazy. Te multimodalne systemy dowodzą, że mechanizmy uwagi są niezwykle elastyczne i mogą łączyć różne typy danych w ramach jednej architektury.
Zalety i wady
Mechanizmy uwagi w widzeniu
Zalety
+Rejestruje globalny kontekst
+Mocne w przypadku dużych zestawów danych
+Interpretowalne mapy uwagi
+Elastyczna architektura
Zawartość
−Wysokie koszty obliczeniowe
−Potrzeba dużo danych
−Złożoność oparta na poprawkach
−Mniejsze odchylenie indukcyjne
Uwaga w NLP
Zalety
+Obsługuje długie zależności
+Trening równoległy
+Umożliwia nowoczesne studia LLM
+Bogate uczenie transferowe
Zawartość
−Złożoność kwadratowa
−Limity długości kontekstu
−Ryzyko halucynacji
−Wymagający dużych zasobów
Częste nieporozumienia
Mit
Mechanizmy uwagi w widzeniu i NLP to zupełnie różne technologie.
Rzeczywistość
Łączy je ta sama matematyczna podstawa obliczania sum ważonych w oparciu o interakcje zapytanie-klucz-wartość. Różnice dotyczą głównie struktury danych wejściowych i dodawanych informacji o położeniu, a nie samego mechanizmu.
Mit
Vision Transformers dobrze sprawdzają się nawet w przypadku małych zbiorów danych.
Rzeczywistość
W przeciwieństwie do sieci neuronowych (CNN), które mają wbudowane błędy indukcyjne, sieci ViT zazwyczaj wymagają ogromnych zbiorów danych (często setek milionów obrazów), aby przewyższyć metody splotowe. W przypadku mniejszych zbiorów danych sieci CNN często nadal wygrywają, chyba że zastosuje się silną regularyzację lub wstępne trenowanie.
Mit
Uwaga w NLP oznacza, że model naprawdę rozumie język.
Rzeczywistość
Uwaga to mechanizm obliczeniowy służący do ważenia danych wejściowych, a nie gwarancja zrozumienia. Duże modele językowe mogą generować płynny tekst, jednocześnie popełniając błędy w rozumowaniu, urojenia faktów lub nie radząc sobie z prostymi zadaniami logicznymi.
Mit
Uwaga całkowicie zastępuje sieci konwolucyjne i rekurencyjne.
Rzeczywistość
Architektury hybrydowe pozostają popularne i często działają lepiej niż modele oparte wyłącznie na uwadze. Warstwy splotowe nadal pojawiają się w wielu najnowocześniejszych systemach wizyjnych, a niektóre modele przetwarzania języka naturalnego (NLP) korzystają z połączenia uwagi z innymi podejściami.
Mit
Mapy uwagi bezpośrednio pokazują, o czym myśli model.
Rzeczywistość
Wagi uwagi nie zawsze stanowią wiarygodne wyjaśnienie zachowania modelu. Badania wykazały, że rozkłady uwagi niekoniecznie korelują z ważnością cech, a ich interpretacja wymaga ostrożności.
Często zadawane pytania
Jaka jest główna różnica między uwagą skupioną na wizji a NLP?
Uwaga wzrokowa działa na dwuwymiarowych strukturach przestrzennych, takich jak fragmenty obrazu, i koncentruje się na identyfikacji ważnych regionów, podczas gdy uwaga NLP opiera się na jednowymiarowych sekwencjach tokenów, aby uchwycić relacje między słowami. Obie metody wykorzystują podobne formuły matematyczne, ale różnią się sposobem kodowania informacji o położeniu i sposobem stosowania maskowania.
Czy mechanizmy uwagi mają swoje źródło w NLP czy w wizji komputerowej?
Współczesne mechanizmy uwagi wywodzą się z NLP, a przełomowym momentem był artykuł Vaswaniego i in. z 2017 roku, zatytułowany Transformer. Vision Transformers (ViT), który pojawił się pod koniec 2020 roku, adaptował te same zasady samouważności z języka do obrazów, traktując je jako sekwencje fragmentów.
Czy mechanizmy uwagi potrafią poradzić sobie z długimi sekwencjami lub obrazami o wysokiej rozdzielczości?
Standardowa samouwaga ma kwadratową złożoność, co czyni ją kosztowną w przypadku długich danych wejściowych. Naukowcy opracowali wydajne warianty, takie jak Linformer, Performer i Longformer dla przetwarzania języka naturalnego oraz Swin Transformer lub MaxViT dla wizji, które zmniejszają koszty obliczeniowe przy jednoczesnym zachowaniu wydajności.
Dlaczego Vision Transformers potrzebuje tak wielu danych szkoleniowych?
W przeciwieństwie do sieci neuronowych (CNN), które mają wbudowane założenia dotyczące lokalności i niezmienności translacji, sieci ViT muszą uczyć się tych zależności przestrzennych od podstaw, angażując uwagę. Bez wystarczającej ilości danych mają tendencję do nadmiernego dopasowania, dlatego często konieczne jest wstępne trenowanie na dużą skalę na zbiorach danych, takich jak JFT-300M.
W jaki sposób uwaga krzyżowa łączy modele widzenia i języka?
Uważność krzyżowa pozwala tokenom jednej modalności na koncentrowanie się na tokenach innej, umożliwiając modelom takim jak CLIP dopasowywanie fragmentów obrazu do opisów tekstowych. Mechanizm ten jest fundamentalny dla systemów multimodalnych, które realizują podpisy do obrazów, wizualne odpowiedzi na pytania i generowanie tekstu na obraz.
Czy wagi uwagi są przydatne dla interpretowalności modelu?
Wagi uwagi mogą dać pewien wgląd w to, na których danych wejściowych koncentruje się model, ale nie należy ich traktować jako ostatecznych wyjaśnień. Badania wykazały, że uwaga nie zawsze koreluje z ważnością cech, a inne metody interpretacji mogą być bardziej wiarygodne.
Czym jest uwaga wielogłowa i dlaczego jest ważna?
Uwaga wielogłowicowa wykonuje kilka operacji uwagi równolegle, z których każda uczy się koncentrować na różnych typach relacji. W NLP jedna głowa może śledzić zależności składniowe, podczas gdy inna wychwytuje podobieństwa semantyczne. W przypadku widzenia, różne głowy mogą jednocześnie koncentrować się na różnych wzorcach przestrzennych lub częściach obiektów.
Czy modele wizji wykorzystują maskowanie przyczynowe, podobnie jak dekodery NLP?
Większość modeli widzenia wykorzystuje uwagę dwukierunkową bez maskowania przyczynowego, ponieważ zrozumienie obrazu nie wymaga określonej kolejności. Jednak autoenkodery maskowane ukrywają losowe fragmenty podczas treningu, aby zachęcić model do uczenia się solidnych reprezentacji, podobnych w duchu, ale różniących się celem.
Jakie są różnice między osadzeniem pozycyjnym w przetwarzaniu obrazu i NLP?
Przetwarzanie języka naturalnego (NLP) wykorzystuje jednowymiarowe osadzanie pozycyjne do kodowania kolejności tokenów w sekwencji, podczas gdy modele wizyjne wymagają dwuwymiarowego osadzania pozycyjnego, aby zachować relacje przestrzenne w wysokości i szerokości obrazu. Niektóre zaawansowane modele wizyjne wykorzystują również kodowanie położenia względnego, aby lepiej radzić sobie ze zmienną rozdzielczością obrazu.
Czy mechanizmy uwagi pozostaną dominujące w sztucznej inteligencji?
Architektury oparte na uwadze są obecnie liderami w większości testów porównawczych sztucznej inteligencji, ale trwają badania nad alternatywami, takimi jak modele przestrzeni stanów (Mamba), łączenie ekspertów i nowatorskie architektury. Dziedzina ta dynamicznie się rozwija, a podejścia hybrydowe łączące uwagę z innymi mechanizmami mogą ukształtować kolejną generację modeli.
Wynik
Wybierz uwagę wizualną, gdy Twoje zadanie wymaga zrozumienia relacji przestrzennych w obrazach lub filmach, zwłaszcza gdy dysponujesz dużymi zbiorami danych i potrzebujesz precyzyjnej lokalizacji. Wybierz uwagę NLP, gdy pracujesz z sekwencyjnymi danymi tekstowymi wymagającymi zrozumienia kontekstu, generowania lub tłumaczenia. W projektach multimodalnych połączenie obu tych aspektów poprzez uwagę krzyżową często przynosi najlepsze rezultaty.