sztuczna inteligencjagłębokie uczenie sięmechanizmy uwagiwidzenie komputeroweNLPtransformatory

Mechanizmy uwagi w wizji a uwaga w przetwarzaniu języka naturalnego

Mechanizmy uwagi napędzają współczesną sztuczną inteligencję, zarówno w zakresie widzenia komputerowego, jak i przetwarzania języka naturalnego, ale służą one różnym celom i ewoluowały różnymi ścieżkami. Uwaga wzrokowa pomaga modelom skupić się na istotnych obszarach obrazu, podczas gdy uwaga NLP umożliwia zrozumienie relacji między wyrazami w sekwencjach tekstu.

Najważniejsze informacje

Uwaga wzrokowa skupia się na obszarach przestrzennych, podczas gdy uwaga NLP wychwytuje zależności symboliczne pomiędzy sekwencjami.
Uwaga NLP poprzedza uwagę wizualną, a architektura Transformer stała się inspiracją dla Vision Transformers wiele lat później.
Modele wizji wykorzystują dwuwymiarowe osadzenia pozycyjne, natomiast modele przetwarzania języka naturalnego bazują na jednowymiarowych informacjach pozycyjnych.
Wzajemna uwaga łączy teraz obydwie domeny, umożliwiając tworzenie wydajnych multimodalnych systemów sztucznej inteligencji, takich jak CLIP i GPT-4V.

Czym jest Mechanizmy uwagi w widzeniu?

Techniki umożliwiające modelom wizji selektywne skupianie się na ważnych obszarach przestrzennych lub cechach obrazów i filmów.

Vision Transformers (ViT) dzielą obrazy na fragmenty i stosują autoregulację, uzyskując najnowocześniejsze rezultaty w ImageNet.
Uwaga przestrzenna pomaga modelom określić, które części obrazu są najważniejsze w przypadku takich zadań, jak wykrywanie obiektów i segmentacja.
Uwaga kanału, spopularyzowana przez sieci Squeeze-and-Excitation, kalibruje na nowo odpowiedzi cech w kanałach filtrów.
Modele widzenia oparte na uwadze często przewyższają sieci CNN, jeśli dostępne są wystarczające dane treningowe, zazwyczaj miliony obrazów.
Wzajemna uwaga w modelach wizyjno-językowych, takich jak CLIP, dopasowuje fragmenty obrazu do tokenów tekstowych, zapewniając multimodalne zrozumienie.

Czym jest Uwaga w NLP?

Metody umożliwiające modelom językowym ocenę ważności różnych słów i tokenów podczas przetwarzania sekwencyjnych danych tekstowych.

Architektura Transformer, wprowadzona w 2017 r., opiera się całkowicie na samouważności i zrewolucjonizowała przetwarzanie języka naturalnego.
Samouwaga pozwala każdemu tokenowi w sekwencji zwracać uwagę na każdy inny token, co pozwala na uchwycenie zależności długoterminowych.
Wielogłowicowa uwaga wykonuje kilka operacji uwagi równolegle, pozwalając modelom skupić się na różnych typach relacji jednocześnie.
Maskowanie przyczynowe w modelach dekodujących, takich jak GPT, zapewnia, że każdy token obsługuje tylko poprzednie tokeny podczas generowania tekstu.
Mechanizmy uwagi zastąpiły RNN i LSTM jako dominujące podejście do tłumaczenia, podsumowywania i modelowania języka.

Tabela porównawcza

Funkcja	Mechanizmy uwagi w widzeniu	Uwaga w NLP
Typ wejścia podstawowego	Obrazy, klatki wideo lub fragmenty wizualne	Tokeny tekstowe, słowa lub jednostki podwyrazów
Granularność uwagi	Regiony przestrzenne, łatki lub kanały obiektów	Relacje token-token w sekwencjach
Architektura pochodzenia	Transformator wizyjny (ViT), DETR, SE-Net	Oryginalny koder-dekoder transformatorowy (Vaswani i in., 2017)
Złożoność obliczeniowa	Kwadratowe z rozdzielczością obrazu; metody oparte na łatkach obniżają koszty	Kwadratowy z długością sekwencji; istnieją rzadkie warianty uwagi
Typowe przypadki użycia	Klasyfikacja obrazów, wykrywanie obiektów, segmentacja, rozumienie wideo	Tłumaczenie, generowanie tekstu, odpowiadanie na pytania, podsumowywanie
Strategia maskowania	Zwykle brak maskowania przyczynowego; powszechna jest uwaga dwukierunkowa	Maskowanie przyczynowe dla dekoderów; dwukierunkowe dla koderów
Informacje o położeniu	Osadzenia pozycyjne 2D dla struktury przestrzennej	Osadzenia pozycyjne 1D dla kolejności tokenów
Wymagania dotyczące danych	Duże zbiory danych obrazowych, takie jak ImageNet lub JFT-300M	Duże korpusy tekstowe, takie jak Common Crawl czy Wikipedia

Szczegółowe porównanie

Główny cel i funkcja

Uwaga wzrokowa pomaga modelom decydować, gdzie patrzeć na obrazie, zasadniczo podkreślając obszary przestrzenne niosące najistotniejsze informacje dla danego zadania. Uwaga NLP z kolei określa, jak słowa są ze sobą powiązane w zdaniu lub w dokumencie, rejestrując zależności semantyczne niezależnie od odległości. Oba systemy opierają się na tej samej fundamentalnej idei ważonej ważności, ale struktury, na których operują, znacząco się różnią.

Ewolucja architektoniczna

Uwaga NLP pojawiła się najpierw w swojej współczesnej formie, a artykuł w Transformer z 2017 roku ustanowił samouważność jako podstawę rozumienia języka. Uwaga wizyjna w dużej mierze czerpała z tych przełomowych odkryć NLP, a publikacja Vision Transformers z 2020 roku pokazała, że architektury oparte wyłącznie na uwadze mogą dorównać, a nawet przewyższyć sieci konwolucyjne. Od tego czasu te dwie dziedziny nieustannie się przenikają, a techniki takie jak uwaga krzyżowa łączą obecnie wizję i język w modelach multimodalnych.

Rozważania obliczeniowe

Oba modele mierzą się z wyzwaniami związanymi ze złożonością kwadratową, ale skala jest różna. Modele NLP obsługują sekwencje od setek do setek tysięcy tokenów, podczas gdy modele wizyjne muszą obsługiwać obrazy, które mogą zawierać tysiące fragmentów w wysokiej rozdzielczości. Badacze wizji opracowali wydajne warianty, takie jak uwaga okienkowa Swin Transformer, podczas gdy NLP stworzyło rzadkie i liniowe metody uwagi do obsługi dłuższych kontekstów.

Maskowanie i kierunkowość

Kluczowe rozróżnienie dotyczy przepływu uwagi. Modele dekoderów NLP wykorzystują maskowanie przyczynowe, dzięki czemu każdy token widzi tylko poprzednie tokeny, co jest niezbędne do autoregresyjnego generowania tekstu. Modele widzenia zazwyczaj wykorzystują uwagę dwukierunkową, ponieważ rozumienie obrazu nie wymaga kolejności od lewej do prawej. Niektóre zadania związane z widzeniem wykorzystują maskowanie uwagi, szczególnie w maskowanych autokoderach, w których fragmenty danych wejściowych są ukryte podczas treningu.

Kodowanie pozycyjne

Ponieważ tekst ma naturalny, sekwencyjny porządek, przetwarzanie języka naturalnego (NLP) wykorzystuje jednowymiarowe osadzenia pozycyjne, aby wskazać modelowi, gdzie znajduje się każdy token w sekwencji. Wizja wymaga dwuwymiarowych osadzeń pozycyjnych, aby zachować relacje przestrzenne między fragmentami, ponieważ obrazy mają wymiary wysokości i szerokości. Ta różnica wpływa na sposób, w jaki każda domena projektuje swoje schematy osadzenia oraz na sposób, w jaki modele generalizują się dla różnych rozmiarów danych wejściowych.

Aplikacje międzydomenowe

Granica między widzeniem a uwagą w przetwarzaniu języka naturalnego znacznie się zatarła. Modele takie jak CLIP, DALL-E i Flamingo wykorzystują uwagę krzyżową do łączenia reprezentacji wizualnych i tekstowych, umożliwiając zadania takie jak tworzenie podpisów do obrazów, wizualne odpowiadanie na pytania i generowanie tekstu na obrazy. Te multimodalne systemy dowodzą, że mechanizmy uwagi są niezwykle elastyczne i mogą łączyć różne typy danych w ramach jednej architektury.

Zalety i wady

Mechanizmy uwagi w widzeniu

Zalety

+ Rejestruje globalny kontekst
+ Mocne w przypadku dużych zestawów danych
+ Interpretowalne mapy uwagi
+ Elastyczna architektura

Zawartość

− Wysokie koszty obliczeniowe
− Potrzeba dużo danych
− Złożoność oparta na poprawkach
− Mniejsze odchylenie indukcyjne

Uwaga w NLP

Zalety

+ Obsługuje długie zależności
+ Trening równoległy
+ Umożliwia nowoczesne studia LLM
+ Bogate uczenie transferowe

Zawartość

− Złożoność kwadratowa
− Limity długości kontekstu
− Ryzyko halucynacji
− Wymagający dużych zasobów

Częste nieporozumienia

Mit

Mechanizmy uwagi w widzeniu i NLP to zupełnie różne technologie.

Rzeczywistość

Łączy je ta sama matematyczna podstawa obliczania sum ważonych w oparciu o interakcje zapytanie-klucz-wartość. Różnice dotyczą głównie struktury danych wejściowych i dodawanych informacji o położeniu, a nie samego mechanizmu.

Mit

Vision Transformers dobrze sprawdzają się nawet w przypadku małych zbiorów danych.

Rzeczywistość

W przeciwieństwie do sieci neuronowych (CNN), które mają wbudowane błędy indukcyjne, sieci ViT zazwyczaj wymagają ogromnych zbiorów danych (często setek milionów obrazów), aby przewyższyć metody splotowe. W przypadku mniejszych zbiorów danych sieci CNN często nadal wygrywają, chyba że zastosuje się silną regularyzację lub wstępne trenowanie.

Mit

Uwaga w NLP oznacza, że model naprawdę rozumie język.

Rzeczywistość

Uwaga to mechanizm obliczeniowy służący do ważenia danych wejściowych, a nie gwarancja zrozumienia. Duże modele językowe mogą generować płynny tekst, jednocześnie popełniając błędy w rozumowaniu, urojenia faktów lub nie radząc sobie z prostymi zadaniami logicznymi.

Mit

Uwaga całkowicie zastępuje sieci konwolucyjne i rekurencyjne.

Rzeczywistość

Architektury hybrydowe pozostają popularne i często działają lepiej niż modele oparte wyłącznie na uwadze. Warstwy splotowe nadal pojawiają się w wielu najnowocześniejszych systemach wizyjnych, a niektóre modele przetwarzania języka naturalnego (NLP) korzystają z połączenia uwagi z innymi podejściami.

Mit

Mapy uwagi bezpośrednio pokazują, o czym myśli model.

Rzeczywistość

Wagi uwagi nie zawsze stanowią wiarygodne wyjaśnienie zachowania modelu. Badania wykazały, że rozkłady uwagi niekoniecznie korelują z ważnością cech, a ich interpretacja wymaga ostrożności.

Często zadawane pytania

Jaka jest główna różnica między uwagą skupioną na wizji a NLP?

Uwaga wzrokowa działa na dwuwymiarowych strukturach przestrzennych, takich jak fragmenty obrazu, i koncentruje się na identyfikacji ważnych regionów, podczas gdy uwaga NLP opiera się na jednowymiarowych sekwencjach tokenów, aby uchwycić relacje między słowami. Obie metody wykorzystują podobne formuły matematyczne, ale różnią się sposobem kodowania informacji o położeniu i sposobem stosowania maskowania.

Czy mechanizmy uwagi mają swoje źródło w NLP czy w wizji komputerowej?

Współczesne mechanizmy uwagi wywodzą się z NLP, a przełomowym momentem był artykuł Vaswaniego i in. z 2017 roku, zatytułowany Transformer. Vision Transformers (ViT), który pojawił się pod koniec 2020 roku, adaptował te same zasady samouważności z języka do obrazów, traktując je jako sekwencje fragmentów.

Czy mechanizmy uwagi potrafią poradzić sobie z długimi sekwencjami lub obrazami o wysokiej rozdzielczości?

Standardowa samouwaga ma kwadratową złożoność, co czyni ją kosztowną w przypadku długich danych wejściowych. Naukowcy opracowali wydajne warianty, takie jak Linformer, Performer i Longformer dla przetwarzania języka naturalnego oraz Swin Transformer lub MaxViT dla wizji, które zmniejszają koszty obliczeniowe przy jednoczesnym zachowaniu wydajności.

Dlaczego Vision Transformers potrzebuje tak wielu danych szkoleniowych?

W przeciwieństwie do sieci neuronowych (CNN), które mają wbudowane założenia dotyczące lokalności i niezmienności translacji, sieci ViT muszą uczyć się tych zależności przestrzennych od podstaw, angażując uwagę. Bez wystarczającej ilości danych mają tendencję do nadmiernego dopasowania, dlatego często konieczne jest wstępne trenowanie na dużą skalę na zbiorach danych, takich jak JFT-300M.

W jaki sposób uwaga krzyżowa łączy modele widzenia i języka?

Uważność krzyżowa pozwala tokenom jednej modalności na koncentrowanie się na tokenach innej, umożliwiając modelom takim jak CLIP dopasowywanie fragmentów obrazu do opisów tekstowych. Mechanizm ten jest fundamentalny dla systemów multimodalnych, które realizują podpisy do obrazów, wizualne odpowiedzi na pytania i generowanie tekstu na obraz.

Czy wagi uwagi są przydatne dla interpretowalności modelu?

Wagi uwagi mogą dać pewien wgląd w to, na których danych wejściowych koncentruje się model, ale nie należy ich traktować jako ostatecznych wyjaśnień. Badania wykazały, że uwaga nie zawsze koreluje z ważnością cech, a inne metody interpretacji mogą być bardziej wiarygodne.

Czym jest uwaga wielogłowa i dlaczego jest ważna?

Uwaga wielogłowicowa wykonuje kilka operacji uwagi równolegle, z których każda uczy się koncentrować na różnych typach relacji. W NLP jedna głowa może śledzić zależności składniowe, podczas gdy inna wychwytuje podobieństwa semantyczne. W przypadku widzenia, różne głowy mogą jednocześnie koncentrować się na różnych wzorcach przestrzennych lub częściach obiektów.

Czy modele wizji wykorzystują maskowanie przyczynowe, podobnie jak dekodery NLP?

Większość modeli widzenia wykorzystuje uwagę dwukierunkową bez maskowania przyczynowego, ponieważ zrozumienie obrazu nie wymaga określonej kolejności. Jednak autoenkodery maskowane ukrywają losowe fragmenty podczas treningu, aby zachęcić model do uczenia się solidnych reprezentacji, podobnych w duchu, ale różniących się celem.

Jakie są różnice między osadzeniem pozycyjnym w przetwarzaniu obrazu i NLP?

Przetwarzanie języka naturalnego (NLP) wykorzystuje jednowymiarowe osadzanie pozycyjne do kodowania kolejności tokenów w sekwencji, podczas gdy modele wizyjne wymagają dwuwymiarowego osadzania pozycyjnego, aby zachować relacje przestrzenne w wysokości i szerokości obrazu. Niektóre zaawansowane modele wizyjne wykorzystują również kodowanie położenia względnego, aby lepiej radzić sobie ze zmienną rozdzielczością obrazu.

Czy mechanizmy uwagi pozostaną dominujące w sztucznej inteligencji?

Architektury oparte na uwadze są obecnie liderami w większości testów porównawczych sztucznej inteligencji, ale trwają badania nad alternatywami, takimi jak modele przestrzeni stanów (Mamba), łączenie ekspertów i nowatorskie architektury. Dziedzina ta dynamicznie się rozwija, a podejścia hybrydowe łączące uwagę z innymi mechanizmami mogą ukształtować kolejną generację modeli.

Wynik

Wybierz uwagę wizualną, gdy Twoje zadanie wymaga zrozumienia relacji przestrzennych w obrazach lub filmach, zwłaszcza gdy dysponujesz dużymi zbiorami danych i potrzebujesz precyzyjnej lokalizacji. Wybierz uwagę NLP, gdy pracujesz z sekwencyjnymi danymi tekstowymi wymagającymi zrozumienia kontekstu, generowania lub tłumaczenia. W projektach multimodalnych połączenie obu tych aspektów poprzez uwagę krzyżową często przynosi najlepsze rezultaty.

Powiązane porównania

Adaptacja domeny a szkolenie w obrębie domeny

W tym porównaniu analizuje się strategiczne wybory w uczeniu maszynowym między adaptacją domeny, która przenosi wiedzę z oznaczonego środowiska źródłowego do innego środowiska docelowego, a uczeniem w domenie, które buduje modele wyłącznie w oparciu o dane zebrane w konkretnym środowisku wdrożenia docelowego.

Adaptacja językowa w sztucznej inteligencji a systemy sztucznej inteligencji niezależne od języka

Adaptacja językowa w sztucznej inteligencji koncentruje się na uczeniu modeli obsługi konkretnych języków poprzez precyzyjne dostrajanie i transfer wiedzy, podczas gdy systemy sztucznej inteligencji niezależne od języka dążą do przetwarzania dowolnego języka bez szkolenia językowego. Oba podejścia radzą sobie z wyzwaniami wielojęzyczności, ale różnią się zasadniczo pod względem architektury, danych szkoleniowych i wdrożenia w warunkach rzeczywistych.

Adaptacyjne pobieranie a statyczne potoki pobierania

Adaptacyjne pobieranie dynamicznie dostosowuje sposób i rodzaj informacji pobieranych przez system na podstawie zapytania, podczas gdy statyczne potoki pobierania podążają za stałymi regułami niezależnie od kontekstu. Oba te rozwiązania napędzają nowoczesne aplikacje AI, ale różnią się znacząco elastycznością, kosztami i dokładnością. Wybór między nimi zależy od złożoności obciążenia i budżetu.

Agenci AI kontra tradycyjne aplikacje internetowe

Agenci AI to autonomiczne, zorientowane na cel systemy, które potrafią planować, wnioskować i wykonywać zadania w różnych narzędziach, podczas gdy tradycyjne aplikacje internetowe podążają za sztywnymi, sterowanymi przez użytkownika przepływami pracy. Porównanie podkreśla przejście od statycznych interfejsów do adaptacyjnych, kontekstowych systemów, które mogą proaktywnie wspierać użytkowników, automatyzować decyzje i dynamicznie wchodzić w interakcje z wieloma usługami.

Agenci AI zorientowani na zadania kontra modele językowe ogólnego przeznaczenia

Agenci AI zorientowani na zadania są stworzeni do autonomicznego wykonywania określonych przepływów pracy, podczas gdy uniwersalne modele językowe służą jako wszechstronne generatory tekstu, reagujące na szeroki zakres podpowiedzi. Wybór między nimi zależy od tego, czy potrzebujesz niezawodnego wykonywania zadań, czy elastycznej inteligencji konwersacyjnej.