изкуствен интелектдълбоко обучениемеханизми за вниманиекомпютърно зрениеНЛПтрансформатори
Механизми на внимание във зрението срещу внимание в НЛП
Механизмите за внимание захранват съвременния изкуствен интелект както в компютърното зрение, така и в обработката на естествен език, но те служат на различни цели и са еволюирали по различни пътища. Зрителното внимание помага на моделите да се фокусират върху съответните области на изображението, докато NLP вниманието позволява разбиране на връзките между думите в текстовите поредици.
Акценти
Зрителното внимание се фокусира върху пространствени региони, докато НЛП вниманието улавя връзките на маркерите в различните последователности.
Вниманието, основано на НЛП, предшества вниманието, основано на зрението, като архитектурата на Трансформърс вдъхновява Визионните Трансформърс години по-късно.
Моделите на зрение използват 2D позиционни вграждания, докато NLP моделите разчитат на 1D позиционна информация.
Кръстосаното внимание сега свързва двете области, позволявайки мощни мултимодални системи с изкуствен интелект като CLIP и GPT-4V.
Какво е Механизми за внимание във зрението?
Техники, които позволяват на визуалните модели да се фокусират селективно върху важни пространствени области или характеристики в изображения и видеоклипове.
Vision Transformers (ViT) разделят изображенията на участъци и прилагат самовнимание, постигайки най-съвременни резултати в ImageNet.
Пространственото внимание помага на моделите да идентифицират кои части от изображението са най-важни за задачи като откриване на обекти и сегментиране.
Вниманието към канала, популяризирано от мрежите „Стисни и възбуди“, рекалибрира отговорите на характеристиките във всички филтърни канали.
Моделите на зрение, базирани на внимание, често превъзхождат CNN, когато са налични достатъчно данни за обучение, обикновено милиони изображения.
Кръстосаното внимание в моделите на визуален език, като CLIP, подравнява фрагменти от изображения с текстови маркери за мултимодално разбиране.
Какво е Внимание в НЛП?
Методи, които позволяват на езиковите модели да преценяват важността на различни думи и лексеми при обработката на последователни текстови данни.
Архитектурата на Трансформър, представена през 2017 г., разчита изцяло на самовнимание и революционизира НЛП.
Самовниманието позволява на всеки токен в последователност да обърне внимание на всеки друг токен, улавяйки зависимости от дългосрочен мащаб.
Многоглавото внимание изпълнява няколко операции за внимание паралелно, позволявайки на моделите да се фокусират върху различни типове взаимоотношения едновременно.
Причинно-следственото маскиране в декодерни модели като GPT гарантира, че всеки токен се занимава само с предишни токени по време на генериране на текст.
Механизмите за внимание замениха RNN и LSTM като доминиращ подход за превод, обобщаване и езиково моделиране.
Сравнителна таблица
Функция
Механизми за внимание във зрението
Внимание в НЛП
Тип основен вход
Изображения, видеокадри или визуални фрагменти
Текстови токени, думи или подсловни единици
Гранулиране на вниманието
Пространствени региони, участъци или канали на характеристики
Връзки между токени в различните последователности
Произходна архитектура
Vision Transformer (ViT), DETR, SE-Net
Оригинален трансформаторен енкодер-декодер (Vaswani et al., 2017)
Изчислителна сложност
Квадратично с резолюция на изображението; методите, базирани на кръпки, намаляват разходите
Квадратична с дължина на последователността; съществуват варианти с рядко внимание
Типични случаи на употреба
Класификация на изображения, откриване на обекти, сегментиране, разбиране на видео
Превод, генериране на текст, отговаряне на въпроси, обобщаване
Стратегия за маскиране
Обикновено няма причинно-следствена маскировка; двупосочно внимание е често срещано
Причинно-следствено маскиране за декодери; двупосочно за енкодери
Позиционна информация
2D позиционни вграждания за пространствена структура
1D позиционни вграждания за ред на токени
Изисквания за данни
Мащабни набори от данни за изображения като ImageNet или JFT-300M
Големи текстови корпуси като Common Crawl или Wikipedia
Подробно сравнение
Основна цел и функция
Зрителното внимание помага на моделите да решат къде да търсят в изображението, като по същество подчертава пространствените области, които носят най-подходящата информация за дадена задача. НЛП вниманието, от друга страна, определя как думите се свързват една с друга в изречение или в документ, като улавя семантични зависимости, независимо от разстоянието. И двете споделят една и съща фундаментална идея за претеглена важност, но структурите, върху които работят, се различават значително.
Архитектурна еволюция
В съвременната си форма, вниманието, основано на НЛП, се появява на първо място, като в статията „Трансформър“ от 2017 г. се установява самовниманието като гръбнак на разбирането на езика. Зрителното внимание е заимствано в голяма степен от тези НЛП пробиви, като през 2020 г. „Трансформъри на зрението“ демонстрира, че чисто базираните на внимание архитектури могат да съответстват или да надминат конволюционните мрежи. Оттогава двете области продължават да се допълват, като техники като кръстосаното внимание сега свързват зрението и езика в мултимодални модели.
Изчислителни съображения
И двата метода са изправени пред предизвикателства на квадратичната сложност, но мащабът се различава. NLP моделите боравят с последователности, вариращи от стотици до стотици хиляди маркери, докато визуалните модели трябва да обработват изображения, които могат да съдържат хиляди участъци с висока резолюция. Изследователите на зрението са разработили ефективни варианти като прозоречното внимание на Swin Transformer, докато NLP е създал методи за разредено и линейно внимание за обработка на по-дълги контексти.
Маскиране и насоченост
Ключова разлика се крие в начина, по който се разпределя вниманието. NLP декодерните модели използват причинно-следствено маскиране, така че всеки маркер вижда само предишни маркери, което е от съществено значение за генерирането на авторегресивн текст. Зрителните модели обикновено използват двупосочно внимание, тъй като разбирането на изображение не изисква ред отляво надясно. Някои зрителни задачи използват маскирано внимание, особено в маскирани автоенкодери, където части от входа са скрити по време на обучението.
Позиционно кодиране
Тъй като текстът има естествен последователен ред, NLP използва 1D позиционни вграждания, за да каже на модела къде се намира всеки токен в последователността. Зрението изисква 2D позиционни вграждания, за да запази пространствените взаимоотношения между частите, тъй като изображенията имат размери за височина и ширина. Тази разлика влияе върху начина, по който всеки домейн проектира своите схеми за вграждане и как моделите се обобщават към различни входни размери.
Приложения за кръстосани домейни
Границата между зрението и вниманието, използвано от NLP, се разми значително. Модели като CLIP, DALL-E и Flamingo използват кръстосано внимание, за да свържат визуални и текстови представяния, което позволява задачи като надписване на изображения, визуално отговаряне на въпроси и генериране на текст в изображение. Тези мултимодални системи демонстрират, че механизмите за внимание са изключително гъвкави и могат да обединят различни типове данни в рамките на една архитектура.
Предимства и Недостатъци
Механизми за внимание във зрението
Предимства
+Улавя глобалния контекст
+Силен при работа с големи набори от данни
+Интерпретируеми карти на вниманието
+Гъвкава архитектура
Потребителски профил
−Висока изчислителна цена
−Изисква много данни
−Сложност, базирана на пачове
−По-малко индуктивно отклонение
Внимание в НЛП
Предимства
+Обработва дълги зависимости
+Паралелно обучение
+Подкрепя съвременните магистри по право (LLM)
+Богато трансферно обучение
Потребителски профил
−Квадратна сложност
−Ограничения на дължината на контекста
−Рискове от халюцинации
−Интензивно използване на ресурси
Често срещани заблуди
Миф
Механизмите за внимание във зрението и НЛП са напълно различни технологии.
Реалност
Те споделят една и съща математическа основа за изчисляване на претеглени суми, базирани на взаимодействията между заявка и ключ и стойност. Разликите се състоят главно в начина, по който са структурирани входните данни и каква позиционна информация се добавя, а не в самия основен механизъм.
Миф
Vision Transformers работят добре дори с малки набори от данни.
Реалност
За разлика от конволюционните конволюционни мрежи (CNN), които имат вградени индуктивни отклонения, ViT-овете обикновено изискват огромни набори от данни (често стотици милиони изображения), за да превъзхождат конволюционните подходи. При по-малки набори от данни CNN често все още печелят, освен ако не се приложи силна регуларизация или предварително обучение.
Миф
Вниманието в НЛП означава, че моделът наистина разбира езика.
Реалност
Вниманието е изчислителен механизъм за претегляне на входните данни, а не гаранция за разбиране. Големите езикови модели могат да генерират плавен текст, като същевременно допускат грешки в разсъжденията, халюцинират факти или се провалят в прости логически задачи.
Миф
Вниманието замества изцяло конволюционните и рекурентните мрежи.
Реалност
Хибридните архитектури остават популярни и често се представят по-добре от моделите, основани единствено на внимание. Конволюционните слоеве все още се срещат в много съвременни визуални системи, а някои NLP модели се възползват от смесването на вниманието с други подходи.
Миф
Картите на вниманието показват директно за какво мисли моделът.
Реалност
Тежестите на вниманието не винаги са надеждни обяснения за поведението на модела. Изследванията показват, че разпределенията на вниманието не са непременно свързани с важността на характеристиките и тълкуването им изисква предпазливост.
Често задавани въпроси
Каква е основната разлика между вниманието във зрението и НЛП?
Зрителното внимание работи върху 2D пространствени структури, като например области на изображението, и се фокусира върху идентифицирането на важни региони, докато NLP вниманието работи върху 1D последователности от маркери, за да улови връзките между думите. И двете използват подобни математически формулировки, но се различават по начина, по който се кодира позиционната информация и как се прилага маскирането.
Механизмите за внимание произлизат ли от НЛП или от компютърното зрение?
Съвременните механизми за внимание произхождат от НЛП, като статията „Трансформър“ от Васвани и др. от 2017 г. е ключов момент. „Трансформърите на зрението“ (ViT) се появяват по-късно, през 2020 г., адаптирайки същите принципи на самовниманието от езика към изображенията, като ги третират като поредици от фрагменти.
Могат ли механизмите за внимание да обработват дълги поредици или изображения с висока резолюция?
Стандартното самовнимание има квадратична сложност, което го прави скъпо за дълги входни данни. Изследователите са разработили ефективни варианти като Linformer, Performer и Longformer за NLP и Swin Transformer или MaxViT за зрение, които намаляват изчислителните разходи, като същевременно запазват производителността.
Защо Vision Transformers се нуждаят от толкова много данни за обучение?
За разлика от CNN, които имат вградени предположения за локалност и инвариантност на транслацията, ViT-овете трябва да научат тези пространствени взаимоотношения от нулата чрез внимание. Без достатъчно данни, те са склонни да пренапасват, поради което често е необходимо мащабно предварително обучение върху набори от данни като JFT-300M.
Как кръстосаното внимание свързва зрителните и езиковите модели?
Кръстосаното внимание позволява на маркерите на една модалност да се съсредоточат върху тези на друга, което дава възможност на модели като CLIP да подравняват изображения с текстови описания. Този механизъм е фундаментален за мултимодалните системи, които извършват надписване на изображения, визуални отговори на въпроси и генериране на текст в изображение.
Полезни ли са теглата на вниманието за интерпретируемостта на модела?
Тежестите на вниманието могат да дадат известна представа за това върху кои входни данни се фокусира моделът, но не трябва да се третират като окончателни обяснения. Проучванията показват, че вниманието не винаги корелира с важността на характеристиките и други методи за интерпретируемост може да са по-надеждни.
Какво е многоглаво внимание и защо е важно?
Многоглавото внимание изпълнява няколко операции за внимание паралелно, като всяка се учи да се фокусира върху различни видове взаимоотношения. В НЛП едната глава може да проследява синтактични зависимости, докато другата улавя семантично сходство. При зрението различните глави могат да обръщат внимание на различни пространствени модели или части от обекти едновременно.
Визуалните модели използват ли причинно-следствена маскировка като NLP декодерите?
Повечето визуални модели използват двупосочно внимание без причинно-следствено маскиране, защото разбирането на изображение не изисква последователен ред. Маскираните автоенкодери обаче скриват случайни участъци по време на обучението, за да насърчат модела да научи устойчиви представяния, подобни по дух, но различни по предназначение.
По какво се различават позиционните вграждания между визията и НЛП?
NLP използва 1D позиционни вграждания, за да кодира реда на маркерите в последователност, докато моделите на зрение се нуждаят от 2D позиционни вграждания, за да запазят пространствените взаимоотношения по височина и ширина на изображението. Някои усъвършенствани модели на зрение също използват кодиране на относителна позиция, за да се справят по-добре с различни резолюции на изображението.
Ще останат ли механизмите за внимание доминиращи в ИИ?
Архитектурите, базирани на вниманието, понастоящем водят в повечето тестове за изкуствен интелект, но продължават изследванията на алтернативи като модели на пространството на състоянията (Mamba), смес от експерти и нови архитектури. Областта се развива бързо и хибридните подходи, комбиниращи вниманието с други механизми, могат да оформят следващото поколение модели.
Решение
Изберете визуално внимание, когато задачата ви включва разбиране на пространствените взаимоотношения в изображения или видео, особено когато имате големи набори от данни и се нуждаете от прецизна локализация. Изберете NLP внимание, когато работите с последователни текстови данни, изискващи разбиране на контекста, генериране или превод. За мултимодални проекти, комбинирането на двете чрез кръстосано внимание често дава най-добри резултати.