süni intellektdərin öyrənmədiqqət mexanizmlərikompüter görmənlptransformatorlar
Vizyonda Diqqət Mexanizmləri və NLP-də Diqqət
Diqqət mexanizmləri müasir süni intellektlə həm kompüter görmə, həm də təbii dil emalı sahəsində əlaqə qurur, lakin onlar fərqli məqsədlərə xidmət edir və fərqli yollar boyunca inkişaf edir. Görmə diqqəti modellərin müvafiq görüntü bölgələrinə diqqət yetirməsinə kömək edir, NLP diqqəti isə mətn ardıcıllığında söz əlaqələrini anlamağa imkan verir.
Seçilmişlər
Görmə diqqəti məkan bölgələrinə yönəlir, NLP diqqəti isə ardıcıllıqlar arasında simvolik əlaqələri ələ keçirir.
NLP diqqəti görmə diqqətindən əvvəl yaranmışdır və Transformator memarlığı illər sonra Vision Transformers-a ilham verir.
Vizyon modelləri 2D mövqe yerləşdirmələrindən istifadə edir, NLP modelləri isə 1D mövqe məlumatlarına əsaslanır.
Çarpaz diqqət artıq hər iki sahəni birləşdirir və CLIP və GPT-4V kimi güclü multimodal süni intellekt sistemlərini aktivləşdirir.
Görmədə Diqqət Mexanizmləri nədir?
Görmə modellərinə şəkillər və videolardakı vacib məkan bölgələrinə və ya xüsusiyyətlərə seçici şəkildə diqqət yetirməyə imkan verən üsullar.
Vision Transformers (ViT) şəkilləri yamalara bölür və özünə diqqət tətbiq edərək ImageNet-də ən müasir nəticələr əldə edir.
Məkan diqqəti, modellərə obyekt aşkarlanması və seqmentləşdirilməsi kimi tapşırıqlar üçün görüntünün hansı hissələrinin ən vacib olduğunu müəyyən etməyə kömək edir.
Squeeze-and-Həyəcan şəbəkələri tərəfindən populyarlaşan kanal diqqəti, filtr kanalları boyunca xüsusiyyət cavablarını yenidən kalibrləyir.
Diqqətə əsaslanan görmə modelləri, adətən milyonlarla şəkil olan kifayət qədər təlim məlumatları mövcud olduqda, CNN-lərdən daha yaxşı nəticə göstərir.
CLIP kimi görmə dili modellərində çarpaz diqqət, multimodal anlaşma üçün şəkil yamalarını mətn işarələri ilə uyğunlaşdırır.
NLP-də diqqət nədir?
Ardıcıl mətn məlumatlarını emal edərkən dil modellərinə müxtəlif sözlərin və işarələrin əhəmiyyətini qiymətləndirməyə imkan verən metodlar.
2017-ci ildə təqdim edilən Transformer arxitekturası tamamilə özünə diqqətə əsaslanır və NLP-də inqilab yaratdı.
Özünə diqqət, ardıcıllıqdakı hər bir tokenin digər tokenə diqqət yetirməsinə imkan verir və uzunmüddətli asılılıqları ələ keçirir.
Çoxbaşlı diqqət, modellərin eyni anda müxtəlif münasibət növlərinə diqqət yetirməsinə imkan verən bir neçə diqqət əməliyyatını paralel olaraq həyata keçirir.
GPT kimi dekoder modellərində səbəb maskalanması, mətn generasiyası zamanı hər bir tokenin yalnız əvvəlki tokenlərə aid olmasını təmin edir.
Diqqət mexanizmləri tərcümə, ümumiləşdirmə və dil modelləşdirməsi üçün dominant yanaşma kimi RNN və LSTM-ləri əvəz etdi.
Müqayisə Cədvəli
Xüsusiyyət
Görmədə Diqqət Mexanizmləri
NLP-də diqqət
Əsas Giriş Növü
Şəkillər, video çərçivələr və ya vizual yamalar
Mətn işarələri, sözlər və ya alt söz vahidləri
Diqqət Dənəvərliyi
Məkan bölgələri, yamalar və ya xüsusiyyət kanalları
Ardıcıllıqlar üzrə Token-Token əlaqələri
Mənşə Memarlığı
Vision Transformator (ViT), DETR, SE-Net
Orijinal Transformator kodlayıcı-dekoder (Vaswani və digərləri, 2017)
Hesablama Mürəkkəbliyi
Təsvir qətnaməsi ilə kvadratik; yamaq əsaslı metodlar xərcləri azaldır
Ardıcıllıq uzunluğuna malik kvadratik; seyrək diqqət variantları mövcuddur
Tipik İstifadə Halları
Şəkil təsnifatı, obyekt aşkarlanması, seqmentləşdirmə, video anlayışı
Tərcümə, mətn yaratmaq, sual-cavab, ümumiləşdirmə
Maskalama Strategiyası
Adətən səbəb-nəticə maskası olmur; iki istiqamətli diqqət yayınır
Dekoderlər üçün səbəb-nəticə maskalanması; kodlayıcılar üçün iki istiqamətli
Mövqe Məlumatı
Məkan quruluşu üçün 2D mövqe yerləşdirmələri
Token sifarişi üçün 1D mövqe yerləşdirmələri
Məlumat Tələbləri
ImageNet və ya JFT-300M kimi genişmiqyaslı şəkil məlumat dəstləri
Common Crawl və ya Wikipedia kimi böyük mətn korpusları
Ətraflı Müqayisə
Əsas Məqsəd və Funksiya
Görmə diqqəti, modellərə təsvirin hara baxacaqlarına qərar verməyə kömək edir və əsasən müəyyən bir tapşırıq üçün ən uyğun məlumatı daşıyan məkan bölgələrini vurğulayır. Digər tərəfdən, NLP diqqəti, sözlərin cümlə daxilində və ya sənəd boyunca bir-biri ilə necə əlaqəli olduğunu müəyyən edir və məsafədən asılı olmayaraq semantik asılılıqları ələ keçirir. Hər ikisi eyni fundamental ağırlıqlı əhəmiyyət ideyasını bölüşür, lakin onların fəaliyyət göstərdiyi strukturlar əhəmiyyətli dərəcədə fərqlənir.
Memarlıq Təkamülü
NLP diqqəti ilk olaraq müasir formasında ortaya çıxdı və 2017-ci ildə nəşr olunan Transformer məqaləsində özünə diqqətin dil anlayışının əsasını təşkil etdiyi bildirildi. Görmə diqqəti bu NLP nailiyyətlərindən çox şey götürdü və Vision Transformers 2020-ci ildə təmiz diqqətə əsaslanan arxitekturaların konvolyusiya şəbəkələri ilə uyğunlaşa və ya üstələyə biləcəyini nümayiş etdirdi. O vaxtdan bəri, iki sahə çarpaz tozlanmaya davam etdi və çarpaz diqqət kimi üsullar artıq multimodal modellərdə görmə və dili körpüləşdirir.
Hesablama Mülahizələri
Hər ikisi kvadratik mürəkkəblik problemləri ilə üzləşir, lakin miqyas fərqlidir. NLP modelləri yüzlərlə ilə yüz minlərlə tokenə qədər ardıcıllıqla işləyir, görmə modelləri isə yüksək qətnamədə minlərlə yamaq ehtiva edə bilən şəkilləri idarə etməlidir. Görmə tədqiqatçıları Swin Transformer-in pəncərəli diqqəti kimi səmərəli variantlar hazırlamışlar, NLP isə daha uzun kontekstləri idarə etmək üçün seyrək və xətti diqqət metodları hazırlamışdır.
Maskalama və İstiqamətləndirmə
Əsas fərq diqqətin necə axmasıdır. NLP dekoder modelləri səbəb-nəticə maskalanmasından istifadə edir, buna görə də hər bir işarə yalnız əvvəlki işarələri görür ki, bu da avtoreqressiv mətn generasiyası üçün vacibdir. Görmə modelləri adətən iki istiqamətli diqqətdən istifadə edir, çünki bir görüntünü anlamaq üçün soldan sağa sıra tələb olunmur. Bəzi görmə tapşırıqları, xüsusən də təlim zamanı giriş hissələrinin gizlədildiyi maskalı avtoenkoderlərdə maskalı diqqətdən istifadə edir.
Mövqe Kodlaşdırması
Mətnin təbii ardıcıllıq sırası olduğundan, NLP modelə hər bir tokenin ardıcıllıqda harada yerləşdiyini bildirmək üçün 1D mövqe yerləşdirmələrindən istifadə edir. Görmə, şəkillərin hündürlük və en ölçülərinə malik olduğundan, yamalar arasında məkan əlaqələrini qorumaq üçün 2D mövqe yerləşdirmələri tələb edir. Bu fərq, hər bir sahənin yerləşdirmə sxemlərini necə dizayn etdiyinə və modellərin müxtəlif giriş ölçülərinə necə ümumiləşdirildiyinə təsir göstərir.
Domenlərarası Tətbiqlər
Görmə və NLP diqqəti arasındakı sərhəd xeyli dərəcədə bulanmışdır. CLIP, DALL-E və Flamingo kimi modellər vizual və mətn təsvirlərini birləşdirmək üçün çarpaz diqqətdən istifadə edir və şəkil başlıqları, vizual sual cavabları və mətndən şəkilə generasiya kimi tapşırıqları yerinə yetirməyə imkan verir. Bu multimodal sistemlər diqqət mexanizmlərinin olduqca çevik olduğunu və müxtəlif məlumat növlərini tək bir arxitektura daxilində birləşdirə biləcəyini nümayiş etdirir.
Üstünlüklər və Eksikliklər
Görmədə Diqqət Mexanizmləri
Üstünlüklər
+Qlobal konteksti ələ keçirir
+Böyük verilənlər dəstlərində güclüdür
+Təfsir edilə bilən diqqət xəritələri
+Çevik memarlıq
Saxlayıcı
−Yüksək hesablama dəyəri
−Çoxlu məlumat tələb edir
−Yamaq əsaslı mürəkkəblik
−Daha az induktiv qərəz
NLP-də diqqət
Üstünlüklər
+Uzun asılılıqları idarə edir
+Paralelləşdirilə bilən təlim
+Müasir LLM-lərə səlahiyyət verir
+Zəngin transfer öyrənməsi
Saxlayıcı
−Kvadratik mürəkkəblik
−Kontekst uzunluğu limitləri
−Halüsinasiya riskləri
−Resurs tələb edən
Yaygın yanlış anlaşılmalar
Əfsanə
Görmə və NLP-də diqqət mexanizmləri tamamilə fərqli texnologiyalardır.
Həqiqət
Onlar sorğu-açar-dəyər qarşılıqlı təsirlərinə əsaslanan ağırlıqlı cəmlərin hesablanmasının eyni riyazi əsasını bölüşürlər. Fərqlər əsasən girişlərin necə qurulduğunda və hansı mövqe məlumatlarının əlavə edildiyindədir, əsas mexanizmin özündə deyil.
Əfsanə
Vision Transformers hətta kiçik məlumat dəstləri ilə də yaxşı işləyir.
Həqiqət
Daxili induktiv qərəzlərə malik CNN-lərdən fərqli olaraq, ViT-lər konvolyusiya yanaşmalarından daha yaxşı nəticə göstərmək üçün adətən böyük məlumat dəstləri (çox vaxt yüz milyonlarla şəkil) tələb edir. Kiçik məlumat dəstlərində güclü nizamlama və ya əvvəlcədən təlim tətbiq edilmədikcə CNN-lər tez-tez qalib gəlirlər.
Əfsanə
NLP-də diqqət, modelin dili həqiqətən başa düşdüyü deməkdir.
Həqiqət
Diqqət, giriş məlumatlarını ölçmək üçün hesablama mexanizmidir, anlama zəmanəti deyil. Böyük dil modelləri, məntiqi səhvlər buraxarkən, faktları halüsinasiya edərkən və ya sadə məntiqi tapşırıqlarda uğursuz olarkən, səlis mətn yarada bilər.
Əfsanə
Diqqət, konvolyusiya və təkrarlanan şəbəkələri tamamilə əvəz etməkdir.
Həqiqət
Hibrid arxitekturalar populyar olaraq qalır və çox vaxt təmiz diqqət modellərindən daha yaxşı nəticə göstərir. Konvolyusiya təbəqələri hələ də bir çox müasir görmə sistemlərində görünür və bəzi NLP modelləri diqqəti digər yanaşmalarla qarışdırmaqdan faydalanır.
Əfsanə
Diqqət xəritələri modelin nə düşündüyünü birbaşa göstərir.
Həqiqət
Diqqət çəkiləri həmişə model davranışının etibarlı izahı deyil. Tədqiqatlar göstərir ki, diqqət paylanması mütləq xüsusiyyətin əhəmiyyəti ilə əlaqəli deyil və onları şərh etmək ehtiyatlılıq tələb edir.
Tez-tez verilən suallar
Görmədə diqqət və NLP arasındakı əsas fərq nədir?
Görmə diqqəti, görüntü yamaları kimi 2D məkan strukturları üzərində işləyir və vacib bölgələrin müəyyən edilməsinə yönəlir, NLP diqqəti isə sözlər arasındakı əlaqələri ələ keçirmək üçün 1D işarə ardıcıllığı üzərində işləyir. Hər ikisi oxşar riyazi formullardan istifadə edir, lakin mövqe məlumatlarının necə kodlandığı və maskalanmanın necə tətbiq olunduğu ilə fərqlənir.
Diqqət mexanizmləri NLP-dən, yoxsa kompüter görməsindən yaranıb?
Müasir diqqət mexanizmləri NLP-də yaranıb və Vasvani və digərlərinin 2017-ci ildə yazdığı Transformer məqaləsi əlamətdar bir məqam olub. Vizyon Transformerləri (ViT) 2020-ci ilin sonlarında ortaya çıxdı və eyni özünə diqqət prinsiplərini dildən görüntülərə uyğunlaşdıraraq onları yamalar ardıcıllığı kimi qəbul etdi.
Diqqət mexanizmləri uzun ardıcıllıqları və ya yüksək qətnaməli şəkilləri idarə edə bilərmi?
Standart özünə diqqət kvadratik mürəkkəbliyə malikdir və bu da uzun girişlər üçün baha başa gəlir. Tədqiqatçılar NLP üçün Linformer, Performer və Longformer, görmə üçün isə Swin Transformer və ya MaxViT kimi səmərəli variantlar hazırlamışlar ki, bu da performansı qoruyarkən hesablama xərclərini azaldır.
Vision Transformers-in niyə bu qədər təlim məlumatlarına ehtiyacı var?
Yerlilik və tərcümə dəyişməzliyi haqqında daxili fərziyyələrə malik CNN-lərdən fərqli olaraq, ViT-lər bu məkan əlaqələrini sıfırdan diqqət vasitəsilə öyrənməlidirlər. Kifayət qədər məlumat olmadan onlar həddindən artıq uyğunlaşmağa meyllidirlər, buna görə də JFT-300M kimi məlumat dəstləri üzərində genişmiqyaslı əvvəlcədən təlim tez-tez zəruridir.
Çarpaz diqqət görmə və dil modellərini necə birləşdirir?
Çarpaz diqqət bir modallığın tokenlərinə digərinin tokenlərinə diqqət yetirməyə imkan verir və bu da CLIP kimi modellərin şəkil yamalarını mətn təsvirləri ilə uyğunlaşdırmasına imkan verir. Bu mexanizm şəkil başlıqları, vizual sual cavabları və mətndən şəkilə generasiyanı həyata keçirən multimodal sistemlər üçün əsasdır.
Diqqət çəkiləri modelin interpretasiyası üçün faydalıdırmı?
Diqqət çəkiləri modelin hansı girişlərə diqqət yetirdiyinə dair müəyyən məlumat verə bilər, lakin onlar qəti izahat kimi qəbul edilməməlidir. Tədqiqatlar göstərir ki, diqqət həmişə xüsusiyyətin əhəmiyyəti ilə əlaqəli deyil və digər interpretasiya metodları daha etibarlı ola bilər.
Çoxbaşlı diqqət nədir və nə üçün vacibdir?
Çoxbaşlı diqqət paralel olaraq bir neçə diqqət əməliyyatı həyata keçirir və hər biri müxtəlif münasibət növlərinə diqqət yetirməyi öyrənir. NLP-də bir baş sintaktik asılılıqları izləyə bilər, digəri isə semantik oxşarlığı ələ keçirə bilər. Görmədə fərqli başlar eyni anda müxtəlif məkan nümunələrinə və ya obyekt hissələrinə diqqət yetirə bilər.
Görmə modelləri NLP dekoderləri kimi səbəb maskalamasından istifadə edirmi?
Görmə modellərinin əksəriyyəti səbəb-nəticə maskası olmadan iki istiqamətli diqqətdən istifadə edir, çünki təsviri anlamaq üçün ardıcıllıq tələb olunmur. Bununla belə, maskalı avtoenkoderlər, modeli mahiyyətcə oxşar, lakin məqsədcə fərqli olan güclü təsvirləri öyrənməyə təşviq etmək üçün təlim zamanı təsadüfi yamaları gizlədirlər.
Mövqe yerləşdirmələri görmə və NLP arasında necə fərqlənir?
NLP ardıcıllıqla token sırasını kodlaşdırmaq üçün 1D mövqe yerləşdirmələrindən istifadə edir, görmə modelləri isə görüntü hündürlüyü və eni arasında məkan əlaqələrini qorumaq üçün 2D mövqe yerləşdirmələrinə ehtiyac duyur. Bəzi inkişaf etmiş görmə modelləri də müxtəlif görüntü qətnamələrini daha yaxşı idarə etmək üçün nisbi mövqe kodlaşdırmasından istifadə edir.
Süni intellektdə diqqət mexanizmləri dominant olaraq qalacaqmı?
Diqqətə əsaslanan arxitekturalar hazırda əksər süni intellekt etalonlarında liderlik edir, lakin vəziyyət məkanı modelləri (Mamba), mütəxəssislərin qarışığı və yeni arxitekturalar kimi alternativlər üzərində tədqiqatlar davam edir. Bu sahə sürətlə inkişaf edir və diqqəti digər mexanizmlərlə birləşdirən hibrid yanaşmalar növbəti nəsil modelləri formalaşdıra bilər.
Hökm
Tapşırığınız şəkillərdə və ya videolarda məkan əlaqələrini anlamağı əhatə etdikdə, xüsusən də böyük məlumat dəstləriniz olduqda və incə lokalizasiyaya ehtiyacınız olduqda, görmə diqqətini seçin. Kontekst anlayışı, generasiyası və ya tərcüməsi tələb edən ardıcıl mətn məlumatları ilə işləyərkən NLP diqqətini seçin. Multimodal layihələr üçün hər ikisini çarpaz diqqət vasitəsilə birləşdirmək çox vaxt ən yaxşı nəticələr verir.