süni intellektdərin öyrənmədiqqət mexanizmlərikompüter görmənlptransformatorlar

Vizyonda Diqqət Mexanizmləri və NLP-də Diqqət

Diqqət mexanizmləri müasir süni intellektlə həm kompüter görmə, həm də təbii dil emalı sahəsində əlaqə qurur, lakin onlar fərqli məqsədlərə xidmət edir və fərqli yollar boyunca inkişaf edir. Görmə diqqəti modellərin müvafiq görüntü bölgələrinə diqqət yetirməsinə kömək edir, NLP diqqəti isə mətn ardıcıllığında söz əlaqələrini anlamağa imkan verir.

Seçilmişlər

Görmə diqqəti məkan bölgələrinə yönəlir, NLP diqqəti isə ardıcıllıqlar arasında simvolik əlaqələri ələ keçirir.
NLP diqqəti görmə diqqətindən əvvəl yaranmışdır və Transformator memarlığı illər sonra Vision Transformers-a ilham verir.
Vizyon modelləri 2D mövqe yerləşdirmələrindən istifadə edir, NLP modelləri isə 1D mövqe məlumatlarına əsaslanır.
Çarpaz diqqət artıq hər iki sahəni birləşdirir və CLIP və GPT-4V kimi güclü multimodal süni intellekt sistemlərini aktivləşdirir.

Görmədə Diqqət Mexanizmləri nədir?

Görmə modellərinə şəkillər və videolardakı vacib məkan bölgələrinə və ya xüsusiyyətlərə seçici şəkildə diqqət yetirməyə imkan verən üsullar.

Vision Transformers (ViT) şəkilləri yamalara bölür və özünə diqqət tətbiq edərək ImageNet-də ən müasir nəticələr əldə edir.
Məkan diqqəti, modellərə obyekt aşkarlanması və seqmentləşdirilməsi kimi tapşırıqlar üçün görüntünün hansı hissələrinin ən vacib olduğunu müəyyən etməyə kömək edir.
Squeeze-and-Həyəcan şəbəkələri tərəfindən populyarlaşan kanal diqqəti, filtr kanalları boyunca xüsusiyyət cavablarını yenidən kalibrləyir.
Diqqətə əsaslanan görmə modelləri, adətən milyonlarla şəkil olan kifayət qədər təlim məlumatları mövcud olduqda, CNN-lərdən daha yaxşı nəticə göstərir.
CLIP kimi görmə dili modellərində çarpaz diqqət, multimodal anlaşma üçün şəkil yamalarını mətn işarələri ilə uyğunlaşdırır.

NLP-də diqqət nədir?

Ardıcıl mətn məlumatlarını emal edərkən dil modellərinə müxtəlif sözlərin və işarələrin əhəmiyyətini qiymətləndirməyə imkan verən metodlar.

2017-ci ildə təqdim edilən Transformer arxitekturası tamamilə özünə diqqətə əsaslanır və NLP-də inqilab yaratdı.
Özünə diqqət, ardıcıllıqdakı hər bir tokenin digər tokenə diqqət yetirməsinə imkan verir və uzunmüddətli asılılıqları ələ keçirir.
Çoxbaşlı diqqət, modellərin eyni anda müxtəlif münasibət növlərinə diqqət yetirməsinə imkan verən bir neçə diqqət əməliyyatını paralel olaraq həyata keçirir.
GPT kimi dekoder modellərində səbəb maskalanması, mətn generasiyası zamanı hər bir tokenin yalnız əvvəlki tokenlərə aid olmasını təmin edir.
Diqqət mexanizmləri tərcümə, ümumiləşdirmə və dil modelləşdirməsi üçün dominant yanaşma kimi RNN və LSTM-ləri əvəz etdi.

Müqayisə Cədvəli

Xüsusiyyət	Görmədə Diqqət Mexanizmləri	NLP-də diqqət
Əsas Giriş Növü	Şəkillər, video çərçivələr və ya vizual yamalar	Mətn işarələri, sözlər və ya alt söz vahidləri
Diqqət Dənəvərliyi	Məkan bölgələri, yamalar və ya xüsusiyyət kanalları	Ardıcıllıqlar üzrə Token-Token əlaqələri
Mənşə Memarlığı	Vision Transformator (ViT), DETR, SE-Net	Orijinal Transformator kodlayıcı-dekoder (Vaswani və digərləri, 2017)
Hesablama Mürəkkəbliyi	Təsvir qətnaməsi ilə kvadratik; yamaq əsaslı metodlar xərcləri azaldır	Ardıcıllıq uzunluğuna malik kvadratik; seyrək diqqət variantları mövcuddur
Tipik İstifadə Halları	Şəkil təsnifatı, obyekt aşkarlanması, seqmentləşdirmə, video anlayışı	Tərcümə, mətn yaratmaq, sual-cavab, ümumiləşdirmə
Maskalama Strategiyası	Adətən səbəb-nəticə maskası olmur; iki istiqamətli diqqət yayınır	Dekoderlər üçün səbəb-nəticə maskalanması; kodlayıcılar üçün iki istiqamətli
Mövqe Məlumatı	Məkan quruluşu üçün 2D mövqe yerləşdirmələri	Token sifarişi üçün 1D mövqe yerləşdirmələri
Məlumat Tələbləri	ImageNet və ya JFT-300M kimi genişmiqyaslı şəkil məlumat dəstləri	Common Crawl və ya Wikipedia kimi böyük mətn korpusları

Ətraflı Müqayisə

Əsas Məqsəd və Funksiya

Görmə diqqəti, modellərə təsvirin hara baxacaqlarına qərar verməyə kömək edir və əsasən müəyyən bir tapşırıq üçün ən uyğun məlumatı daşıyan məkan bölgələrini vurğulayır. Digər tərəfdən, NLP diqqəti, sözlərin cümlə daxilində və ya sənəd boyunca bir-biri ilə necə əlaqəli olduğunu müəyyən edir və məsafədən asılı olmayaraq semantik asılılıqları ələ keçirir. Hər ikisi eyni fundamental ağırlıqlı əhəmiyyət ideyasını bölüşür, lakin onların fəaliyyət göstərdiyi strukturlar əhəmiyyətli dərəcədə fərqlənir.

Memarlıq Təkamülü

NLP diqqəti ilk olaraq müasir formasında ortaya çıxdı və 2017-ci ildə nəşr olunan Transformer məqaləsində özünə diqqətin dil anlayışının əsasını təşkil etdiyi bildirildi. Görmə diqqəti bu NLP nailiyyətlərindən çox şey götürdü və Vision Transformers 2020-ci ildə təmiz diqqətə əsaslanan arxitekturaların konvolyusiya şəbəkələri ilə uyğunlaşa və ya üstələyə biləcəyini nümayiş etdirdi. O vaxtdan bəri, iki sahə çarpaz tozlanmaya davam etdi və çarpaz diqqət kimi üsullar artıq multimodal modellərdə görmə və dili körpüləşdirir.

Hesablama Mülahizələri

Hər ikisi kvadratik mürəkkəblik problemləri ilə üzləşir, lakin miqyas fərqlidir. NLP modelləri yüzlərlə ilə yüz minlərlə tokenə qədər ardıcıllıqla işləyir, görmə modelləri isə yüksək qətnamədə minlərlə yamaq ehtiva edə bilən şəkilləri idarə etməlidir. Görmə tədqiqatçıları Swin Transformer-in pəncərəli diqqəti kimi səmərəli variantlar hazırlamışlar, NLP isə daha uzun kontekstləri idarə etmək üçün seyrək və xətti diqqət metodları hazırlamışdır.

Maskalama və İstiqamətləndirmə

Əsas fərq diqqətin necə axmasıdır. NLP dekoder modelləri səbəb-nəticə maskalanmasından istifadə edir, buna görə də hər bir işarə yalnız əvvəlki işarələri görür ki, bu da avtoreqressiv mətn generasiyası üçün vacibdir. Görmə modelləri adətən iki istiqamətli diqqətdən istifadə edir, çünki bir görüntünü anlamaq üçün soldan sağa sıra tələb olunmur. Bəzi görmə tapşırıqları, xüsusən də təlim zamanı giriş hissələrinin gizlədildiyi maskalı avtoenkoderlərdə maskalı diqqətdən istifadə edir.

Mövqe Kodlaşdırması

Mətnin təbii ardıcıllıq sırası olduğundan, NLP modelə hər bir tokenin ardıcıllıqda harada yerləşdiyini bildirmək üçün 1D mövqe yerləşdirmələrindən istifadə edir. Görmə, şəkillərin hündürlük və en ölçülərinə malik olduğundan, yamalar arasında məkan əlaqələrini qorumaq üçün 2D mövqe yerləşdirmələri tələb edir. Bu fərq, hər bir sahənin yerləşdirmə sxemlərini necə dizayn etdiyinə və modellərin müxtəlif giriş ölçülərinə necə ümumiləşdirildiyinə təsir göstərir.

Domenlərarası Tətbiqlər

Görmə və NLP diqqəti arasındakı sərhəd xeyli dərəcədə bulanmışdır. CLIP, DALL-E və Flamingo kimi modellər vizual və mətn təsvirlərini birləşdirmək üçün çarpaz diqqətdən istifadə edir və şəkil başlıqları, vizual sual cavabları və mətndən şəkilə generasiya kimi tapşırıqları yerinə yetirməyə imkan verir. Bu multimodal sistemlər diqqət mexanizmlərinin olduqca çevik olduğunu və müxtəlif məlumat növlərini tək bir arxitektura daxilində birləşdirə biləcəyini nümayiş etdirir.

Üstünlüklər və Eksikliklər

Görmədə Diqqət Mexanizmləri

Üstünlüklər

+ Qlobal konteksti ələ keçirir
+ Böyük verilənlər dəstlərində güclüdür
+ Təfsir edilə bilən diqqət xəritələri
+ Çevik memarlıq

Saxlayıcı

− Yüksək hesablama dəyəri
− Çoxlu məlumat tələb edir
− Yamaq əsaslı mürəkkəblik
− Daha az induktiv qərəz

NLP-də diqqət

Üstünlüklər

+ Uzun asılılıqları idarə edir
+ Paralelləşdirilə bilən təlim
+ Müasir LLM-lərə səlahiyyət verir
+ Zəngin transfer öyrənməsi

Saxlayıcı

− Kvadratik mürəkkəblik
− Kontekst uzunluğu limitləri
− Halüsinasiya riskləri
− Resurs tələb edən

Yaygın yanlış anlaşılmalar

Əfsanə

Görmə və NLP-də diqqət mexanizmləri tamamilə fərqli texnologiyalardır.

Həqiqət

Onlar sorğu-açar-dəyər qarşılıqlı təsirlərinə əsaslanan ağırlıqlı cəmlərin hesablanmasının eyni riyazi əsasını bölüşürlər. Fərqlər əsasən girişlərin necə qurulduğunda və hansı mövqe məlumatlarının əlavə edildiyindədir, əsas mexanizmin özündə deyil.

Əfsanə

Vision Transformers hətta kiçik məlumat dəstləri ilə də yaxşı işləyir.

Həqiqət

Daxili induktiv qərəzlərə malik CNN-lərdən fərqli olaraq, ViT-lər konvolyusiya yanaşmalarından daha yaxşı nəticə göstərmək üçün adətən böyük məlumat dəstləri (çox vaxt yüz milyonlarla şəkil) tələb edir. Kiçik məlumat dəstlərində güclü nizamlama və ya əvvəlcədən təlim tətbiq edilmədikcə CNN-lər tez-tez qalib gəlirlər.

Əfsanə

NLP-də diqqət, modelin dili həqiqətən başa düşdüyü deməkdir.

Həqiqət

Diqqət, giriş məlumatlarını ölçmək üçün hesablama mexanizmidir, anlama zəmanəti deyil. Böyük dil modelləri, məntiqi səhvlər buraxarkən, faktları halüsinasiya edərkən və ya sadə məntiqi tapşırıqlarda uğursuz olarkən, səlis mətn yarada bilər.

Əfsanə

Diqqət, konvolyusiya və təkrarlanan şəbəkələri tamamilə əvəz etməkdir.

Həqiqət

Hibrid arxitekturalar populyar olaraq qalır və çox vaxt təmiz diqqət modellərindən daha yaxşı nəticə göstərir. Konvolyusiya təbəqələri hələ də bir çox müasir görmə sistemlərində görünür və bəzi NLP modelləri diqqəti digər yanaşmalarla qarışdırmaqdan faydalanır.

Əfsanə

Diqqət xəritələri modelin nə düşündüyünü birbaşa göstərir.

Həqiqət

Diqqət çəkiləri həmişə model davranışının etibarlı izahı deyil. Tədqiqatlar göstərir ki, diqqət paylanması mütləq xüsusiyyətin əhəmiyyəti ilə əlaqəli deyil və onları şərh etmək ehtiyatlılıq tələb edir.

Tez-tez verilən suallar

Görmədə diqqət və NLP arasındakı əsas fərq nədir?

Görmə diqqəti, görüntü yamaları kimi 2D məkan strukturları üzərində işləyir və vacib bölgələrin müəyyən edilməsinə yönəlir, NLP diqqəti isə sözlər arasındakı əlaqələri ələ keçirmək üçün 1D işarə ardıcıllığı üzərində işləyir. Hər ikisi oxşar riyazi formullardan istifadə edir, lakin mövqe məlumatlarının necə kodlandığı və maskalanmanın necə tətbiq olunduğu ilə fərqlənir.

Diqqət mexanizmləri NLP-dən, yoxsa kompüter görməsindən yaranıb?

Müasir diqqət mexanizmləri NLP-də yaranıb və Vasvani və digərlərinin 2017-ci ildə yazdığı Transformer məqaləsi əlamətdar bir məqam olub. Vizyon Transformerləri (ViT) 2020-ci ilin sonlarında ortaya çıxdı və eyni özünə diqqət prinsiplərini dildən görüntülərə uyğunlaşdıraraq onları yamalar ardıcıllığı kimi qəbul etdi.

Diqqət mexanizmləri uzun ardıcıllıqları və ya yüksək qətnaməli şəkilləri idarə edə bilərmi?

Standart özünə diqqət kvadratik mürəkkəbliyə malikdir və bu da uzun girişlər üçün baha başa gəlir. Tədqiqatçılar NLP üçün Linformer, Performer və Longformer, görmə üçün isə Swin Transformer və ya MaxViT kimi səmərəli variantlar hazırlamışlar ki, bu da performansı qoruyarkən hesablama xərclərini azaldır.

Vision Transformers-in niyə bu qədər təlim məlumatlarına ehtiyacı var?

Yerlilik və tərcümə dəyişməzliyi haqqında daxili fərziyyələrə malik CNN-lərdən fərqli olaraq, ViT-lər bu məkan əlaqələrini sıfırdan diqqət vasitəsilə öyrənməlidirlər. Kifayət qədər məlumat olmadan onlar həddindən artıq uyğunlaşmağa meyllidirlər, buna görə də JFT-300M kimi məlumat dəstləri üzərində genişmiqyaslı əvvəlcədən təlim tez-tez zəruridir.

Çarpaz diqqət görmə və dil modellərini necə birləşdirir?

Çarpaz diqqət bir modallığın tokenlərinə digərinin tokenlərinə diqqət yetirməyə imkan verir və bu da CLIP kimi modellərin şəkil yamalarını mətn təsvirləri ilə uyğunlaşdırmasına imkan verir. Bu mexanizm şəkil başlıqları, vizual sual cavabları və mətndən şəkilə generasiyanı həyata keçirən multimodal sistemlər üçün əsasdır.

Diqqət çəkiləri modelin interpretasiyası üçün faydalıdırmı?

Diqqət çəkiləri modelin hansı girişlərə diqqət yetirdiyinə dair müəyyən məlumat verə bilər, lakin onlar qəti izahat kimi qəbul edilməməlidir. Tədqiqatlar göstərir ki, diqqət həmişə xüsusiyyətin əhəmiyyəti ilə əlaqəli deyil və digər interpretasiya metodları daha etibarlı ola bilər.

Çoxbaşlı diqqət nədir və nə üçün vacibdir?

Çoxbaşlı diqqət paralel olaraq bir neçə diqqət əməliyyatı həyata keçirir və hər biri müxtəlif münasibət növlərinə diqqət yetirməyi öyrənir. NLP-də bir baş sintaktik asılılıqları izləyə bilər, digəri isə semantik oxşarlığı ələ keçirə bilər. Görmədə fərqli başlar eyni anda müxtəlif məkan nümunələrinə və ya obyekt hissələrinə diqqət yetirə bilər.

Görmə modelləri NLP dekoderləri kimi səbəb maskalamasından istifadə edirmi?

Görmə modellərinin əksəriyyəti səbəb-nəticə maskası olmadan iki istiqamətli diqqətdən istifadə edir, çünki təsviri anlamaq üçün ardıcıllıq tələb olunmur. Bununla belə, maskalı avtoenkoderlər, modeli mahiyyətcə oxşar, lakin məqsədcə fərqli olan güclü təsvirləri öyrənməyə təşviq etmək üçün təlim zamanı təsadüfi yamaları gizlədirlər.

Mövqe yerləşdirmələri görmə və NLP arasında necə fərqlənir?

NLP ardıcıllıqla token sırasını kodlaşdırmaq üçün 1D mövqe yerləşdirmələrindən istifadə edir, görmə modelləri isə görüntü hündürlüyü və eni arasında məkan əlaqələrini qorumaq üçün 2D mövqe yerləşdirmələrinə ehtiyac duyur. Bəzi inkişaf etmiş görmə modelləri də müxtəlif görüntü qətnamələrini daha yaxşı idarə etmək üçün nisbi mövqe kodlaşdırmasından istifadə edir.

Süni intellektdə diqqət mexanizmləri dominant olaraq qalacaqmı?

Diqqətə əsaslanan arxitekturalar hazırda əksər süni intellekt etalonlarında liderlik edir, lakin vəziyyət məkanı modelləri (Mamba), mütəxəssislərin qarışığı və yeni arxitekturalar kimi alternativlər üzərində tədqiqatlar davam edir. Bu sahə sürətlə inkişaf edir və diqqəti digər mexanizmlərlə birləşdirən hibrid yanaşmalar növbəti nəsil modelləri formalaşdıra bilər.

Hökm

Tapşırığınız şəkillərdə və ya videolarda məkan əlaqələrini anlamağı əhatə etdikdə, xüsusən də böyük məlumat dəstləriniz olduqda və incə lokalizasiyaya ehtiyacınız olduqda, görmə diqqətini seçin. Kontekst anlayışı, generasiyası və ya tərcüməsi tələb edən ardıcıl mətn məlumatları ilə işləyərkən NLP diqqətini seçin. Multimodal layihələr üçün hər ikisini çarpaz diqqət vasitəsilə birləşdirmək çox vaxt ən yaxşı nəticələr verir.

Əlaqəli müqayisələr

Açar söz axtarış motorları vs Vektor oxşarlığı axtarışı

Açar söz axtarış motorları tərs indekslərdən istifadə edərək dəqiq terminləri uyğunlaşdırır, vektor oxşarlığı axtarışı isə yüksək ölçülü yerləşdirmələr vasitəsilə semantik cəhətdən əlaqəli məzmun tapır. Hər iki yanaşma müasir məlumat axtarışını gücləndirir, lakin istifadəçi niyyətini necə şərh etdikləri və nəticələri necə sıraladıqları baxımından əsaslı şəkildə fərqlənir.

Açıq Çəkili Modellər və Qapalı Mənbəli Modellər

Açıq çəkili modellər təlim keçmiş parametrlərini ictimaiyyətə açıq şəkildə yayımlayır və hər kəsin onları yükləməsinə, yoxlamasına və dəqiq tənzimləməsinə imkan verir. Qapalı mənbəli modellər çəkilərini gizli saxlayır və yalnız API və ya hostinq məhsulları vasitəsilə giriş təklif edir. Aralarındakı seçim, tərtibatçıların süni intellekt sistemlərini necə qurduğunu, yerləşdirdiyini və etibar etdiyini formalaşdırır.

Açıq mənbəli İİ və Məxsusi İİ

Bu müqayisə açıq mənbəli süni intellekt ilə xüsusi mülkiyyətli süni intellekt arasındakı əsas fərqləri araşdırır, əlçatanlıq, fərdiləşdirmə, xərclər, dəstək, təhlükəsizlik, performans və real dünyada tətbiq hallarını əhatə edir, təşkilatların və tərtibatçıların hansı yanaşmanın onların məqsədlərinə və texniki imkanlarına uyğun gəldiyini müəyyən etməsinə kömək edir.

Açıq Mənbəli LLM-lər və Xüsusi LLM API-ləri

Açıq mənbəli LLM-lər tam kod girişi ilə özelleştirilebilir, özünəməxsus süni intellekt modelləri təklif edir, mülkiyyətçi LLM API-ləri isə istifadəyə əsaslanan qiymətlərlə bulud əsaslı son nöqtələr vasitəsilə idarə olunan, cilalanmış xidmətlər təqdim edir.

Adaptiv Axtarış və Statik Axtarış Boru Kəmərləri

Adaptiv axtarış sistemin sorğuya əsasən hansı məlumatı və necə əldə etdiyini dinamik şəkildə tənzimləyir, statik axtarış boru kəmərləri isə kontekstdən asılı olmayaraq sabit qaydalara əməl edir. Hər ikisi müasir süni intellekt tətbiqlərini gücləndirir, lakin onlar elastiklik, qiymət və dəqiqlik baxımından kəskin şəkildə fərqlənir. Aralarında seçim iş yükünün mürəkkəbliyindən və büdcədən asılıdır.