مصنوعی ذہانتگہری تعلیمتوجہ دینے کے طریقہ کارکمپیوٹر ویژناین ایل پیٹرانسفارمرز
وژن میں توجہ کا طریقہ کار بمقابلہ NLP میں توجہ
توجہ دینے کے طریقہ کار جدید AI کو کمپیوٹر ویژن اور قدرتی لینگویج پروسیسنگ دونوں میں طاقت دیتے ہیں، لیکن وہ الگ الگ مقاصد کی تکمیل کرتے ہیں اور مختلف راستوں پر تیار ہوتے ہیں۔ وژن کی توجہ ماڈلز کو متعلقہ تصویری خطوں پر توجہ مرکوز کرنے میں مدد دیتی ہے، جب کہ NLP توجہ متن کی ترتیب میں الفاظ کے تعلقات کو سمجھنے کے قابل بناتی ہے۔
اہم نکات
وژن کی توجہ مقامی علاقوں پر مرکوز ہے جبکہ NLP کی توجہ تمام ترتیبوں میں ٹوکن تعلقات کو حاصل کرتی ہے۔
این ایل پی کی توجہ وژن کی توجہ کی پیش گوئی کرتی ہے، ٹرانسفارمر فن تعمیر کے ساتھ وژن ٹرانسفارمرز کو برسوں بعد متاثر کرتا ہے۔
وژن ماڈلز 2D پوزیشنل ایمبیڈنگز کا استعمال کرتے ہیں جبکہ NLP ماڈلز 1D پوزیشنی معلومات پر انحصار کرتے ہیں۔
CLIP اور GPT-4V جیسے طاقتور ملٹی موڈل AI سسٹمز کو فعال کرتے ہوئے، دو طرفہ توجہ اب دونوں ڈومینز کو ملاتی ہے۔
وژن میں توجہ کا طریقہ کار کیا ہے؟
وہ تکنیکیں جو وژن ماڈلز کو منتخب طور پر اہم مقامی علاقوں یا تصاویر اور ویڈیوز کے اندر موجود خصوصیات پر توجہ مرکوز کرنے کی اجازت دیتی ہیں۔
وژن ٹرانسفارمرز (ViT) تصویروں کو پیچ میں تقسیم کرتے ہیں اور امیج نیٹ پر جدید ترین نتائج حاصل کرتے ہوئے خود توجہ دیتے ہیں۔
مقامی توجہ ماڈل کو یہ شناخت کرنے میں مدد کرتی ہے کہ تصویر کے کون سے حصے آبجیکٹ کا پتہ لگانے اور تقسیم کرنے جیسے کاموں کے لیے زیادہ اہمیت رکھتے ہیں۔
چینل کی توجہ، جو Squeeze-and-Excitation نیٹ ورکس کے ذریعے مقبول ہے، فلٹر چینلز میں فیچر ردعمل کو دوبارہ ترتیب دیتی ہے۔
توجہ پر مبنی وژن ماڈل اکثر CNN کو پیچھے چھوڑ دیتے ہیں جب تربیت کا کافی ڈیٹا دستیاب ہوتا ہے، عام طور پر لاکھوں تصاویر۔
وژن لینگویج ماڈلز میں کراس دھیان جیسے CLIP تصویری پیچ کو ملٹی موڈل تفہیم کے لیے ٹیکسٹ ٹوکنز کے ساتھ ترتیب دیتا ہے۔
NLP میں توجہ کیا ہے؟
وہ طریقے جو زبان کے ماڈلز کو ترتیب وار ٹیکسٹ ڈیٹا پر کارروائی کرتے وقت مختلف الفاظ اور ٹوکنز کی اہمیت کو جانچنے کے قابل بناتے ہیں۔
ٹرانسفارمر فن تعمیر، 2017 میں متعارف کرایا گیا، مکمل طور پر خود توجہ اور انقلابی NLP پر انحصار کرتا ہے۔
خود توجہ ایک ترتیب میں ہر ٹوکن کو ہر دوسرے ٹوکن میں شرکت کرنے کی اجازت دیتی ہے، طویل فاصلے تک انحصار کو حاصل کرتی ہے۔
ملٹی ہیڈ توجہ متوازی طور پر متعدد توجہ کے آپریشنز چلاتی ہے، جس سے ماڈلز کو بیک وقت مختلف رشتوں کی اقسام پر فوکس کرنے دیتا ہے۔
جی پی ٹی جیسے ڈیکوڈر ماڈلز میں کازل ماسکنگ اس بات کو یقینی بناتی ہے کہ ٹیکسٹ جنریشن کے دوران ہر ٹوکن صرف پچھلے ٹوکنز پر حاضر ہو۔
توجہ دینے کے طریقہ کار نے RNNs اور LSTMs کو ترجمہ، خلاصہ، اور زبان کی ماڈلنگ کے لیے غالب نقطہ نظر کے طور پر بدل دیا۔
تصویر کی قرارداد کے ساتھ چوکور؛ پیچ پر مبنی طریقے لاگت کو کم کرتے ہیں۔
ترتیب کی لمبائی کے ساتھ چوکور؛ ویرل توجہ کی مختلف حالتیں موجود ہیں۔
عام استعمال کے معاملات
تصویر کی درجہ بندی، آبجیکٹ کا پتہ لگانا، سیگمنٹیشن، ویڈیو سمجھنا
ترجمہ، متن کی تخلیق، سوال کا جواب، خلاصہ
ماسکنگ کی حکمت عملی
عام طور پر کوئی causal masking; دو طرفہ توجہ عام
ڈیکوڈرز کے لیے کازل ماسکنگ؛ انکوڈرز کے لیے دو طرفہ
پوزیشن کی معلومات
مقامی ساخت کے لیے 2D پوزیشنی ایمبیڈنگز
ٹوکن آرڈر کے لیے 1D پوزیشنل ایمبیڈنگز
ڈیٹا کے تقاضے
بڑے پیمانے پر تصویری ڈیٹا سیٹس جیسے ImageNet یا JFT-300M
کامن کرول یا ویکیپیڈیا جیسے بڑے ٹیکسٹ کارپورا
تفصیلی موازنہ
بنیادی مقصد اور فنکشن
وژن کی توجہ ماڈلز کو یہ فیصلہ کرنے میں مدد کرتی ہے کہ تصویر میں کہاں دیکھنا ہے، بنیادی طور پر ان مقامی علاقوں کو نمایاں کرتے ہوئے جو کسی کام کے لیے انتہائی متعلقہ معلومات رکھتے ہیں۔ دوسری طرف، NLP توجہ اس بات کا تعین کرتی ہے کہ الفاظ ایک جملے کے اندر یا کسی دستاویز میں ایک دوسرے سے کس طرح تعلق رکھتے ہیں، فاصلے سے قطع نظر معنوی انحصار کو حاصل کرتے ہیں۔ دونوں وزنی اہمیت کا ایک ہی بنیادی خیال رکھتے ہیں، لیکن وہ ڈھانچے جن پر وہ کام کرتے ہیں نمایاں طور پر مختلف ہیں۔
آرکیٹیکچرل ارتقاء
NLP توجہ اپنی جدید شکل میں سب سے پہلے آئی، 2017 کے ٹرانسفارمر پیپر نے زبان کی تفہیم کی ریڑھ کی ہڈی کے طور پر خود توجہ کو قائم کیا۔ وژن کی توجہ ان NLP کامیابیوں سے بہت زیادہ مستعار لی گئی، وژن ٹرانسفارمرز نے 2020 میں یہ ظاہر کیا کہ خالص توجہ پر مبنی فن تعمیرات کنوولوشنل نیٹ ورکس سے مماثل یا اس سے زیادہ ہو سکتے ہیں۔ اس کے بعد سے، دونوں شعبوں نے کراس پولینیٹنگ کا سلسلہ جاری رکھا ہوا ہے، اب کراس اٹینشن جیسی تکنیکوں نے ملٹی موڈل ماڈلز میں وژن اور زبان کو ملایا ہے۔
کمپیوٹیشنل کنڈریشنز
دونوں کو چوکور پیچیدگی کے چیلنجوں کا سامنا ہے، لیکن پیمانہ مختلف ہے۔ NLP ماڈل سیکڑوں سے لے کر سیکڑوں ہزاروں ٹوکنز کے سلسلے سے نمٹتے ہیں، جب کہ وژن ماڈلز کو ایسی تصاویر کو ہینڈل کرنا چاہیے جن میں ہائی ریزولوشن میں ہزاروں پیچ شامل ہوں۔ وژن کے محققین نے سوئن ٹرانسفارمر کی ونڈو توجہ جیسے موثر تغیرات تیار کیے ہیں، جبکہ NLP نے طویل سیاق و سباق کو سنبھالنے کے لیے ویرل اور لکیری توجہ کے طریقے تیار کیے ہیں۔
ماسکنگ اور سمتیت
ایک اہم فرق اس بات میں ہے کہ توجہ کس طرح بہتی ہے۔ NLP ڈیکوڈر ماڈل causal masking کا استعمال کرتے ہیں لہذا ہر ٹوکن صرف پچھلے ٹوکنز کو دیکھتا ہے، جو خود بخود ٹیکسٹ جنریشن کے لیے ضروری ہے۔ ویژن ماڈل عام طور پر دو طرفہ توجہ کا استعمال کرتے ہیں کیونکہ تصویر کو سمجھنے کے لیے بائیں سے دائیں ترتیب کی ضرورت نہیں ہوتی ہے۔ کچھ وژن کے کاموں میں نقاب پوش توجہ کا استعمال ہوتا ہے، خاص طور پر نقاب پوش آٹو اینکوڈرز میں جہاں تربیت کے دوران ان پٹ کے کچھ حصے چھپے ہوتے ہیں۔
پوزیشنی انکوڈنگ
چونکہ متن کا ایک فطری ترتیب وار ترتیب ہے، NLP ماڈل کو بتانے کے لیے 1D پوزیشنل ایمبیڈنگز کا استعمال کرتا ہے جہاں ہر ٹوکن ترتیب میں بیٹھا ہے۔ پیچ کے درمیان مقامی تعلقات کو محفوظ رکھنے کے لیے وژن کو 2D پوزیشنی ایمبیڈنگز کی ضرورت ہوتی ہے، کیونکہ تصاویر میں اونچائی اور چوڑائی کے طول و عرض ہوتے ہیں۔ یہ فرق اس بات پر اثر انداز ہوتا ہے کہ ہر ڈومین اپنی سرایت کرنے والی اسکیموں کو کس طرح ڈیزائن کرتا ہے اور کس طرح ماڈل مختلف ان پٹ سائزز کو عام کرتے ہیں۔
کراس ڈومین ایپلی کیشنز
وژن اور NLP توجہ کے درمیان حد کافی حد تک دھندلی ہو گئی ہے۔ CLIP، DALL-E، اور Flamingo جیسے ماڈلز بصری اور متنی نمائندگیوں کو مربوط کرنے کے لیے کراس اٹینشن کا استعمال کرتے ہیں، جس سے امیج کیپشننگ، بصری سوالوں کے جوابات، اور ٹیکسٹ ٹو امیج جنریشن جیسے کاموں کو فعال کیا جاتا ہے۔ یہ ملٹی موڈل سسٹم یہ ظاہر کرتے ہیں کہ توجہ کے طریقہ کار نمایاں طور پر لچکدار ہیں اور ایک ہی فن تعمیر میں مختلف ڈیٹا کی اقسام کو یکجا کر سکتے ہیں۔
فوائد اور نقصانات
وژن میں توجہ کا طریقہ کار
فوائد
+عالمی سیاق و سباق کی گرفت کرتا ہے۔
+بڑے ڈیٹاسیٹس پر مضبوط
+قابل تشریح توجہ کے نقشے۔
+لچکدار فن تعمیر
کونس
−اعلی حسابی لاگت
−بہت سارے ڈیٹا کی ضرورت ہے۔
−پیچ پر مبنی پیچیدگی
−کم دلکش تعصب
NLP میں توجہ
فوائد
+طویل انحصار کو ہینڈل کرتا ہے۔
+متوازی تربیت
+جدید LLMs کو طاقت دیتا ہے۔
+امیر منتقلی سیکھنے
کونس
−چوکور پیچیدگی
−سیاق و سباق کی لمبائی کی حدود
−ہیلوسینیشن کے خطرات
−وسائل کی گہرائی
عام غلط فہمیاں
افسانیہ
وژن اور NLP میں توجہ دینے کے طریقہ کار بالکل مختلف ٹیکنالوجیز ہیں۔
حقیقت
وہ استفسار کلیدی قدر کے تعاملات کی بنیاد پر وزنی رقوم کی کمپیوٹنگ کی ایک ہی ریاضیاتی بنیاد رکھتے ہیں۔ اختلافات بنیادی طور پر اس بات میں پائے جاتے ہیں کہ ان پٹس کو کس طرح تشکیل دیا جاتا ہے اور کون سی پوزیشنل معلومات شامل کی جاتی ہیں، نہ کہ خود بنیادی میکانزم میں۔
افسانیہ
وژن ٹرانسفارمرز چھوٹے ڈیٹا سیٹس کے ساتھ بھی اچھی طرح کام کرتے ہیں۔
حقیقت
CNNs کے برعکس جن میں بلٹ ان انڈکٹو تعصبات ہوتے ہیں، ViTs کو عام طور پر بڑے ڈیٹا سیٹس کی ضرورت ہوتی ہے (اکثر سیکڑوں لاکھوں امیجز) کو کنولوشنل اپروچز کو پیچھے چھوڑنے کے لیے۔ چھوٹے ڈیٹا سیٹس پر، CNN اکثر جیت جاتے ہیں جب تک کہ مضبوط ریگولرائزیشن یا پہلے سے تربیت کا اطلاق نہ کیا جائے۔
افسانیہ
NLP میں توجہ دینے کا مطلب ہے کہ ماڈل صحیح معنوں میں زبان کو سمجھتا ہے۔
حقیقت
توجہ ان پٹس کو وزن دینے کے لیے ایک کمپیوٹیشنل میکانزم ہے، نہ کہ سمجھ کی ضمانت۔ بڑے لینگویج ماڈلز روانی سے متن تیار کر سکتے ہیں جب کہ پھر بھی استدلال کی غلطیاں کرتے ہیں، حقائق کو فریب دیتے ہیں، یا سادہ منطقی کاموں میں ناکام رہتے ہیں۔
افسانیہ
توجہ convolutional اور recurrent نیٹ ورکس کو مکمل طور پر تبدیل کر رہی ہے۔
حقیقت
ہائبرڈ فن تعمیر مقبول رہتے ہیں اور اکثر خالص توجہ والے ماڈلز سے بہتر کارکردگی کا مظاہرہ کرتے ہیں۔ بہت سے جدید ترین وژن سسٹمز میں اب بھی ارتعاشی پرتیں نمودار ہوتی ہیں، اور کچھ NLP ماڈلز توجہ کو دوسرے طریقوں کے ساتھ ملانے سے فائدہ اٹھاتے ہیں۔
افسانیہ
توجہ کے نقشے براہ راست دکھاتے ہیں کہ ماڈل کیا سوچ رہا ہے۔
حقیقت
توجہ کا وزن ہمیشہ ماڈل رویے کی قابل اعتماد وضاحت نہیں ہوتا ہے۔ تحقیق سے پتہ چلتا ہے کہ توجہ کی تقسیم ضروری طور پر خصوصیت کی اہمیت کے ساتھ مربوط نہیں ہے، اور ان کی تشریح میں احتیاط کی ضرورت ہے۔
عمومی پوچھے گئے سوالات
وژن اور NLP میں توجہ کے درمیان بنیادی فرق کیا ہے؟
وژن کی توجہ 2D مقامی ڈھانچے پر کام کرتی ہے جیسے تصویر کے پیچ اور اہم خطوں کی شناخت پر توجہ مرکوز کرتی ہے، جبکہ NLP توجہ الفاظ کے درمیان تعلقات کو پکڑنے کے لیے 1D ٹوکن ترتیب پر کام کرتی ہے۔ دونوں ایک جیسے ریاضیاتی فارمولیشنز کا استعمال کرتے ہیں لیکن اس میں فرق ہے کہ کس طرح پوزیشنی معلومات کو انکوڈ کیا جاتا ہے اور کس طرح ماسکنگ کا اطلاق ہوتا ہے۔
کیا توجہ کا طریقہ کار NLP یا کمپیوٹر وژن میں پیدا ہوا؟
جدید توجہ کے طریقہ کار کی ابتدا NLP میں ہوئی، واسوانی وغیرہ کے ٹرانسفارمر پیپر کے ساتھ۔ 2017 ایک تاریخی لمحہ ہے۔ ویژن ٹرانسفارمرز (ViT) بعد میں 2020 میں آئے، انہی خود دھیان کے اصولوں کو زبان سے لے کر تصویروں تک ان کو پیچ کی ترتیب کے طور پر دیکھ کر اپنایا۔
کیا توجہ کا طریقہ کار طویل ترتیب یا اعلی ریزولیوشن امیجز کو سنبھال سکتا ہے؟
معیاری خود دھیان میں چوکور پیچیدگی ہوتی ہے، جس کی وجہ سے یہ طویل ان پٹ کے لیے مہنگا ہوتا ہے۔ محققین نے NLP کے لیے Linformer، Performer، اور Longformer اور وژن کے لیے Swin Transformer یا MaxViT جیسی موثر قسمیں تیار کی ہیں، جو کارکردگی کو محفوظ رکھتے ہوئے کمپیوٹیشنل اخراجات کو کم کرتی ہیں۔
وژن ٹرانسفارمرز کو اتنے زیادہ تربیتی ڈیٹا کی ضرورت کیوں ہے؟
CNNs کے برعکس، جن میں مقامیت اور ترجمے کی تبدیلی کے بارے میں پہلے سے موجود مفروضے ہوتے ہیں، ViTs کو ان مقامی تعلقات کو شروع سے توجہ کے ذریعے سیکھنا چاہیے۔ کافی ڈیٹا کے بغیر، وہ زیادہ فٹ ہونے کا رجحان رکھتے ہیں، یہی وجہ ہے کہ JFT-300M جیسے ڈیٹا سیٹس پر بڑے پیمانے پر پہلے سے تربیت کرنا اکثر ضروری ہوتا ہے۔
کراس اٹینشن وژن اور زبان کے ماڈلز کو کیسے جوڑتا ہے؟
کراس اٹینشن ایک موڈیلٹی کے ٹوکنز کو دوسرے کی طرف جانے کی اجازت دیتا ہے، CLIP جیسے ماڈلز کو متن کی تفصیل کے ساتھ تصویری پیچ کو سیدھ میں کرنے کے قابل بناتا ہے۔ یہ میکانزم ملٹی موڈل سسٹمز کے لیے بنیادی ہے جو امیج کیپشننگ، بصری سوالوں کے جوابات، اور ٹیکسٹ ٹو امیج جنریشن انجام دیتے ہیں۔
کیا توجہ کا وزن ماڈل کی تشریح کے لیے مفید ہے؟
توجہ کا وزن کچھ بصیرت فراہم کر سکتا ہے جس پر ماڈل فوکس کرتا ہے، لیکن ان کو حتمی وضاحت کے طور پر نہیں سمجھا جانا چاہیے۔ مطالعات سے پتہ چلتا ہے کہ توجہ ہمیشہ خصوصیت کی اہمیت کے ساتھ منسلک نہیں ہوتی ہے، اور دیگر تشریحی طریقے زیادہ قابل اعتماد ہو سکتے ہیں۔
ملٹی ہیڈ توجہ کیا ہے اور یہ کیوں ضروری ہے؟
ملٹی ہیڈ توجہ متوازی طور پر توجہ کے متعدد آپریشنز چلاتی ہے، ہر ایک مختلف قسم کے رشتوں پر توجہ مرکوز کرنا سیکھتا ہے۔ NLP میں، ایک سر نحوی انحصار کو ٹریک کر سکتا ہے جبکہ دوسرا لفظی مماثلت کو پکڑتا ہے۔ وژن میں، مختلف سر بیک وقت مختلف مقامی نمونوں یا آبجیکٹ کے پرزوں کو دیکھ سکتے ہیں۔
کیا وژن ماڈلز NLP ڈیکوڈرز کی طرح causal masking استعمال کرتے ہیں؟
زیادہ تر وژن ماڈلز بغیر وجہ ماسکنگ کے دو طرفہ توجہ کا استعمال کرتے ہیں کیونکہ تصویر کو سمجھنے کے لیے ترتیب وار ترتیب کی ضرورت نہیں ہوتی ہے۔ تاہم، نقاب پوش آٹو اینکوڈرز ٹریننگ کے دوران بے ترتیب پیچ کو چھپاتے ہیں تاکہ ماڈل کو مضبوط نمائندگی سیکھنے کی ترغیب دی جا سکے، جو روح میں ایک جیسی لیکن مقصد میں مختلف ہوتی ہے۔
وژن اور NLP کے درمیان پوزیشنی ایمبیڈنگز کیسے مختلف ہیں؟
NLP ایک ترتیب میں ٹوکن آرڈر کو انکوڈ کرنے کے لیے 1D پوزیشنل ایمبیڈنگز کا استعمال کرتا ہے، جبکہ ویژن ماڈلز کو تصویر کی اونچائی اور چوڑائی میں مقامی تعلقات کو محفوظ رکھنے کے لیے 2D پوزیشنل ایمبیڈنگز کی ضرورت ہوتی ہے۔ کچھ جدید وژن ماڈل مختلف تصویری ریزولوشنز کو بہتر طریقے سے ہینڈل کرنے کے لیے رشتہ دار پوزیشن انکوڈنگ کا بھی استعمال کرتے ہیں۔
کیا AI میں توجہ کا طریقہ کار غالب رہے گا؟
توجہ پر مبنی فن تعمیرات فی الحال زیادہ تر AI بینچ مارکس میں آگے ہیں، لیکن تحقیق ریاستی خلائی ماڈلز (Mamba)، ماہرین کا مرکب، اور ناول فن تعمیر جیسے متبادلات پر جاری ہے۔ میدان تیزی سے تیار ہوتا ہے، اور دوسرے میکانزم کے ساتھ توجہ کے امتزاج سے ہائبرڈ نقطہ نظر ماڈلز کی اگلی نسل کو تشکیل دے سکتا ہے۔
فیصلہ
جب آپ کے کام میں تصاویر یا ویڈیو میں مقامی تعلقات کو سمجھنا شامل ہو تو بصارت کی توجہ کا انتخاب کریں، خاص طور پر جب آپ کے پاس بڑے ڈیٹا سیٹس ہوں اور آپ کو عمدہ لوکلائزیشن کی ضرورت ہو۔ سیاق و سباق کی تفہیم، جنریشن، یا ترجمہ کی ضرورت والے ترتیب وار ٹیکسٹ ڈیٹا کے ساتھ کام کرتے وقت NLP توجہ کا انتخاب کریں۔ ملٹی موڈل پراجیکٹس کے لیے، کراس اٹینشن کے ذریعے دونوں کو ملانا اکثر بہترین نتائج فراہم کرتا ہے۔