ट्रांसफ़ॉर्मर-बेस्ड विज़न मॉडल और कन्वोल्यूशनल न्यूरल नेटवर्क मशीनों को देखना सिखाने के दो बिल्कुल अलग तरीके दिखाते हैं। ट्रांसफ़ॉर्मर इमेज में ग्लोबल रिश्तों को कैप्चर करने के लिए सेल्फ़-अटेंशन पर निर्भर करते हैं, जबकि CNN लोकल पैटर्न का पता लगाने के लिए हायरार्किकल फ़िल्टर का इस्तेमाल करते हैं। हर आर्किटेक्चर कंप्यूटर विज़न टास्क में अलग-अलग ताकत लाता है।
मुख्य बातें
ट्रांसफॉर्मर पहली लेयर से ग्लोबल इमेज रिलेशनशिप कैप्चर करते हैं, जबकि CNN हायरार्की के हिसाब से समझ बनाते हैं।
CNNs छोटे डेटासेट पर अच्छे से ट्रेन होते हैं, इसकी वजह बिल्ट-इन इंडक्टिव बायस है।
ट्रांसफ़ॉर्मर का ध्यान रिज़ॉल्यूशन के साथ क्वाड्रेटिकली स्केल होता है, जिससे CNNs हाई-रिज़ॉल्यूशन इमेज के लिए ज़्यादा कुशल बन जाते हैं।
दोनों तरीकों को मिलाकर हाइब्रिड आर्किटेक्चर अक्सर सबसे अच्छा रियल-वर्ल्ड परफॉर्मेंस देते हैं
ट्रांसफार्मर-आधारित विजन मॉडल क्या है?
डीप लर्निंग मॉडल जो इमेज को पैच के सीक्वेंस के तौर पर प्रोसेस करने के लिए सेल्फ-अटेंशन मैकेनिज्म का इस्तेमाल करते हैं, और पूरे विज़ुअल फील्ड में लॉन्ग-रेंज डिपेंडेंसी को कैप्चर करते हैं।
विज़न ट्रांसफ़ॉर्मर (ViT), जिसे Google रिसर्चर्स ने 2020 के आखिर में पेश किया था, पहला मॉडल था जिसने दिखाया कि प्योर ट्रांसफ़ॉर्मर इमेज क्लासिफ़िकेशन पर CNN परफ़ॉर्मेंस से मैच कर सकते हैं या उससे बेहतर कर सकते हैं।
ViT इमेज को फिक्स्ड-साइज़ पैच में बांटता है, जो आम तौर पर 16x16 पिक्सल के होते हैं, और उन्हें स्टैंडर्ड ट्रांसफॉर्मर एनकोडर में फीड करने से पहले लीनियरली प्रोजेक्ट करता है।
ट्रांसफॉर्मर-बेस्ड विज़न मॉडल्स को प्रीट्रेनिंग के दौरान कन्वोल्यूशनल तरीकों से बेहतर परफॉर्म करने के लिए आम तौर पर बड़े डेटासेट, अक्सर करोड़ों इमेज की ज़रूरत होती है।
सेल्फ-अटेंशन हर पैच को हर दूसरे पैच के साथ सीधे इंटरैक्ट करने देता है, जिससे ट्रांसफॉर्मर्स को पहली लेयर से ही एक ग्लोबल रिसेप्टिव फील्ड मिलता है।
स्विन ट्रांसफॉर्मर जैसे वेरिएंट ने शिफ्टेड विंडो के साथ हायरार्किकल प्रोसेसिंग शुरू की, जिससे ट्रांसफॉर्मर डिटेक्शन और सेगमेंटेशन जैसे डेंस प्रेडिक्शन टास्क के लिए ज़्यादा एफिशिएंट बन गए।
कन्वोल्यूशनल न्यूरल नेटवर्क क्या है?
डीप लर्निंग आर्किटेक्चर जो कन्वोल्यूशनल फिल्टर की लेयर्स के ज़रिए इमेज को प्रोसेस करते हैं, और धीरे-धीरे सिंपल एज से कॉम्प्लेक्स ऑब्जेक्ट्स तक फीचर्स निकालते हैं।
यान लेकुन ने 1998 में LeNet बनाया, जो बैंकिंग एप्लीकेशन के लिए हाथ से लिखे अंकों को पहचानने वाला पहला प्रैक्टिकल CNN था।
CNNs पूरी इमेज पर एक ही सीखा हुआ फ़िल्टर लगाते हैं, ट्रांसलेशन इक्विवेरिएंस का फ़ायदा उठाते हैं और ज़रूरी पैरामीटर्स की संख्या को काफ़ी कम कर देते हैं।
2015 में लाए गए ResNet जैसे आर्किटेक्चर ने गायब होते ग्रेडिएंट से निपटने के लिए स्किप कनेक्शन का इस्तेमाल करके नेटवर्क को 100 लेयर से आगे बढ़ने में मदद की।
कन्वोल्यूशनल नेटवर्क को लोकैलिटी और ट्रांसलेशन इनवेरिएंस सहित मजबूत इंडक्टिव बायस से फायदा होता है, जो उन्हें कई विज़न टास्क के लिए बहुत ज़्यादा डेटा-एफिशिएंट बनाता है।
ConvNeXt जैसे मॉडर्न CNNs को ट्रांसफॉर्मर परफॉर्मेंस से मैच करने के लिए रीडिज़ाइन किया गया है, साथ ही कन्वोल्यूशनल ऑपरेशन्स के एफिशिएंसी एडवांटेज को भी बनाए रखा गया है।
तुलना तालिका
विशेषता
ट्रांसफार्मर-आधारित विजन मॉडल
कन्वोल्यूशनल न्यूरल नेटवर्क
कोर तंत्र
इमेज पैच पर खुद पर ध्यान देना
स्थानिक आयामों में संवलनात्मक फ़िल्टर
ग्रहणशील क्षेत्र
पहली परत से वैश्विक
स्थानीय और पदानुक्रमिक, गहराई के साथ विस्तार
आगमनात्मक पूर्वाग्रह
इमेज के बारे में कम से कम पहले से बनी धारणाएं
मजबूत स्थानीयता और अनुवाद तुल्यता
डेटा आवश्यकताएँ
आमतौर पर बड़े पैमाने पर प्रीट्रेनिंग डेटासेट की ज़रूरत होती है
छोटे डेटासेट के साथ भी अच्छा परफॉर्म करता है
कम्प्यूटेशनल लागत
छवि रिज़ॉल्यूशन के साथ द्विघात स्केलिंग
छवि रिज़ॉल्यूशन के साथ रैखिक स्केलिंग
विवेचनीयता
अटेंशन मैप्स ग्लोबल रिश्तों को दिखाते हैं
फ़ीचर मैप हायरार्किकल पैटर्न डिटेक्शन दिखाते हैं
सर्वोत्तम उपयोग के मामले
बड़े पैमाने पर प्रीट्रेनिंग, मल्टीमॉडल टास्क, डिटेक्शन
बुनियादी फ़र्क इस बात पर निर्भर करता है कि हर आर्किटेक्चर इमेज को 'कैसे देखता' है। ट्रांसफ़ॉर्मर पिक्चर को पैच के ग्रिड में तोड़ते हैं और फिर सेल्फ़-अटेंशन का इस्तेमाल करके हर पैच को एक ही समय में हर दूसरे पैच से कम्युनिकेट करने देते हैं। CNN इसका उल्टा तरीका अपनाते हैं, इमेज पर छोटे फ़िल्टर स्लाइड करके किनारों, टेक्सचर और शेप को नीचे से ऊपर की ओर पहचानते हैं। इसका मतलब है कि ट्रांसफ़ॉर्मर एक ही बार में पूरी पिक्चर को समझ लेते हैं, जबकि CNN लेयर दर लेयर समझ बनाते हैं।
डेटा दक्षता और प्रशिक्षण
जब ट्रेनिंग डेटा कम होता है, तो CNNs को साफ़ फ़ायदा होता है। इमेज कैसे काम करती हैं, इस बारे में उनकी पहले से बनी सोच, जैसे कि यह आइडिया कि पास के पिक्सल दूर के पिक्सल से ज़्यादा जुड़े होते हैं, सीखने के दौरान मददगार शॉर्टकट का काम करती है। ट्रांसफ़ॉर्मर्स में ये पहले से मौजूद बायस नहीं होते, इसलिए उन्हें आमतौर पर लाखों या करोड़ों लेबल वाली इमेज देखने की ज़रूरत होती है, तभी वे एक अच्छी तरह से ट्यून किए गए CNN से बेहतर परफ़ॉर्म कर पाते हैं। हालांकि, एक बार बड़े डेटासेट पर प्रीट्रेन होने के बाद, ट्रांसफ़ॉर्मर्स अक्सर डाउनस्ट्रीम कामों में बेहतर ट्रांसफ़र करते हैं।
कम्प्यूटेशनल आवश्यकताएँ
सेल्फ़-अटेंशन पैच की संख्या के साथ क्वाड्रेटिकली स्केल होता है, जिसका मतलब है कि इमेज रिज़ॉल्यूशन को दोगुना करने से ज़रूरी कंप्यूट चार गुना हो जाता है। CNN ज़्यादा आसानी से स्केल होते हैं क्योंकि कन्वोल्यूशन ऑपरेशन की एक फिक्स्ड कॉस्ट होती है, चाहे इमेज का साइज़ कुछ भी हो। यह CNN को मोबाइल ऐप और एज डिवाइस जैसे रिसोर्स-कंस्ट्रेन्ट एनवायरनमेंट के लिए पसंदीदा चॉइस बनाता है, जबकि ट्रांसफ़ॉर्मर उन सेटिंग्स में ज़्यादा अच्छे लगते हैं जहाँ GPU क्लस्टर आसानी से उपलब्ध होते हैं।
आधुनिक बेंचमार्क पर प्रदर्शन
ImageNet जैसे बेंचमार्क पर, दोनों आर्किटेक्चर अब टॉप-टियर एक्यूरेसी हासिल करते हैं। हाइब्रिड मॉडल जो कन्वोल्यूशनल स्टेम को ट्रांसफॉर्मर ब्लॉक के साथ जोड़ते हैं, जैसे CoAtNet, ने दिखाया है कि दोनों फिलॉसफी को मिलाने से अक्सर सबसे अच्छे नतीजे मिलते हैं। ऑब्जेक्ट डिटेक्शन और सेगमेंटेशन जैसे डेंस प्रेडिक्शन टास्क के लिए, Swin जैसे हायरार्किकल ट्रांसफॉर्मर ने CNNs के साथ गैप को काफी हद तक कम कर दिया है, साथ ही हाई-रिज़ॉल्यूशन इनपुट को हैंडल करने के लिए नई कैपेबिलिटी भी दी है।
व्याख्या और डिबगिंग
दोनों आर्किटेक्चर विज़ुअलाइज़ेशन टूल देते हैं, लेकिन वे अलग-अलग चीज़ें दिखाते हैं। ट्रांसफ़ॉर्मर में अटेंशन मैप दिखाते हैं कि मॉडल किन इमेज रीजन को एक-दूसरे के मुकाबले ज़रूरी मानता है, जिससे ज़्यादा होलिस्टिक व्यू मिलता है। दूसरी ओर, CNN फ़ीचर मैप यह देखना आसान बनाते हैं कि नेटवर्क धीरे-धीरे किनारों, शेप और आखिर में पूरे ऑब्जेक्ट को कैसे डिटेक्ट करता है। प्रैक्टिशनर अक्सर CNN को डीबग करना आसान पाते हैं क्योंकि उनका हायरार्किकल नेचर दिखाता है कि हम आसानी से विज़ुअल रिकग्निशन को कैसे डिस्क्राइब कर सकते हैं।
उद्योग अपनाना और पारिस्थितिकी तंत्र
CNNs को प्रोडक्शन डिप्लॉयमेंट में बहुत बढ़त मिली है, क्योंकि ऑप्टिमाइज़्ड फ्रेमवर्क और हार्डवेयर सपोर्ट एक दशक से भी ज़्यादा पुराने हैं। ट्रांसफॉर्मर तेज़ी से पॉपुलर हो रहे हैं, खासकर रिसर्च-हैवी एप्लिकेशन और मल्टीमॉडल सिस्टम में जो विज़न को भाषा के साथ जोड़ते हैं। कई कंपनियाँ अब हाइब्रिड तरीकों का इस्तेमाल करती हैं, फ़ीचर एक्सट्रैक्शन के लिए CNNs और हायर-लेवल रीज़निंग के लिए ट्रांसफॉर्मर का इस्तेमाल करती हैं।
लाभ और हानि
ट्रांसफार्मर-आधारित विजन मॉडल
लाभ
+वैश्विक ग्रहणशील क्षेत्र
+उत्कृष्ट स्थानांतरण अधिगम
+मजबूत मल्टीमॉडल क्षमताएं
+डेटा के साथ अच्छी तरह से स्केल करता है
+लचीली वास्तुकला
सहमत
−उच्च डेटा आवश्यकताएँ
−द्विघात गणना लागत
−स्थानीय रूप से कम व्याख्या योग्य
−शुरू से ट्रेनिंग करना ज़्यादा मुश्किल है
कन्वोल्यूशनल न्यूरल नेटवर्क
लाभ
+डेटा कुशल प्रशिक्षण
+तेज़ अनुमान गति
+मजबूत आगमनात्मक पूर्वाग्रह
+परिपक्व पारिस्थितिकी तंत्र
+एज डिवाइस पर काम करता है
सहमत
−सीमित वैश्विक संदर्भ
−बड़े डेटासेट के लिए स्केल करना मुश्किल
−कम लचीली वास्तुकला
−अनुक्रमिक पदानुक्रमित प्रसंस्करण
सामान्य भ्रांतियाँ
मिथ
ट्रांसफॉर्मर्स ने कंप्यूटर विज़न में CNNs की पूरी तरह से जगह ले ली।
वास्तविकता
यह सही नहीं है। हालांकि ट्रांसफॉर्मर पर बहुत ध्यान दिया गया है, फिर भी CNN का इस्तेमाल प्रोडक्शन सिस्टम में बड़े पैमाने पर होता है, खासकर मोबाइल और एज डिप्लॉयमेंट के लिए। कई लेटेस्ट मॉडल असल में कन्वोल्यूशनल लेयर्स को ट्रांसफॉर्मर ब्लॉक्स के साथ मिलाकर दोनों दुनिया का सबसे अच्छा फ़ायदा उठाते हैं।
मिथ
CNNs पुरानी टेक्नोलॉजी है।
वास्तविकता
ऐसा बिल्कुल नहीं है। ConvNeXt जैसे मॉडर्न CNN डिज़ाइन खास तौर पर ट्रांसफ़ॉर्मर परफ़ॉर्मेंस से मैच करने के लिए बनाए गए हैं, जबकि कन्वोल्यूशनल एफ़िशिएंसी बनी रहती है। CNN उन सिनेरियो में हावी रहते हैं जहाँ कंप्यूट, मेमोरी या ट्रेनिंग डेटा सीमित होता है।
मिथ
ट्रांसफॉर्मर हर विज़न टास्क में CNN से हमेशा बेहतर परफॉर्म करते हैं।
वास्तविकता
ट्रांसफ़ॉर्मर अक्सर बड़े पैमाने पर बेंचमार्क पर जीत जाते हैं, जिसमें बहुत सारा ट्रेनिंग डेटा होता है, लेकिन CNN अक्सर छोटे डेटासेट और मेडिकल इमेजिंग जैसे कामों में उनसे मैच करते हैं या उन्हें हरा देते हैं, जहाँ डेटा कम होता है। 'सबसे अच्छा' आर्किटेक्चर काफी हद तक खास समस्या और रुकावटों पर निर्भर करता है।
मिथ
सेल्फ-अटेंशन ट्रांसफॉर्मर्स को इमेज समझने में नैचुरली बेहतर बनाता है।
वास्तविकता
सेल्फ-अटेंशन ट्रांसफॉर्मर्स को एक ग्लोबल व्यू देता है, लेकिन यह अपने आप बेहतर समझ में नहीं बदलता है। CNNs नेचुरल इमेज के बारे में उपयोगी प्रायर्स को एनकोड करते हैं जिन्हें ट्रांसफॉर्मर्स को डेटा से सीखना होता है, यही वजह है कि ट्रांसफॉर्मर्स को बराबर परफॉर्मेंस तक पहुंचने के लिए इतना ज़्यादा ट्रेनिंग डेटा चाहिए होता है।
मिथ
विज़न ट्रांसफ़ॉर्मर का इस्तेमाल रियल-टाइम एप्लीकेशन के लिए नहीं किया जा सकता।
वास्तविकता
हालांकि स्टैंडर्ड ViTs कम्प्यूटेशन के हिसाब से महंगे होते हैं, लेकिन Swin Transformer, EfficientFormer, और MobileViT जैसे एफिशिएंट वेरिएंट खास तौर पर रियल-टाइम और मोबाइल इस्तेमाल के लिए डिज़ाइन किए गए हैं। आर्किटेक्चर फ़ैमिली लोगों को जितना पता होता है, उससे कहीं ज़्यादा अलग-अलग तरह की है।
अक्सर पूछे जाने वाले सवाल
विज़न ट्रांसफ़ॉर्मर और CNNs के बीच मुख्य अंतर क्या है?
मुख्य अंतर यह है कि वे विज़ुअल जानकारी को कैसे प्रोसेस करते हैं। विज़न ट्रांसफ़ॉर्मर सेल्फ़-अटेंशन का इस्तेमाल करके इमेज के हर हिस्से को दूसरे हर हिस्से से सीधे इंटरैक्ट करने देते हैं, और शुरू से ही ग्लोबल रिश्तों को कैप्चर करते हैं। CNNs कन्वोल्यूशनल फ़िल्टर का इस्तेमाल करते हैं जो इमेज पर स्लाइड करते हैं, पहले लोकल पैटर्न का पता लगाते हैं और गहरी लेयर्स के ज़रिए ग्लोबल समझ बनाते हैं।
छोटे डेटासेट के लिए कौन सा आर्किटेक्चर बेहतर है?
CNNs आम तौर पर तब बेहतर परफॉर्म करते हैं जब ट्रेनिंग डेटा लिमिटेड होता है। उनके बिल्ट-इन इंडक्टिव बायस, जैसे यह मानना कि आस-पास के पिक्सल रिलेटेड हैं, हेल्पफुल प्रायर्स के तौर पर काम करते हैं जो सीखने के लिए ज़रूरी डेटा की मात्रा को कम करते हैं। ट्रांसफॉर्मर्स को शाइन करने के लिए आम तौर पर लाखों या लाखों इमेज की ज़रूरत होती है।
क्या विज़न ट्रांसफ़ॉर्मर को CNNs की तुलना में ज़्यादा कंप्यूट की ज़रूरत होती है?
हाँ, ज़्यादातर मामलों में यह काफ़ी ज़्यादा होता है। सेल्फ़-अटेंशन ऑपरेशन इमेज पैच की संख्या के साथ क्वाड्रेटिकली स्केल होते हैं, जिसका मतलब है कि इमेज रिज़ॉल्यूशन बढ़ने पर कंप्यूट तेज़ी से बढ़ता है। CNNs रिज़ॉल्यूशन के साथ लीनियरली स्केल होते हैं, जिससे वे हाई-रिज़ॉल्यूशन इमेज और रिसोर्स-कंस्ट्रेन्ट एनवायरनमेंट के लिए ज़्यादा एफ़िशिएंट बन जाते हैं।
क्या CNNs और ट्रांसफॉर्मर्स को मिलाया जा सकता है?
बिल्कुल, और हाइब्रिड मॉडल तेज़ी से पॉपुलर हो रहे हैं। CoAtNet, BoTNet, और ConvNeXt जैसे आर्किटेक्चर कन्वोल्यूशनल लेयर्स को अटेंशन मैकेनिज्म के साथ मिलाते हैं। ये हाइब्रिड अक्सर कन्वोल्यूशन की एफिशिएंसी को अटेंशन के ग्लोबल रीज़निंग के साथ मिलाकर किसी भी आर्किटेक्चर के प्योर वर्शन से बेहतर परफॉर्म करते हैं।
ऑब्जेक्ट डिटेक्शन के लिए मुझे किस आर्किटेक्चर का इस्तेमाल करना चाहिए?
दोनों ऑब्जेक्ट डिटेक्शन के लिए अच्छे से काम करते हैं, लेकिन चुनाव आपकी सीमाओं पर निर्भर करता है। Swin Transformer जैसे हायरार्किकल ट्रांसफॉर्मर अब Mask R-CNN और DETR जैसे डिटेक्शन फ्रेमवर्क के लिए आम बैकबोन हैं। ResNet जैसे CNN बैकबोन तब भी पॉपुलर रहते हैं जब स्पीड और एफिशिएंसी, एक्यूरेसी के आखिरी हिस्से को निकालने से ज़्यादा मायने रखती है।
क्या विज़न ट्रांसफ़ॉर्मर्स को ट्रेन करना CNNs से ज़्यादा मुश्किल है?
वे हो सकते हैं। मज़बूत इंडक्टिव बायस के बिना, ट्रांसफ़ॉर्मर लर्निंग रेट, इनिशियलाइज़ेशन और डेटा ऑग्मेंटेशन चॉइस के प्रति ज़्यादा सेंसिटिव होते हैं। लेयर स्केलिंग, सावधानी से वार्म-अप और एक्सटेंसिव ऑग्मेंटेशन जैसी टेक्नीक अक्सर ज़रूरी होती हैं। CNN स्टैंडर्ड रेसिपी के साथ ज़्यादा भरोसेमंद तरीके से ट्रेन होते हैं।
विज़न ट्रांसफ़ॉर्मर्स के लिए ब्रेकथ्रू पेपर क्या था?
लैंडमार्क पेपर 'एन इमेज इज़ वर्थ 16x16 वर्ड्स' है, जिसे डोसोवित्स्की और उनके साथियों ने 2020 के आखिर में गूगल रिसर्च में पब्लिश किया था। इसने दिखाया कि इमेज पैच पर अप्लाई किया गया एक प्योर ट्रांसफॉर्मर, JFT-300M जैसे बड़े डेटासेट पर प्रीट्रेन होने पर इमेजनेट पर स्टेट-ऑफ़-द-आर्ट रिज़ल्ट दे सकता है।
मेडिकल इमेजिंग के लिए कौन सा आर्किटेक्चर बेहतर है?
मेडिकल इमेजिंग के लिए CNN को अक्सर पसंद किया जाता है क्योंकि डेटासेट छोटे होते हैं और गलतियों की कीमत ज़्यादा होती है। उनकी डेटा एफिशिएंसी और इंटरप्रेटेबिलिटी उन्हें क्लिनिकल सेटिंग्स के लिए सही बनाती है। हालांकि, ट्रांसफॉर्मर रिसर्च में पॉपुलर हो रहे हैं, खासकर 3D वॉल्यूमेट्रिक स्कैन वाले कामों के लिए जहां ग्लोबल कॉन्टेक्स्ट मायने रखता है।
क्या ट्रांसफॉर्मर आखिरकार CNNs की जगह पूरी तरह ले लेंगे?
ज़्यादातर एक्सपर्ट्स को लगता है कि पूरी तरह से रिप्लेसमेंट की उम्मीद कम है। हर आर्किटेक्चर की अपनी खास ताकत होती है, और ट्रेंड हाइब्रिड डिज़ाइन की तरफ है जो दोनों का फ़ायदा उठाते हैं। CNNs शायद एफिशिएंसी-क्रिटिकल एप्लिकेशन्स में हावी रहेंगे, जबकि ट्रांसफॉर्मर्स रिसर्च और बड़े सिस्टम्स में आगे बढ़ते रहेंगे।
मैं अपने प्रोजेक्ट के लिए विज़न ट्रांसफ़ॉर्मर और CNN में से कैसे चुनूँ?
अपने डेटासेट साइज़, कंप्यूट बजट और डिप्लॉयमेंट एनवायरनमेंट पर विचार करके शुरू करें। अगर आपके पास सीमित डेटा है या आपको मोबाइल डिवाइस पर चलाने की ज़रूरत है, तो CNN शायद ज़्यादा सुरक्षित विकल्प है। अगर आपके पास बड़े डेटासेट और पावरफ़ुल GPU हैं, और आपके काम को ग्लोबल रीजनिंग से फ़ायदा होता है, तो विज़न ट्रांसफ़ॉर्मर को आज़माएँ। अपने खास डेटा पर दोनों को बेंचमार्क करना हमेशा सबसे अच्छा तरीका होता है।
निर्णय
जब आपके पास बड़े डेटासेट, काफ़ी कंप्यूट रिसोर्स और ऐसे काम हों जिनसे ग्लोबल कॉन्टेक्स्ट को फ़ायदा हो, जैसे मल्टीमॉडल AI या हाई-रिज़ॉल्यूशन डिटेक्शन, तो ट्रांसफ़ॉर्मर-बेस्ड विज़न मॉडल चुनें। जब डेटा कम हो, लेटेंसी मायने रखती हो, या आपको एज डिवाइस पर डिप्लॉय करना हो, तो कन्वोल्यूशनल न्यूरल नेटवर्क चुनें। असल में, कई सफल सिस्टम दोनों आर्किटेक्चर को मिलाकर हर एक की ताकत को कैप्चर करते हैं।