ऑब्जेक्ट डिटेक्शन और इमेज क्लासिफिकेशन दोनों ही कंप्यूटर विज़न के मुख्य काम हैं, लेकिन वे असल में अलग-अलग मकसद पूरे करते हैं। क्लासिफिकेशन पूरी इमेज को एक ही कैटेगरी में लेबल करता है, जबकि ऑब्जेक्ट डिटेक्शन एक सीन में कई ऑब्जेक्ट्स को ढूंढता है और उनकी पहचान करता है। इनमें से किसी एक को चुनना इस बात पर निर्भर करता है कि आपको यह जानना है कि इमेज में क्या है या खास आइटम कहाँ रखे हैं।
मुख्य बातें
ऑब्जेक्ट डिटेक्शन बाउंडिंग बॉक्स के ज़रिए स्पेशल लोकलाइज़ेशन देता है, जबकि क्लासिफिकेशन हर इमेज पर सिर्फ़ एक लेबल आउटपुट करता है।
क्लासिफिकेशन मॉडल्स डिटेक्शन मॉडल्स की तुलना में काफी तेज़ होते हैं और उन्हें कम कम्प्यूटेशनल पावर की ज़रूरत होती है।
डिटेक्शन के लिए महंगे बाउंडिंग बॉक्स एनोटेशन की ज़रूरत होती है, जबकि क्लासिफिकेशन के लिए सिर्फ़ इमेज-लेवल लेबल की ज़रूरत होती है।
दोनों टास्क ResNet बैकबोन जैसे बेसिक आर्किटेक्चर शेयर करते हैं, लेकिन डिटेक्शन लोकलाइज़ेशन के लिए रीजन प्रेडिक्शन हेड्स जोड़ता है।
कंप्यूटर विज़न ऑब्जेक्ट डिटेक्शन क्या है?
बाउंडिंग बॉक्स और क्लास लेबल का इस्तेमाल करके एक इमेज में कई ऑब्जेक्ट्स को पहचानता है और उन्हें लोकेट करता है।
ऑब्जेक्ट डिटेक्शन क्लासिफिकेशन को लोकलाइज़ेशन के साथ जोड़ता है, जिससे यह पता चलता है कि कौन सी ऑब्जेक्ट मौजूद हैं और वे पिक्सेल कोऑर्डिनेट्स में कहाँ दिखाई देती हैं।
पॉपुलर आर्किटेक्चर में YOLO, Faster R-CNN, SSD, और DETR शामिल हैं, हर एक स्पीड और एक्यूरेसी को अलग-अलग तरीके से बैलेंस करता है।
पास्कल VOC और COCO डेटासेट बुनियादी बेंचमार्क रहे हैं, जिसमें COCO में 330,000 से ज़्यादा इमेज और 2.5 मिलियन लेबल वाले इंस्टेंस शामिल हैं।
मॉडर्न डिटेक्टर रियल टाइम में वीडियो प्रोसेस कर सकते हैं, YOLOv8 और YOLOv9 सही हार्डवेयर पर 100 FPS से ज़्यादा की इनफेरेंस स्पीड पाते हैं।
इसके एप्लीकेशन में ऑटोनॉमस गाड़ियां, सर्विलांस सिस्टम, मेडिकल इमेजिंग, रिटेल एनालिटिक्स और एग्रीकल्चरल मॉनिटरिंग शामिल हैं।
छवि वर्गीकरण कार्य क्या है?
किसी पूरी इमेज को उसके मुख्य विज़ुअल कंटेंट के आधार पर एक सिंगल लेबल या कैटेगरी असाइन करता है।
इमेज क्लासिफिकेशन पूरी इमेज के लिए एक या ज़्यादा लेबल आउटपुट करता है, बिना यह बताए कि ऑब्जेक्ट्स जगह के हिसाब से कहाँ हैं।
20,000 कैटेगरी में 14 मिलियन से ज़्यादा लेबल वाली इमेज वाले इमेजनेट डेटासेट ने 2012 में डीप लर्निंग क्रांति को शुरू किया, जब एलेक्सनेट ने ILSVRC कॉम्पिटिशन जीता।
बुनियादी आर्किटेक्चर में ResNet, VGG, Inception, EfficientNet, और Vision Transformers (ViT) शामिल हैं।
क्लासिफिकेशन मॉडल आमतौर पर डिटेक्शन मॉडल से ज़्यादा तेज़ चलते हैं क्योंकि उन्हें बिना रीजन प्रपोज़ल के हर इमेज के लिए सिर्फ़ एक सिंगल फॉरवर्ड पास की ज़रूरत होती है।
आम इस्तेमाल के मामलों में कंटेंट मॉडरेशन, एक्स-रे से मेडिकल डायग्नोसिस, मैन्युफैक्चरिंग में क्वालिटी कंट्रोल और इकोलॉजी में स्पीशीज़ की पहचान शामिल हैं।
तुलना तालिका
विशेषता
कंप्यूटर विज़न ऑब्जेक्ट डिटेक्शन
छवि वर्गीकरण कार्य
प्राथमिक आउटपुट
क्लास लेबल और कॉन्फिडेंस स्कोर के साथ बाउंडिंग बॉक्स
पूरी इमेज के लिए सिंगल क्लास लेबल
स्थानिक जानकारी
निर्देशांक का उपयोग करके सटीक वस्तु स्थान प्रदान करता है
कोई स्थानिक या स्थिति संबंधी जानकारी नहीं दी गई
वस्तुओं की संख्या
एक साथ कई ऑब्जेक्ट्स का पता लगा सकता है
केवल प्रमुख विषय की पहचान करता है
कम्प्यूटेशनल लागत
क्षेत्र प्रस्तावों और कई भविष्यवाणियों के कारण अधिक
हर इमेज पर एक सिंगल फॉरवर्ड पास के साथ लोअर करें
मॉडल जटिलता
रीढ़ की हड्डी, गर्दन और सिर के हिस्सों के साथ ज़्यादा जटिल
फ़ीचर एक्सट्रैक्शन पर फ़ोकस्ड सिंपल आर्किटेक्चर
विशिष्ट सटीकता सीमा
स्टेट-ऑफ़-द-आर्ट मॉडल्स के लिए COCO बेंचमार्क पर mAP 40-65
ImageNet पर लीडिंग मॉडल्स के लिए टॉप-1 एक्यूरेसी 85-91%
प्रशिक्षण डेटा आवश्यकताएँ
बाउंडिंग बॉक्स एनोटेशन की ज़रूरत होती है, लेबल करना ज़्यादा महंगा होता है
सिर्फ़ इमेज-लेवल लेबल की ज़रूरत है, एनोटेट करना सस्ता है
अनुमान गति
ऑप्टिमाइज़्ड मॉडल्स के साथ रियल-टाइम में संभव (30-100+ FPS)
बहुत तेज़, अक्सर मामूली हार्डवेयर पर भी 100+ FPS
सर्वोत्तम उपयोग मामला
कई ऑब्जेक्ट वाले सीन जिन्हें लोकलाइज़ेशन की ज़रूरत है
कैटेगरी पहचान के लिए ज़रूरी सिंगल-सब्जेक्ट इमेज
विस्तृत तुलना
मुख्य उद्देश्य और आउटपुट
बुनियादी फ़र्क इस बात में है कि हर काम का मकसद क्या है। इमेज क्लासिफिकेशन पूरी तस्वीर को एक या ज़्यादा लेबल देकर इस सवाल का जवाब देता है कि "इस इमेज में क्या है?"। ऑब्जेक्ट डिटेक्शन हर डिटेक्ट की गई चीज़ के चारों ओर बाउंडिंग बॉक्स का इस्तेमाल करके "इस इमेज में क्या है और यह असल में कहाँ है?" का जवाब देकर और आगे बढ़ता है। अगर आप कोई स्ट्रीट फ़ोटो अपलोड करते हैं, तो एक क्लासिफायर उसे "शहरी सीन" लेबल कर सकता है, जबकि एक डिटेक्टर कारों, पैदल चलने वालों, ट्रैफ़िक लाइट और साइन के चारों ओर अलग-अलग बॉक्स बनाएगा।
वास्तुकला और मॉडल डिजाइन
क्लासिफिकेशन मॉडल आमतौर पर एक सीधी पाइपलाइन को फॉलो करते हैं: एक बैकबोन नेटवर्क फीचर्स निकालता है, और एक क्लासिफायर हेड प्रोबेबिलिटीज आउटपुट करता है। ऑब्जेक्ट डिटेक्शन मॉडल असल में ज़्यादा कॉम्प्लेक्स होते हैं, जिनमें आमतौर पर फीचर एक्सट्रैक्शन के लिए एक बैकबोन, फीचर फ्यूजन के लिए एक नेक, और एक हेड होता है जो क्लास और बाउंडिंग बॉक्स कोऑर्डिनेट्स दोनों का अनुमान लगाता है। इस एक्स्ट्रा कॉम्प्लेक्सिटी की वजह से डिटेक्शन मॉडल को अपने-अपने बेंचमार्क पर बराबर एक्यूरेसी पाने के लिए ज़्यादा पैरामीटर और कम्प्यूटेशनल रिसोर्स की ज़रूरत होती है।
प्रशिक्षण डेटा और एनोटेशन
इमेज क्लासिफिकेशन डेटासेट को सिर्फ़ इमेज-लेवल लेबल की ज़रूरत होती है, जिससे उन्हें बड़े पैमाने पर बनाना सस्ता और तेज़ हो जाता है। ऑब्जेक्ट डिटेक्शन के लिए हर ऑब्जेक्ट इंस्टेंस के लिए बाउंडिंग बॉक्स एनोटेशन की ज़रूरत होती है, यह एक ऐसा प्रोसेस है जिसमें सीन की कॉम्प्लेक्सिटी के आधार पर हर इमेज में 10 से 100 गुना ज़्यादा समय लग सकता है। COCO जैसे डेटासेट को पूरा करने में हज़ारों एनोटेशन घंटे लगते थे, जबकि इमेजनेट के क्लासिफिकेशन लेबल Amazon Mechanical Turk जैसी सर्विस के ज़रिए काफ़ी तेज़ी से क्राउडसोर्स किए गए थे।
प्रदर्शन और गति का समझौता
क्लासिफिकेशन मॉडल आम तौर पर तेज़ी से चलते हैं और अपने बेंचमार्क पर ज़्यादा एक्यूरेसी पाते हैं क्योंकि यह काम आसान होता है। लेटेस्ट क्लासिफायर ImageNet पर 91% से ज़्यादा टॉप-1 एक्यूरेसी देते हैं, जबकि टॉप ऑब्जेक्ट डिटेक्टर COCO पर लगभग 63-65 mAP तक पहुँचते हैं। हालाँकि, डिटेक्शन मॉडल ने स्पीड में काफ़ी तरक्की की है, YOLO जैसे सिंगल-स्टेज डिटेक्टर रियल-टाइम एप्लिकेशन को इनेबल करने के लिए इस गैप को कम कर रहे हैं। चॉइस अक्सर इस बात पर निर्भर करती है कि आपको स्पेशल प्रिसिजन चाहिए या मैक्सिमम थ्रूपुट।
वास्तविक दुनिया के अनुप्रयोग
क्लासिफिकेशन उन सिनेरियो में अच्छा काम करता है जहाँ लोकेशन मायने नहीं रखती, जैसे गलत कंटेंट को फ़िल्टर करना, मेडिकल स्कैन से बीमारियों का पता लगाना, या प्रोडक्ट्स को कैटेगरी के हिसाब से सॉर्ट करना। जब पोजीशन मायने रखती है, तो ऑब्जेक्ट डिटेक्शन ज़रूरी होता है, जिसमें ऑटोनॉमस ड्राइविंग (पैदल चलने वालों और दूसरी गाड़ियों की पहचान करना), रिटेल इन्वेंट्री मैनेजमेंट, वाइल्डलाइफ़ मॉनिटरिंग, और रोबोटिक मैनिपुलेशन शामिल हैं। कई प्रोडक्शन सिस्टम असल में दोनों को मिलाते हैं, क्लासिफिकेशन का इस्तेमाल करके ज़रूरी इमेज पर डिटेक्शन चलाने से पहले उन्हें जल्दी से फ़िल्टर करते हैं।
लाभ और हानि
कंप्यूटर विज़न ऑब्जेक्ट डिटेक्शन
लाभ
+वस्तु स्थान प्रदान करता है
+एकाधिक वस्तुओं को संभालता है
+समृद्ध स्थानिक आउटपुट
+रीयल-टाइम उपयोग के मामलों को सक्षम बनाता है
+बहुमुखी अनुप्रयोग
सहमत
−उच्च कम्प्यूटेशनल लागत
−महंगे एनोटेशन की ज़रूरत है
−प्रशिक्षण के लिए अधिक जटिल
−कम बेंचमार्क सटीकता
छवि वर्गीकरण कार्य
लाभ
+तेज़ अनुमान गति
+सरल वास्तुकला
+एनोटेट करना सस्ता
+उच्च बेंचमार्क सटीकता
+तैनात करना आसान
सहमत
−कोई स्थानिक जानकारी नहीं
−एकल लेबल सीमा
−कई ऑब्जेक्ट छूट जाते हैं
−सीमित दृश्य समझ
सामान्य भ्रांतियाँ
मिथ
ऑब्जेक्ट डिटेक्शन बस एक्स्ट्रा स्टेप्स के साथ क्लासिफिकेशन है।
वास्तविकता
क्लासिफिकेशन डिटेक्शन का एक हिस्सा है, लेकिन ऑब्जेक्ट डिटेक्शन एक लोकलाइज़ेशन ब्रांच जोड़ता है जो कोऑर्डिनेट्स का अनुमान लगाता है, जिससे यह असल में एक अलग काम बन जाता है। आर्किटेक्चर, लॉस फ़ंक्शन और इवैल्यूएशन मेट्रिक्स काफ़ी अलग होते हैं। डिटेक्शन मॉडल को हर इमेज में अलग-अलग संख्या में ऑब्जेक्ट्स को हैंडल करना होता है, जो क्लासिफिकेशन में कभी नहीं होता।
मिथ
ज़्यादा क्लासिफिकेशन एक्यूरेसी का मतलब है बेहतर डिटेक्शन परफॉर्मेंस।
वास्तविकता
एक मॉडल जो ImageNet क्लासिफिकेशन में बहुत अच्छा है, वह ऑब्जेक्ट डिटेक्शन में अपने आप अच्छा परफॉर्म नहीं करता है। डिटेक्शन के लिए बैकबोन को स्पेशल जानकारी को एक ही वेक्टर में समेटने के बजाय उसे सेव करने की ज़रूरत होती है, इसीलिए डिटेक्शन-स्पेसिफिक आर्किटेक्चर और ट्रेनिंग स्ट्रेटेजी मौजूद हैं।
मिथ
आप क्लासिफायर को आसानी से डिटेक्टर में बदल सकते हैं।
वास्तविकता
हालांकि Grad-CAM जैसी तकनीकें उन रीजन को हाइलाइट कर सकती हैं जिन पर क्लासिफायर फोकस करता है, ये हीटमैप सटीक बाउंडिंग बॉक्स नहीं हैं। एक असली डिटेक्टर बनाने के लिए बाउंडिंग बॉक्स एनोटेशन और एक डिटेक्शन-स्पेसिफिक आर्किटेक्चर के साथ रीट्रेनिंग की ज़रूरत होती है। ये दोनों काम एक-दूसरे के बदले नहीं जा सकते।
मिथ
असल दुनिया के कामों में ऑब्जेक्ट डिटेक्शन हमेशा क्लासिफिकेशन से बेहतर परफॉर्म करता है।
वास्तविकता
कई एप्लिकेशन के लिए डिटेक्शन बहुत ज़्यादा है। अगर आपको सिर्फ़ यह जानना है कि इमेज में बिल्ली है या नहीं, तो पूरा डिटेक्शन मॉडल चलाने से रिसोर्स बर्बाद होते हैं। जब लोकेशन ज़रूरी न हो, तो क्लासिफिकेशन बेहतर ऑप्शन रहता है, और डिटेक्शन का इस्तेमाल करने से बिना वजह लेटेंसी और इंफ्रास्ट्रक्चर की लागत बढ़ जाती है।
मिथ
मॉडर्न ऑब्जेक्ट डिटेक्टर किसी भी माहौल में पूरी तरह से काम करते हैं।
वास्तविकता
डिटेक्शन मॉडल ऑक्लूज़न, छोटी चीज़ों, अजीब एंगल और डिस्ट्रीब्यूशन शिफ्ट से जूझते हैं। लेटेस्ट मॉडल अभी भी उन एज केस में फेल हो जाते हैं जिन्हें इंसान आसानी से हैंडल कर लेते हैं, यही वजह है कि ऑटोनॉमस ड्राइविंग जैसे सेफ्टी के लिए ज़रूरी एप्लीकेशन को बहुत ज़्यादा वैलिडेशन और रिडंडेंसी की ज़रूरत होती है।
अक्सर पूछे जाने वाले सवाल
ऑब्जेक्ट डिटेक्शन और इमेज क्लासिफिकेशन के बीच मुख्य अंतर क्या है?
इमेज क्लासिफिकेशन पूरी इमेज को एक ही लेबल देता है, जिसका जवाब होता है "यह क्या है?" ऑब्जेक्ट डिटेक्शन और आगे बढ़कर बाउंडिंग बॉक्स से ऑब्जेक्ट्स का पता लगाता है, जिसका जवाब होता है "यह क्या है और यह कहाँ है?" मुख्य अंतर स्पेशल जानकारी है: क्लासिफिकेशन इस बात को नज़रअंदाज़ करता है कि ऑब्जेक्ट्स कहाँ हैं, जबकि डिटेक्शन हर पहचानी गई चीज़ के लिए सटीक कोऑर्डिनेट्स देता है।
AI के लिए कौन सा काम करना ज़्यादा मुश्किल है?
ऑब्जेक्ट डिटेक्शन को आम तौर पर ज़्यादा मुश्किल माना जाता है क्योंकि इसके लिए क्लासिफिकेशन और लोकलाइज़ेशन दोनों को एक साथ सॉल्व करना होता है। मॉडल को अलग-अलग नंबर की ऑब्जेक्ट्स का अंदाज़ा लगाना होता है, ओवरलैपिंग बॉक्स को हैंडल करना होता है, और स्पेशल एक्यूरेसी बनाए रखनी होती है। क्लासिफिकेशन को सिर्फ़ मेन कंटेंट तय करने की ज़रूरत होती है, जिससे यह स्टैंडर्ड बेंचमार्क पर ज़्यादा एक्यूरेसी के साथ एक आसान लर्निंग प्रॉब्लम बन जाती है।
क्या आप इमेज क्लासिफिकेशन के लिए ऑब्जेक्ट डिटेक्शन का इस्तेमाल कर सकते हैं?
हाँ, लेकिन यह इनएफिशिएंट है। आप एक ऑब्जेक्ट डिटेक्टर चला सकते हैं और डिटेक्ट की गई क्लास को क्लासिफिकेशन लेबल के तौर पर इस्तेमाल कर सकते हैं, लेकिन इससे कैलकुलेशन बर्बाद होता है क्योंकि डिटेक्शन ज़्यादा महंगा होता है। प्योर क्लासिफिकेशन टास्क के लिए एक डेडिकेटेड क्लासिफायर ज़्यादा तेज़ और एक्यूरेट होगा। डिटेक्शन ओवरहेड तभी काम आता है जब आपको असल में बाउंडिंग बॉक्स लोकेशन की ज़रूरत हो।
हर टास्क की ट्रेनिंग के लिए सबसे अच्छे डेटासेट कौन से हैं?
क्लासिफिकेशन के लिए, इमेजनेट हज़ारों कैटेगरी में 14 मिलियन इमेज के साथ गोल्ड स्टैंडर्ड बना हुआ है। CIFAR-10 और CIFAR-100 छोटे लेवल के एक्सपेरिमेंट के लिए पॉपुलर हैं। ऑब्जेक्ट डिटेक्शन के लिए, COCO (कॉमन ऑब्जेक्ट्स इन कॉन्टेक्स्ट) 330,000 इमेज और 80 ऑब्जेक्ट कैटेगरी के साथ सबसे ज़्यादा इस्तेमाल किया जाने वाला बेंचमार्क है। पास्कल VOC एक और क्लासिक डेटासेट है जिसका इस्तेमाल अक्सर लर्निंग और प्रोटोटाइपिंग के लिए किया जाता है।
शुरुआती लोगों को कौन से मॉडल से शुरुआत करनी चाहिए?
क्लासिफिकेशन के लिए, ResNet-50 या EfficientNet-B0 से शुरू करें, जो अच्छा एक्यूरेसी-टू-कॉम्प्लेक्सिटी रेश्यो और डिटेल्ड डॉक्यूमेंटेशन देते हैं। ऑब्जेक्ट डिटेक्शन के लिए, YOLOv5 या YOLOv8 बिगिनर्स के लिए फ्रेंडली हैं क्योंकि उनमें सिंपल APIs, एक्टिव कम्युनिटीज़ और प्री-ट्रेन्ड वेट होते हैं। तेज़ R-CNN ज़्यादा एक्यूरेट होता है लेकिन नए लोगों के लिए कॉन्फ़िगर करना मुश्किल होता है।
हर काम के लिए आपको कितना ट्रेनिंग डेटा चाहिए?
क्लासिफिकेशन, प्री-ट्रेन्ड मॉडल से ट्रांसफर लर्निंग का इस्तेमाल करके हर क्लास में सैकड़ों से लेकर कुछ हज़ार इमेज के साथ काम कर सकता है। ऑब्जेक्ट डिटेक्शन के लिए आम तौर पर ज़्यादा डेटा की ज़रूरत होती है, अक्सर कम से कम कई हज़ार एनोटेटेड इमेज की, क्योंकि मॉडल को ऑब्जेक्ट को पहचानना और सटीक बाउंडिंग बॉक्स का अनुमान लगाना, दोनों सीखना होता है। फ्यू-शॉट डिटेक्शन अभी भी एक एक्टिव रिसर्च एरिया है।
क्या YOLO एक क्लासिफिकेशन या डिटेक्शन मॉडल है?
YOLO (यू ओनली लुक वन्स) एक ऑब्जेक्ट डिटेक्शन मॉडल है, क्लासिफायर नहीं। यह एक ही फॉरवर्ड पास में एक साथ बाउंडिंग बॉक्स और क्लास प्रोबेबिलिटी का अनुमान लगाता है, जिससे यह सबसे तेज़ रियल-टाइम डिटेक्टर में से एक बन जाता है। YOLO आर्किटेक्चर के क्लासिफिकेशन वेरिएंट हैं, लेकिन ओरिजिनल और सबसे पॉपुलर वर्शन डिटेक्शन के लिए डिज़ाइन किए गए हैं।
इन मॉडलों को चलाने के लिए आपको किस हार्डवेयर की ज़रूरत है?
क्लासिफिकेशन मॉडल CPU पर इनफेरेंस के लिए आराम से चल सकते हैं, और मोबाइल डिवाइस भी उन्हें अच्छे से हैंडल कर सकते हैं। ऑब्जेक्ट डिटेक्शन के लिए ज़्यादा रिसोर्स चाहिए, खासकर रियल-टाइम एप्लिकेशन के लिए। दोनों कामों की ट्रेनिंग के लिए एक मॉडर्न GPU रिकमेंड किया जाता है, लेकिन YOLOv8-नैनो जैसे ऑप्टिमाइज़्ड डिटेक्टर के लिए इनफेरेंस रास्पबेरी पाई और मोबाइल फ़ोन जैसे एज डिवाइस पर चल सकता है।
आप हर काम के लिए मॉडल की परफॉर्मेंस को कैसे जांचते हैं?
क्लासिफिकेशन में टॉप-1 एक्यूरेसी, टॉप-5 एक्यूरेसी, प्रिसिजन, रिकॉल और F1-स्कोर जैसे मेट्रिक्स का इस्तेमाल होता है। ऑब्जेक्ट डिटेक्शन में अलग-अलग IoU थ्रेशहोल्ड पर कैलकुलेट किए गए मीन एवरेज प्रिसिजन (mAP) का इस्तेमाल होता है, जैसे mAP@0.5 या mAP@0.5:0.95 (COCO मेट्रिक)। डिटेक्शन इवैल्यूएशन ज़्यादा मुश्किल है क्योंकि इसमें क्लासिफिकेशन करेक्टनेस और लोकलाइज़ेशन एक्यूरेसी दोनों का ध्यान रखना होता है।
क्या ट्रांसफॉर्मर का इस्तेमाल दोनों कामों के लिए किया जा सकता है?
हाँ, विज़न ट्रांसफ़ॉर्मर (ViT) और उनके वेरिएंट क्लासिफ़िकेशन और डिटेक्शन दोनों के लिए अच्छे से काम करते हैं। DETR (डिटेक्शन ट्रांसफ़ॉर्मर) एक पायनियरिंग मॉडल था जिसने ट्रांसफ़ॉर्मर को ऑब्जेक्ट डिटेक्शन के लिए एंड-टू-एंड अप्लाई किया। स्विन ट्रांसफ़ॉर्मर जैसे मॉडल दोनों कामों के लिए बैकबोन का काम करते हैं, और जब काफ़ी ट्रेनिंग डेटा मौजूद होता है तो अक्सर लेटेस्ट रिज़ल्ट देते हैं।
निर्णय
इमेज क्लासिफिकेशन तब चुनें जब आपको इमेज को उनके पूरे कंटेंट के आधार पर जल्दी से कैटेगरी में बांटना हो और आपको जगह की जानकारी की ज़रूरत न हो, खासकर कम रिसोर्स वाले माहौल में। ऑब्जेक्ट डिटेक्शन तब चुनें जब आपके एप्लिकेशन को यह जानने की ज़रूरत हो कि कौन सी ऑब्जेक्ट मौजूद हैं और वे कहाँ दिखाई देती हैं, और बेहतर आउटपुट के लिए ज़्यादा कम्प्यूटेशनल कॉस्ट को एक ज़रूरी ट्रेड-ऑफ़ के तौर पर स्वीकार करें।