ज़ीरो-शॉट इमेज रिट्रीवल, सिमेंटिक डिस्क्रिप्शन का इस्तेमाल करके ट्रेनिंग के दौरान कभी न देखी गई क्लास से विज़ुअल कंटेंट की पहचान करता है, जबकि सुपरवाइज्ड क्लासिफिकेशन सिस्टम को हर उस कैटेगरी के लिए लेबल वाले उदाहरणों की ज़रूरत होती है जिसे वे पहचानते हैं। दोनों कंप्यूटर विज़न के काम करते हैं लेकिन वे ज्ञान हासिल करने और नए इनपुट को संभालने के तरीके में बुनियादी तौर पर अलग हैं।
मुख्य बातें
ज़ीरो-शॉट रिट्रीवल सिमेंटिक डिस्क्रिप्शन के ज़रिए अनसीन क्लास को पहचानता है, जबकि सुपरवाइज्ड सिस्टम को हर कैटेगरी के लिए लेबल वाले उदाहरणों की ज़रूरत होती है।
सुपरवाइज्ड क्लासिफिकेशन जानी-पहचानी क्लास पर ज़्यादा एक्यूरेसी हासिल करता है, लेकिन इसके ट्रेनिंग डिस्ट्रीब्यूशन से आगे जनरलाइज़ नहीं कर सकता।
ज़ीरो-शॉट तरीका बिना रीट्रेनिंग के नई कैटेगरी में स्केल करता है, जिससे ऑपरेशनल कॉस्ट में काफ़ी कमी आती है।
CLIP जैसे मॉडर्न विज़न-लैंग्वेज मॉडल ने दोनों पैराडाइम की ताकत को मिलाकर एक आर्किटेक्चर बनाया है।
शून्य-शॉट छवि पुनर्प्राप्ति क्या है?
एक कंप्यूटर विज़न तरीका जो लेबल वाले ट्रेनिंग उदाहरणों के बजाय सिमेंटिक एम्बेडिंग का इस्तेमाल करके अनदेखी कैटेगरी से मैच करती इमेज ढूंढता है।
यह देखी और अनदेखी क्लास को जोड़ने के लिए सहायक सिमेंटिक जानकारी जैसे एट्रिब्यूट डिस्क्रिप्शन, वर्ड एम्बेडिंग, या टेक्स्ट कैप्शन पर निर्भर करता है।
DeViSE जैसे मॉडल के ज़रिए शुरुआत की, जिसने विज़ुअल फ़ीचर्स को word2vec एम्बेडिंग के साथ अलाइन किया ताकि अनदेखे लेबल्स को पहचाना जा सके।
आमतौर पर SUN Attribute, aPY, और Animals with Attributes (AwA) जैसे डेटासेट पर इसका मूल्यांकन किया जाता है, जो स्ट्रक्चर्ड क्लास मेटाडेटा देते हैं।
जॉइंट एम्बेडिंग स्पेस का इस्तेमाल करता है, जहाँ इमेज और क्लास डिस्क्रिप्शन एक जैसी तुलना के लिए एक ही वेक्टर स्पेस में रहते हैं।
यह तब खास तौर पर काम का होता है जब हर मुमकिन कैटेगरी के लिए लेबल वाला ट्रेनिंग डेटा इकट्ठा करना प्रैक्टिकल नहीं या नामुमकिन हो।
पर्यवेक्षित वर्गीकरण प्रणालियाँ क्या है?
ट्रेडिशनल मशीन लर्निंग मॉडल जो बहुत सारे मैन्युअली लेबल किए गए ट्रेनिंग डेटा का इस्तेमाल करके इमेज को पहले से तय क्लास में कैटेगराइज़ करते हैं।
स्टैंडर्ड बेंचमार्क पर भरोसेमंद सटीकता पाने के लिए हर क्लास में हज़ारों से लाखों लेबल वाले उदाहरणों की ज़रूरत होती है।
ResNet, EfficientNet, और Vision Transformers जैसे कन्वोल्यूशनल आर्किटेक्चर मॉडर्न सुपरवाइज्ड इमेज क्लासिफिकेशन पाइपलाइन पर हावी हैं।
परफॉर्मेंस को आम तौर पर इमेजनेट जैसे डेटासेट से लिए गए टेस्ट सेट पर टॉप-1 और टॉप-5 एक्यूरेसी का इस्तेमाल करके मापा जाता है।
नए लेबल वाले डेटा पर रीट्रेनिंग या फ़ाइन-ट्यूनिंग के बिना ट्रेनिंग सेट में मौजूद कैटेगरी को पहचाना नहीं जा सकता।
मेडिकल इमेजिंग डायग्नोस्टिक्स, कंटेंट मॉडरेशन और क्वालिटी कंट्रोल समेत कई प्रोडक्शन सिस्टम की रीढ़ की हड्डी बनाता है।
तुलना तालिका
विशेषता
शून्य-शॉट छवि पुनर्प्राप्ति
पर्यवेक्षित वर्गीकरण प्रणालियाँ
प्रशिक्षण डेटा आवश्यकता
सिर्फ़ सिमेंटिक डिस्क्रिप्शन, अनसीन क्लास के लिए लेबल वाली इमेज की ज़रूरत नहीं है
हर क्लास के लिए बड़ी मात्रा में लेबल वाली इमेज की ज़रूरत होती है
नई श्रेणियों को संभालना
ट्रेनिंग के दौरान कभी नहीं देखी गई क्लास को पहचान सकता है
ट्रेनिंग डिस्ट्रीब्यूशन के बाहर की कैटेगरी को हैंडल नहीं किया जा सकता
ज्ञान स्रोत
साइड जानकारी जैसे एट्रिब्यूट, टेक्स्ट एम्बेडिंग, या नॉलेज ग्राफ़
लेबल वाली इमेज के उदाहरणों से सीधे सीखे गए पैटर्न
देखी गई क्लास पर सामान्य सटीकता
आम तौर पर पर्यवेक्षित समकक्षों की तुलना में कम
स्टैंडर्ड बेंचमार्क पर स्टेट-ऑफ़-द-आर्ट परफॉर्मेंस
SUN Attribute, aPY, Animals with Attributes, CUB-200
इमेजनेट, CIFAR-10/100, COCO, MNIST
परिनियोजन जटिलता
सिमेंटिक मेटाडेटा इंफ्रास्ट्रक्चर की ज़रूरत के कारण ज़्यादा
मैच्योर फ्रेमवर्क और प्रीट्रेन्ड चेकपॉइंट के साथ कम करें
विस्तृत तुलना
सीखने का प्रतिमान और डेटा की ज़रूरतें
सबसे बुनियादी फ़र्क यह है कि हर सिस्टम विज़ुअल कंटेंट को पहचानने की क्षमता कैसे हासिल करता है। सुपरवाइज़्ड क्लासिफ़िकेशन सीधे लेबल वाली इमेज के उदाहरणों से सीखता है, ऐसे स्टैटिस्टिकल पैटर्न बनाता है जो पिक्सेल डेटा को पहले से तय कैटेगरी में मैप करते हैं। ज़ीरो-शॉट रिट्रीवल एक बिल्कुल अलग रास्ता अपनाता है, यह विज़ुअल फ़ीचर को सिमेंटिक डिस्क्रिप्शन के साथ जोड़ना सीखता है ताकि यह उन क्लास के लिए जनरलाइज़ कर सके जिनसे यह कभी विज़ुअली नहीं मिला है। यह ज़ीरो-शॉट अप्रोच को उन डोमेन में खास तौर पर आकर्षक बनाता है जहाँ लेबलिंग महंगी होती है या जहाँ कैटेगरी स्पेस ओपन-एंडेड होता है।
प्रदर्शन समझौता
सुपरवाइज़्ड सिस्टम ट्रेनिंग डेटा में मौजूद क्लास पर ज़ीरो-शॉट मेथड से लगातार बेहतर परफॉर्म करते हैं क्योंकि उनके पास सीखने के लिए सीधे विज़ुअल उदाहरण होते हैं। हालांकि, यह फ़ायदा तब गायब हो जाता है जब सच में नई कैटेगरी का सामना करना पड़ता है। ज़ीरो-शॉट रिट्रीवल पूरी तरह से नए कॉन्सेप्ट को संभालने की फ़्लेक्सिबिलिटी के बदले में जानी-मानी क्लास पर कुछ पीक एक्यूरेसी को छोड़ देता है। CLIP जैसे मॉडर्न फ़ाउंडेशन मॉडल ने इस अंतर को काफ़ी कम कर दिया है, बड़े पैमाने पर इमेज-टेक्स्ट प्रीट्रेनिंग के ज़रिए कॉम्पिटिटिव ज़ीरो-शॉट परफ़ॉर्मेंस हासिल की है।
व्यावहारिक उपयोग के मामले
सुपरवाइज़्ड क्लासिफिकेशन अच्छी तरह से तय, क्लोज्ड-वर्ल्ड सिनेरियो में बहुत अच्छा काम करता है, जैसे मैन्युफैक्चरिंग में डिफेक्ट का पता लगाना, कंट्रोल्ड डेटासेट में स्पीशीज़ की पहचान करना, या मेडिकल इमेजिंग जहाँ लेबल्ड डेटा मौजूद हो। ज़ीरो-शॉट रिट्रीवल ओपन-वोकैबुलरी सेटिंग्स जैसे विज़ुअल सर्च इंजन, बड़े कैटलॉग से कंटेंट-बेस्ड इमेज रिट्रीवल, और ऐसे एप्लिकेशन में अच्छा काम करता है जहाँ यूज़र ऐसे कॉन्सेप्ट खोज सकते हैं जिन पर सिस्टम को कभी खास तौर पर ट्रेन नहीं किया गया था। कई रियल-वर्ल्ड सिस्टम अब ज़्यादा से ज़्यादा कवरेज के लिए दोनों तरीकों को मिलाते हैं।
मापनीयता और रखरखाव
सुपरवाइज्ड सिस्टम में नई कैटेगरी जोड़ने का मतलब है सैकड़ों या हज़ारों लेबल वाली इमेज इकट्ठा करना और मॉडल को फिर से ट्रेन करना, जो एक महंगा और समय लेने वाला प्रोसेस है। ज़ीरो-शॉट रिट्रीवल ऑपरेटर्स को सिर्फ़ सिमेंटिक डिस्क्रिप्शन लिखकर या सोर्स करके नई क्लास शुरू करने की सुविधा देता है, जिससे पहचानने की क्षमता बढ़ाने का ऑपरेशनल ओवरहेड काफ़ी कम हो जाता है। यह अंतर तेज़ी से बदलते डोमेन में बहुत ज़रूरी हो जाता है जहाँ नई प्रोडक्ट कैटेगरी, उभरते हुए खतरे, या बदलती हुई टर्मिनोलॉजी रेगुलर तौर पर आती रहती हैं।
वास्तुशिल्प नींव
सुपरवाइज़्ड क्लासिफिकेशन में आम तौर पर सिंगल-टॉवर आर्किटेक्चर का इस्तेमाल होता है जो सॉफ्टमैक्स लेयर्स के ज़रिए इमेज को सीधे क्लास की संभावनाओं से मैप करता है। ज़ीरो-शॉट रिट्रीवल में आम तौर पर डुअल-एनकोडर या सियामीज़-स्टाइल डिज़ाइन का इस्तेमाल होता है जो इमेज और क्लास डिस्क्रिप्शन दोनों को एक शेयर्ड एम्बेडिंग स्पेस में प्रोजेक्ट करता है जहाँ समानता को मापा जा सकता है। विज़न-लैंग्वेज मॉडल में हाल की तरक्की ने इन लाइनों को धुंधला कर दिया है, जिसमें यूनिफाइड आर्किटेक्चर नेचुरल लैंग्वेज प्रॉम्प्ट के ज़रिए क्लासिफिकेशन और रिट्रीवल दोनों में सक्षम हैं।
लाभ और हानि
शून्य-शॉट छवि पुनर्प्राप्ति
लाभ
+किसी लेबल वाले ट्रेनिंग डेटा की ज़रूरत नहीं है
+नई कैटेगरी को आसानी से हैंडल करता है
+लचीली और खुली शब्दावली
+कम डेटा संग्रह लागत
सहमत
−देखी गई कक्षाओं पर कम सटीकता
−सिमेंटिक जानकारी की क्वालिटी पर निर्भर करता है
−अधिक जटिल परिनियोजन
−विफलताओं को डीबग करना कठिन
पर्यवेक्षित वर्गीकरण प्रणालियाँ
लाभ
+अत्याधुनिक सटीकता
+परिपक्व टूलिंग और फ्रेमवर्क
+सुबोध व्यवहार
+मूल्यांकन और बेंचमार्क करना आसान
सहमत
−विस्तृत लेबल्ड डेटा की आवश्यकता है
−अनदेखी क्लास को हैंडल नहीं कर सकता
−कैटेगरी जोड़ना महंगा है
−अपडेट के लिए रीट्रेनिंग की ज़रूरत है
सामान्य भ्रांतियाँ
मिथ
ज़ीरो-शॉट लर्निंग का मतलब है कि मॉडल को कोई ट्रेनिंग नहीं दी गई है।
वास्तविकता
ज़ीरो-शॉट मॉडल्स को अभी भी सीन क्लासेस और सिमेंटिक एसोसिएशन्स पर काफी ट्रेनिंग दी जाती है। 'ज़ीरो-शॉट' लेबल खास तौर पर इंफरेंस टाइम पर अनसीन कैटेगरीज़ को जनरलाइज़ करने की उनकी क्षमता को बताता है, न कि किसी लर्निंग प्रोसेस की कमी को।
मिथ
सुपरवाइज्ड क्लासिफायर हमेशा ज़ीरो-शॉट सिस्टम से बेहतर परफॉर्म करते हैं।
वास्तविकता
यह सिर्फ़ ट्रेनिंग सेट में मौजूद कैटेगरी के लिए सही है। नई क्लास पर, जिनका सुपरवाइज़्ड मॉडल ने कभी सामना नहीं किया है, उनकी एक्यूरेसी ज़ीरो हो जाती है, जबकि ज़ीरो-शॉट सिस्टम अभी भी सिमेंटिक ट्रांसफर के ज़रिए काम के प्रेडिक्शन दे सकते हैं।
मिथ
ज़ीरो-शॉट रिट्रीवल से किसी भी डेटा तैयारी की ज़रूरत खत्म हो जाती है।
वास्तविकता
हालांकि अनसीन क्लास के लिए लेबल वाली इमेज की ज़रूरत नहीं होती, लेकिन ज़ीरो-शॉट सिस्टम हाई-क्वालिटी सिमेंटिक डिस्क्रिप्शन, एट्रिब्यूट एनोटेशन या टेक्स्ट एम्बेडिंग पर बहुत ज़्यादा निर्भर करते हैं। इस सहायक जानकारी को क्यूरेट करना अपने आप में एक बड़ी मेहनत हो सकती है।
मिथ
ज़्यादा ट्रेनिंग डेटा हमेशा सुपरवाइज़्ड क्लासिफायर को हमेशा के लिए बेहतर बनाता है।
वास्तविकता
एक्स्ट्रा डेटा से मिलने वाले परफॉर्मेंस में फायदा कम होता जाता है और आखिर में यह एक जगह पर आ जाता है। लेबल क्वालिटी, क्लास बैलेंस और डेटा डाइवर्सिटी जैसे फैक्टर अक्सर रॉ क्वांटिटी से ज़्यादा मायने रखते हैं, खासकर डीप लर्निंग मॉडल्स के लिए जिनमें नॉइज़ी लेबल पर ओवरफिटिंग का खतरा होता है।
मिथ
असल में ये दोनों तरीके एक-दूसरे से अलग हैं।
वास्तविकता
कई प्रोडक्शन सिस्टम दोनों पैराडाइम को मिलाते हैं, हाई-कॉन्फिडेंस वाली जानी-मानी कैटेगरी के लिए सुपरवाइज्ड क्लासिफायर का इस्तेमाल करते हैं, जबकि लॉन्ग-टेल या नई क्वेरी के लिए ज़ीरो-शॉट रिट्रीवल पर वापस जाते हैं। हाइब्रिड आर्किटेक्चर अक्सर अकेले इस्तेमाल किए गए किसी भी तरीके से बेहतर परफॉर्म करते हैं।
अक्सर पूछे जाने वाले सवाल
ज़ीरो-शॉट इमेज रिट्रीवल और सुपरवाइज्ड क्लासिफिकेशन के बीच मुख्य अंतर क्या है?
मुख्य अंतर यह है कि हर सिस्टम कैटेगरी को कैसे हैंडल करता है। सुपरवाइज़्ड क्लासिफिकेशन सिर्फ़ उन्हीं क्लास को पहचान सकता है जिन पर उसे लेबल वाले उदाहरणों के साथ साफ़ तौर पर ट्रेन किया गया हो। ज़ीरो-शॉट इमेज रिट्रीवल उन क्लास से इमेज की पहचान कर सकता है जिन्हें उसने ट्रेनिंग के दौरान कभी नहीं देखा है, यह जानी-पहचानी और अनजान कैटेगरी के बीच के अंतर को भरने के लिए सिमेंटिक डिस्क्रिप्शन, एट्रिब्यूट या टेक्स्ट एम्बेडिंग का इस्तेमाल करता है।
क्या ज़ीरो-शॉट लर्निंग पूरी तरह से सुपरवाइज्ड क्लासिफिकेशन की जगह ले सकती है?
पूरी तरह से नहीं। जबकि ज़ीरो-शॉट अप्रोच बहुत ज़्यादा फ्लेक्सिबिलिटी देते हैं, सुपरवाइज्ड सिस्टम अभी भी बहुत सारे लेबल्ड ट्रेनिंग डेटा वाली क्लास पर ज़्यादा एक्यूरेसी हासिल करते हैं। ज़्यादातर प्रैक्टिशनर ज़ीरो-शॉट का इस्तेमाल ओपन-वोकैबुलरी सिनेरियो के लिए या सुपरवाइज्ड मॉडल के कॉम्प्लिमेंट के तौर पर करते हैं, न कि पूरी तरह से रिप्लेसमेंट के तौर पर, खासकर सेफ्टी-क्रिटिकल एप्लीकेशन में।
CLIP का ज़ीरो-शॉट इमेज रिट्रीवल से क्या संबंध है?
OpenAI का CLIP (कंट्रास्टिव लैंग्वेज-इमेज प्रीट्रेनिंग) बड़े पैमाने पर ज़ीरो-शॉट क्षमताओं के सबसे सफल इम्प्लीमेंटेशन में से एक है। करोड़ों इमेज-टेक्स्ट पेयर पर ट्रेन किया गया, CLIP एक जॉइंट एम्बेडिंग स्पेस सीखता है जहाँ इमेज और टेक्स्ट डिस्क्रिप्शन की सीधे तुलना की जा सकती है, जिससे सिर्फ़ टेक्स्ट प्रॉम्प्ट के तौर पर क्लास नाम देकर ज़ीरो-शॉट क्लासिफिकेशन किया जा सकता है।
ज़ीरो-शॉट सिस्टम किस तरह की सिमेंटिक जानकारी का इस्तेमाल करते हैं?
ज़ीरो-शॉट सिस्टम आम तौर पर एट्रिब्यूट वेक्टर (जैसे 'धारियां हैं', 'पानी में रहता है'), word2vec या GloVe जैसे मॉडल से वर्ड एम्बेडिंग, नेचुरल लैंग्वेज में क्लास डिस्क्रिप्शन, या नॉलेज ग्राफ़ से हायरार्किकल रिलेशनशिप पर निर्भर करते हैं। यह सहायक जानकारी जितनी ज़्यादा रिच और सटीक होगी, ज़ीरो-शॉट मॉडल उतनी ही बेहतर तरीके से नॉलेज को अनदेखी कैटेगरी में ट्रांसफर कर पाएगा।
इंडस्ट्री में सुपरवाइज्ड क्लासिफिकेशन अभी भी क्यों हावी है?
सुपरवाइज़्ड क्लासिफिकेशन अभी भी आम है क्योंकि यह अच्छी तरह से तय समस्याओं पर अंदाज़ा लगाने लायक, हाई-एक्यूरेसी नतीजे देता है। मेडिकल इमेजिंग, मैन्युफैक्चरिंग क्वालिटी कंट्रोल और ऑटोनॉमस ड्राइविंग जैसी इंडस्ट्रीज़ ने लेबल्ड डेटासेट में भारी इन्वेस्ट किया है और सुपरवाइज़्ड पाइपलाइन की मैच्योरिटी, इंटरप्रेटेबिलिटी और बेंचमार्क्ड परफॉर्मेंस से फ़ायदा उठाते हैं।
एक सुपरवाइज्ड क्लासिफायर को आम तौर पर कितने लेबल्ड डेटा की ज़रूरत होती है?
ज़रूरतें कॉम्प्लेक्सिटी के हिसाब से अलग-अलग होती हैं, लेकिन ImageNet पर लेटेस्ट मॉडल्स को आम तौर पर 1,000 क्लास में लगभग 1.2 मिलियन लेबल्ड इमेज के साथ ट्रेन किया जाता है। कस्टम एप्लिकेशन्स के लिए, हर क्लास में हज़ारों एग्जांपल आम हैं, हालांकि प्रीट्रेन्ड मॉडल्स से ट्रांसफर लर्निंग कई मामलों में इसे हर कैटेगरी में सैकड़ों एग्जांपल तक कम कर सकती है।
क्या ज़ीरो-शॉट मॉडल, उसी क्लास में सुपरवाइज़्ड मॉडल की तुलना में कम सटीक होते हैं?
आम तौर पर हाँ, हालांकि यह अंतर काफी कम हो गया है। ट्रेनिंग के दौरान देखी गई क्लास में, सुपरवाइज्ड मॉडल आमतौर पर बढ़त बनाए रखते हैं क्योंकि वे सीधे विज़ुअल उदाहरणों से सीखते हैं। हालांकि, वेब-स्केल डेटा पर ट्रेन किए गए मॉडर्न विज़न-लैंग्वेज मॉडल ने दिखाया है कि ज़ीरो-शॉट परफॉर्मेंस कई प्रैक्टिकल सिनेरियो में सुपरवाइज्ड बेसलाइन तक पहुंच सकता है।
ज़ीरो-शॉट इमेज रिट्रीवल को इवैल्यूएट करने के लिए सबसे अच्छे डेटासेट कौन से हैं?
पॉपुलर बेंचमार्क में एनिमल्स विद एट्रिब्यूट्स (AwA) शामिल हैं, जो 50 एनिमल क्लास के लिए 85 एट्रिब्यूट देता है; SUN एट्रिब्यूट, जो विज़ुअल एट्रिब्यूट के साथ 717 सीन कैटेगरी को कवर करता है; aPY (एट्रिब्यूट पास्कल-याहू), जो पास्कल VOC और याहू इमेज को मिलाता है; और CUB-200, एक बारीक बर्ड स्पीशीज़ डेटासेट जिसमें हर क्लास के लिए 312 बाइनरी एट्रिब्यूट हैं।
क्या ज़ीरो-शॉट सिस्टम कस्टम डोमेन-स्पेसिफिक कैटेगरी के साथ काम कर सकते हैं?
हाँ, लेकिन असर इस बात पर निर्भर करता है कि सिमेंटिक डिस्क्रिप्शन कितने अच्छे से मतलब वाले अंतरों को पकड़ते हैं। इंडस्ट्रियल पार्ट्स या दुर्लभ प्रजातियों जैसे खास डोमेन के लिए, आपको डिटेल्ड एट्रिब्यूट लिस्ट बनाने या डोमेन-स्पेसिफिक टेक्स्ट पर एम्बेडिंग मॉडल को ठीक करने की ज़रूरत हो सकती है। आम वेब डेटा पर ट्रेन किए गए ऑफ-द-शेल्फ ज़ीरो-शॉट मॉडल बहुत ज़्यादा टेक्निकल शब्दों के साथ मुश्किल महसूस कर सकते हैं।
आप कैसे तय करते हैं कि किसी नए प्रोजेक्ट के लिए कौन सा तरीका इस्तेमाल करना है?
अपने डेटा की अवेलेबिलिटी और कैटेगरी स्टेबिलिटी को असेस करके शुरू करें। अगर आपके पास बहुत सारा लेबल्ड डेटा और क्लास का एक फिक्स्ड सेट है, तो सुपरवाइज्ड क्लासिफिकेशन सबसे अच्छी एक्यूरेसी देता है। अगर आपकी कैटेगरी बार-बार बदलती हैं, लेबल्ड डेटा लिमिटेड है, या आपको ओपन-एंडेड क्वेरी को हैंडल करना है, तो ज़ीरो-शॉट रिट्रीवल आपको ज़रूरी फ्लेक्सिबिलिटी देता है। हाइब्रिड अप्रोच अक्सर कॉम्प्लेक्स रियल-वर्ल्ड एप्लिकेशन के लिए सबसे अच्छा काम करते हैं।
निर्णय
जब आपके पास बहुत सारा लेबल्ड डेटा, कैटेगरी का एक तय सेट हो, और जानी-पहचानी क्लास पर ज़्यादा से ज़्यादा एक्यूरेसी की ज़रूरत हो, तो सुपरवाइज़्ड क्लासिफिकेशन चुनें। जब आपकी कैटेगरी की जगह ओपन-एंडेड हो, लेबल्ड डेटा कम हो, या आपको बिना रीट्रेनिंग के नए कॉन्सेप्ट को पहचानने की फ्लेक्सिबिलिटी चाहिए, तो ज़ीरो-शॉट इमेज रिट्रीवल चुनें। कई प्रोडक्शन सिस्टम एक्यूरेसी और अडैप्टेबिलिटी के बीच बैलेंस बनाने के लिए दोनों तरीकों को मिलाने से फ़ायदा उठाते हैं।