Comparthing Logo
अंक शास्त्रडेटा-विज्ञानलीनियर अलजेब्रायंत्र अधिगम

प्रिंसिपल कंपोनेंट्स बनाम सिंगुलर वैल्यूज़

हालांकि डेटा साइंटिस्ट अक्सर डाइमेंशनैलिटी रिडक्शन में दोनों शब्दों का सामना करते हैं, प्रिंसिपल कंपोनेंट डेटासेट में मैक्सिमम वेरिएंस की दिशाओं को बताते हैं, जबकि सिंगुलर वैल्यू मैट्रिक्स डीकंपोज़िशन के दौरान उन ज्योमेट्रिक एक्सिस के साथ स्केलिंग के मैग्नीट्यूड को मापते हैं। PCA और SVD जैसे एल्गोरिदम में महारत हासिल करने के लिए उनके मैथमेटिकल ब्रिज को समझना ज़रूरी है।

मुख्य बातें

  • प्रिंसिपल कंपोनेंट डेटा वेरिएंस का स्पेशल ओरिएंटेशन तय करते हैं, जबकि सिंगुलर वैल्यू स्केल तय करती हैं।
  • एक सीधा मैथमेटिकल ब्रिज उन्हें तभी जोड़ता है जब अंदरूनी डेटा मैट्रिक्स ठीक से मीन-सेंटर्ड हो।
  • SVD सीधे सिंगुलर वैल्यूज़ को कैलकुलेट करता है, जिससे प्रिंसिपल कंपोनेंट्स को खोजने के लिए न्यूमेरिकली ज़्यादा स्टेबल रास्ता मिलता है।
  • प्रिंसिपल कंपोनेंट्स एक दूसरे के ऑर्थोगोनल होने चाहिए, जबकि सिंगुलर वैल्यूज़ पूरी तरह से नॉन-नेगेटिव रियल नंबर्स होती हैं।

मूल घटक क्या है?

ऑर्थोगोनल वेक्टर जो मैक्सिमम वेरिएंस की दिशा में इशारा करते हैं, हाई-डाइमेंशनल डेटा को आसान और छोटा करने में मदद करते हैं।

  • वे सीधे डेटासेट के कोवेरिएंस मैट्रिक्स के आइगनवेक्टर से मेल खाते हैं।
  • पहला प्रिंसिपल कंपोनेंट डेटा में सबसे ज़्यादा वेरिएंस के लिए ज़िम्मेदार है।
  • हर अगला कॉम्पोनेंट अपने पहले वाले कॉम्पोनेंट के बिल्कुल बराबर होता है, जिससे ज़ीरो कोरिलेशन पक्का होता है।
  • वे डेटा स्केलिंग पर बहुत ज़्यादा निर्भर करते हैं, जिससे मीन-सेंटरिंग एक ज़रूरी प्रीप्रोसेसिंग स्टेप बन जाता है।
  • इंजीनियर इनका इस्तेमाल जानकारी को सुरक्षित रखते हुए हाई-डाइमेंशनल जगहों को निचले डाइमेंशन में प्रोजेक्ट करने के लिए करते हैं।

एकवचन मान क्या है?

एक सिंगुलर वैल्यू मैट्रिक्स की डायगोनल एंट्री, जो एक लीनियर ट्रांसफॉर्मेशन के एब्सोल्यूट स्केलिंग फैक्टर्स को दिखाती हैं।

  • इन्हें मैट्रिक्स के आइजेन वैल्यू के पॉजिटिव स्क्वायर रूट को उसके ट्रांसपोज़ से गुणा करके कैलकुलेट किया जाता है।
  • हर रियल मैट्रिक्स, चाहे वह स्क्वायर हो या रेक्टेंगुलर, में सिंगुलर वैल्यू का एक यूनिक सेट होता है।
  • इन्हें आम तौर पर SVD में सिग्मा मैट्रिक्स के डायगोनल के साथ घटते क्रम में लगाया जाता है।
  • ज़ीरो का सिंगुलर वैल्यू बताता है कि मैट्रिक्स रैंक-डेफ़िशिएंट या सिंगुलर है।
  • वे एक यूनिट स्फीयर पर लीनियर ट्रांसफॉर्मेशन की वजह से होने वाले ज्योमेट्रिक स्ट्रेचिंग या डिस्टॉर्शन को मापते हैं।

तुलना तालिका

विशेषता मूल घटक एकवचन मान
गणितीय उत्पत्ति सहप्रसरण मैट्रिक्स आइगनवेक्टर मैट्रिक्स अपघटन (एसवीडी) कारक
ज्यामितीय व्याख्या अधिकतम विचरण की दिशाएँ मुख्य अक्षों की लंबाई मापना
डेटा आवश्यकता स्टैटिस्टिकल मतलब के लिए मीन-सेंटर्ड डेटा की ज़रूरत होती है किसी भी मनमाने आयताकार या वर्ग मैट्रिक्स पर लागू होता है
आइजेनवैल्यू से संबंध सहप्रसरण मैट्रिक्स के आइजेन मानों के बराबर मैट्रिक्स प्रोडक्ट के आइजेन वैल्यू के वर्गमूल के बराबर
प्राथमिक आवेदन आयाम में कमी और विशेषता निष्कर्षण मैट्रिक्स इनवर्जन, स्यूडो-इनवर्स कैलकुलेशन, और लो-रैंक एप्रोक्सिमेशन
पैमाने पर निर्भरता डेटा को शिफ्ट या स्केल करके काफ़ी बदला गया विघटित हो रहे विशिष्ट मैट्रिक्स की अंतर्निहित संपत्ति
भौतिक व्याख्या डेटा क्लाउड एलिप्सॉइड के अक्ष एक रूपांतरित इकाई गोले के खिंचाव कारक

विस्तृत तुलना

कोर परिभाषा और अवधारणा

प्रिंसिपल कंपोनेंट उन खास दिशाओं को दिखाते हैं जहाँ डेटा सबसे ज़्यादा बदलता है, और ये एक ऑप्टिमाइज़्ड कोऑर्डिनेट सिस्टम के लिए नए एक्सिस के तौर पर काम करते हैं। इसके उलट, सिंगुलर वैल्यू स्केलर क्वांटिटी होती हैं जो बताती हैं कि एक मैट्रिक्स उन एक्सिस के साथ स्पेस को कितना फैलाता या दबाता है। जहाँ एक आपको डेटा क्लाउड का ओरिएंटेशन देता है, वहीं दूसरा खुद ट्रांसफॉर्मेशन के मैग्नीट्यूड को मापता है।

गणितीय गणना

पारंपरिक रूप से प्रिंसिपल कंपोनेंट खोजने के लिए, आपको डेटासेट के कोवेरिएंस मैट्रिक्स के आइगनवेक्टर को कैलकुलेट करना होगा। सिंगुलर वैल्यू, सिंगुलर वैल्यू डीकंपोज़िशन से निकलती हैं, जहाँ कोई भी मैट्रिक्स तीन अलग-अलग कंपोनेंट मैट्रिक्स में बंट जाता है। जब आप मीन घटाकर अपने डेटा को सेंटर करते हैं, तो सिंगुलर वैल्यू के स्क्वेयर को सैंपल साइज़ माइनस एक से डिवाइड करने पर वह प्रिंसिपल कंपोनेंट का वैरिएंस पूरी तरह से बराबर हो जाता है।

डेटा प्रीप्रोसेसिंग के प्रति संवेदनशीलता

अगर आप अपने डेटा को मीन-सेंटर या स्टैंडर्डाइज़ करना भूल जाते हैं, तो प्रिंसिपल कंपोनेंट बहुत ज़्यादा बदल जाते हैं, क्योंकि स्टैटिस्टिकल वेरिएंस ओरिजिन पॉइंट और वेरिएबल स्केल पर बहुत ज़्यादा निर्भर करता है। हालांकि, सिंगुलर वैल्यू दिए गए रॉ मैट्रिक्स की एक बुनियादी अलजेब्रिक प्रॉपर्टी हैं। वे स्टैटिस्टिकल अंदाज़ों की परवाह नहीं करते, जब तक कि यूज़र जानबूझकर पहले एक सेंटर्ड कोवेरिएंस जैसा मैट्रिक्स न बना ले।

उद्योग में व्यावहारिक अनुप्रयोग

डेटा एनालिस्ट सिंपल टू-डाइमेंशनल प्लॉट पर कॉम्प्लेक्स, हाई-डाइमेंशनल डेटासेट को विज़ुअलाइज़ करने के लिए प्रिंसिपल कंपोनेंट्स पर भरोसा करते हैं। दूसरी ओर, कंप्यूटर विज़न इंजीनियर लो-रैंक मैट्रिक्स एप्रोक्सिमेशन के ज़रिए इमेज कम्प्रेशन और रिकमेंडेशन सिस्टम के लिए सिंगुलर वैल्यू का इस्तेमाल करते हैं। SVD असल में PCA के पीछे पसंदीदा न्यूमेरिकल इंजन है क्योंकि सिंगुलर वैल्यू को कैलकुलेट करने से कोवेरिएंस मैट्रिक्स बनाते समय होने वाले प्रिसिजन के नुकसान से बचा जा सकता है।

लाभ और हानि

मूल घटक

लाभ

  • + डेटा विज़ुअलाइज़ेशन के लिए बहुत बढ़िया
  • + बहुसंरेखीयता को समाप्त करता है
  • + शोर को प्रभावी ढंग से कम करता है
  • + मशीन लर्निंग मॉडल को सरल बनाता है

सहमत

  • प्रत्यक्ष भौतिक अर्थ का अभाव
  • आउटलायर्स के प्रति अत्यधिक संवेदनशील
  • सख्त प्रीप्रोसेसिंग की ज़रूरत है
  • सूचना हानि होती है

एकवचन मान

लाभ

  • + किसी भी मैट्रिक्स पर काम करता है
  • + संख्यात्मक रूप से अत्यधिक स्थिर
  • + कम-रैंक अनुमान के लिए बिल्कुल सही
  • + मैट्रिक्स रैंक तुरंत दिखाता है

सहमत

  • अमूर्त गणितीय अवधारणा
  • विशाल मैट्रिक्स के लिए कम्प्यूटेशनल रूप से महंगा
  • अंतर्निहित सांख्यिकीय संदर्भ का अभाव
  • व्याख्या के लिए रैखिक बीजगणित की आवश्यकता होती है

सामान्य भ्रांतियाँ

मिथ

प्रिंसिपल कंपोनेंट्स और सिंगुलर वैल्यूज़ पूरी तरह से इंडिपेंडेंट कॉन्सेप्ट्स हैं।

वास्तविकता

वे डेटा सेंटरिंग के ज़रिए गहराई से जुड़े हुए हैं। जब किसी डेटा मैट्रिक्स का मीन घटाया जाता है, तो उसकी सिंगुलर वैल्यूज़ प्रिंसिपल कंपोनेंट्स के साथ वेरिएंस के स्क्वेयर रूट्स के सीधे प्रोपोर्शनल होती हैं।

मिथ

प्रिंसिपल कंपोनेंट्स खोजने के लिए आपको हमेशा कोवेरिएंस मैट्रिक्स कैलकुलेट करना होगा।

वास्तविकता

मॉडर्न सॉफ्टवेयर शायद ही कभी कोवेरिएंस मैट्रिक्स को कैलकुलेट करते हैं क्योंकि इससे न्यूमेरिकल राउंडिंग एरर आते हैं। इसके बजाय, एल्गोरिदम सीधे डेटा मैट्रिक्स पर SVD चलाते हैं, जिससे प्रिंसिपल कंपोनेंट ज़्यादा सुरक्षित और अच्छे से निकलते हैं।

मिथ

अगर डेटा नेगेटिव कोरिलेशन दिखाता है, तो सिंगुलर वैल्यू नेगेटिव हो सकती हैं।

वास्तविकता

सिंगुलर वैल्यू, परिभाषा के हिसाब से, एक सिमेट्रिक मैट्रिक्स से आइजेन वैल्यू के पॉजिटिव स्क्वेयर रूट होते हैं। वे हमेशा नॉन-नेगेटिव रियल नंबर होते हैं, जो ओरिजिनल डेटा में कोरिलेशन की परवाह किए बिना, लंबाई या स्ट्रेचिंग फैक्टर को दिखाते हैं।

मिथ

सभी डेटा पॉइंट्स में एक कॉन्सटेंट वैल्यू जोड़ने से सिंगुलर वैल्यू और प्रिंसिपल कंपोनेंट्स एक जैसे बदल जाते हैं।

वास्तविकता

डेटा को एक कॉन्स्टेंट से शिफ्ट करने पर सिंगुलर वैल्यू बदल जाती हैं क्योंकि रॉ मैट्रिक्स एंट्री बदल जाती हैं। हालांकि, क्योंकि प्रिंसिपल कंपोनेंट कोवैरिएंस मैट्रिक्स पर निर्भर करते हैं, जो स्वाभाविक रूप से मीन को घटाता है, इसलिए डेटा को शिफ्ट करने पर प्रिंसिपल कंपोनेंट पूरी तरह से अपरिवर्तित रहते हैं।

मिथ

पहला प्रिंसिपल कंपोनेंट हमेशा सारी ज़रूरी जानकारी कैप्चर करता है।

वास्तविकता

पहला कंपोनेंट सिर्फ़ एक एक्सिस पर मैक्सिमम वेरिएंस को कैप्चर करता है। अगर आपका डेटा स्फेरिकली डिस्ट्रिब्यूटेड है या उसमें क्रिटिकल नॉन-लीनियर पैटर्न हैं, तो एक सिंगल लीनियर कंपोनेंट सबसे ज़रूरी स्ट्रक्चर को पूरी तरह से मिस कर सकता है।

अक्सर पूछे जाने वाले सवाल

आप एक सिंगुलर वैल्यू को प्रिंसिपल कंपोनेंट के वैरिएंस में कैसे बदलते हैं?
अगर आपके पास दिए गए नंबर के सैंपल वाला एक मीन-सेंटर्ड डेटा मैट्रिक्स है, तो आप सिंगुलर वैल्यू को स्क्वेयर करें और उसे सैंपल साइज़ माइनस वन से डिवाइड करें। यह मैथमेटिकल ऑपरेशन कोवेरिएंस मैट्रिक्स की एकदम सही आइजेनवैल्यू देता है, जो उस खास प्रिंसिपल कंपोनेंट द्वारा कैप्चर किए गए वेरिएंस को दिखाता है।
क्या आप SVD का इस्तेमाल किए बिना PCA कर सकते हैं?
हाँ, आप कोवेरिएंस मैट्रिक्स को साफ़ तौर पर कैलकुलेट करके और फिर क्लासिकल आइजेनडेकंपोज़िशन के ज़रिए उसके आइजेनवेक्टर ढूंढकर प्रिंसिपल कंपोनेंट ढूंढ सकते हैं। हालाँकि, यह तरीका SVD मेथड की तुलना में न्यूमेरिकली कम स्टेबल है और इसमें फ्लोटिंग-पॉइंट एरर का ज़्यादा चांस है, इसीलिए SVD इंडस्ट्री स्टैंडर्ड है।
प्रिंसिपल कंपोनेंट्स के लिए डेटा सेंटरिंग इतना ज़रूरी क्यों है?
PCA का मकसद डेटा क्लाउड के सेंटर के आसपास वैरिएंस को ज़्यादा से ज़्यादा करना है। अगर आप डेटा मीन को ओरिजिन पर शिफ्ट नहीं करते हैं, तो पहला प्रिंसिपल कंपोनेंट बस ओरिजिन से डेटा क्लस्टर के सेंटर की ओर पॉइंट करेगा, और वैरिएंस के अंदरूनी ज्योमेट्रिक स्ट्रक्चर को कैप्चर करने में फेल हो जाएगा।
अगर किसी मैट्रिक्स की सिंगुलर वैल्यू ज़ीरो हो तो क्या होगा?
ज़ीरो सिंगुलर वैल्यू का मतलब है कि मैट्रिक्स रैंक-डेफ़िशिएंट है और इसे उल्टा नहीं किया जा सकता। ज्योमेट्रिकली, इसका मतलब है कि लीनियर ट्रांसफ़ॉर्मेशन कम से कम एक डायमेंशन को पूरी तरह से फ़्लैट कर देता है, जिससे वॉल्यूम एक प्लेन या लाइन में सिमट जाता है।
क्या प्रिंसिपल कंपोनेंट्स आइगनवेक्टर्स के समान हैं?
वे आपस में बहुत मिलते-जुलते हैं लेकिन टर्मिनोलॉजी में अलग हैं। प्रिंसिपल कंपोनेंट नए एक्सिस के साथ असल में प्रोजेक्टेड डेटा पॉइंट हैं, हालांकि कई प्रैक्टिशनर आम तौर पर इस शब्द का इस्तेमाल प्रिंसिपल डायरेक्शन के लिए करते हैं, जो असल में कोवेरिएंस मैट्रिक्स के आइगनवेक्टर हैं।
इमेज कम्प्रेशन के लिए कौन सा बेहतर है, PCA या SVD?
SVD को आम तौर पर लो-रैंक एप्रोक्सिमेशन नाम की तकनीक के ज़रिए इमेज कम्प्रेशन के लिए ज़्यादा पसंद किया जाता है और यह ज़्यादा डायरेक्ट होता है। क्योंकि एक इमेज पहले से ही पिक्सल का एक स्ट्रक्चर्ड मैट्रिक्स होती है, न कि इंडिपेंडेंट ऑब्ज़र्वेशन का स्टैटिस्टिकल सैंपल, इसलिए SVD फ़ाइल साइज़ को आसानी से कम करने के लिए सबसे कम सिग्निफिकेंट सिंगुलर वैल्यू को काट देता है।
मुझे एक मॉडल में कितने मुख्य कॉम्पोनेंट रखने चाहिए?
एक आम तरीका है स्क्री प्लॉट को देखना या सिंगुलर वैल्यू का इस्तेमाल करके कुल एक्सप्लेंड वेरिएंस को कैलकुलेट करना। ज़्यादातर डेटा साइंटिस्ट का मकसद खास प्रोजेक्ट के नॉइज़ लेवल के आधार पर, कुल वेरिएंस का 80% से 95% कैप्चर करने के लिए काफ़ी कंपोनेंट रखना होता है।
अगर आप मैट्रिक्स को ट्रांसपोज़ करते हैं तो क्या सिंगुलर वैल्यू बदल जाती हैं?
नहीं, मैट्रिक्स को ट्रांसपोज़ करने से उसकी सिंगुलर वैल्यू नहीं बदलती हैं। मैट्रिक्स और उसके ट्रांसपोज़ की नॉन-ज़ीरो सिंगुलर वैल्यू पूरी तरह से एक जैसी रहती हैं क्योंकि उनके संबंधित क्रॉस-प्रोडक्ट मैट्रिक्स की आइगन वैल्यू बिल्कुल एक जैसी होती हैं।
आइजेनवैल्यू और सिंगुलर वैल्यू में क्या अंतर है?
आइजेनवैल्यू सिर्फ़ स्क्वायर मैट्रिक्स के लिए डिफाइन की जाती हैं और कॉम्प्लेक्स नंबर हो सकती हैं, जो दिखाती हैं कि एक वेक्टर बिना दिशा बदले कैसे स्केल करता है। सिंगुलर वैल्यू किसी भी मैट्रिक्स पर लागू होती हैं, हमेशा रियल और नॉन-नेगेटिव होती हैं, और एक ट्रांसफॉर्मेशन के तहत एक यूनिट स्फीयर के मैक्सिमम स्ट्रेचिंग को दिखाती हैं।

निर्णय

जब आपका मुख्य लक्ष्य वैरिएंस के आधार पर किसी स्टैटिस्टिकल डेटासेट के फीचर्स को समझना, विज़ुअलाइज़ करना या कम करना हो, तो प्रिंसिपल कंपोनेंट्स चुनें। जब आपको लीनियर सिस्टम को सॉल्व करना हो, मैट्रिसेस को कम्प्रेस करना हो, या स्टैटिस्टिकल प्रीप्रोसेसिंग की चिंता किए बिना स्टेबल न्यूमेरिकल कैलकुलेशन करना हो, तो सिंगुलर वैल्यू चुनें।

संबंधित तुलनाएं

अंकगणित बनाम ज्यामितीय अनुक्रम

असल में, अरिथमेटिक और जियोमेट्रिक सीक्वेंस नंबरों की लिस्ट को बढ़ाने या घटाने के दो अलग-अलग तरीके हैं। एक अरिथमेटिक सीक्वेंस जोड़ने या घटाने से एक जैसी, सीधी रफ़्तार से बदलता है, जबकि एक जियोमेट्रिक सीक्वेंस गुणा या भाग से तेज़ी से बढ़ता या घटता है।

अंकगणितीय प्रगति बनाम दृश्य अनुक्रम

पैटर्न को समझना एक खास मैथमेटिकल स्किल है, लेकिन आप नंबर या शेप में से क्या इस्तेमाल करते हैं, इस पर निर्भर करते हुए तरीका काफी बदल जाता है। जहाँ अरिथमेटिक प्रोग्रेशन लगातार आने वाले टर्म के बीच एक फिक्स्ड, बिना बदलने वाले न्यूमेरिकल अंतर पर निर्भर करते हैं, वहीं विज़ुअल सीक्वेंस बदलते ज्योमेट्रिक प्रॉपर्टी, रंग या अरेंजमेंट का इस्तेमाल करते हैं। दोनों को समझने से एब्स्ट्रैक्ट अलजेब्रिक फ़ॉर्मूला और आसान स्पेशल रीजनिंग के बीच के अंतर को कम करने में मदद मिलती है।

अंकगणितीय माध्य बनाम भारित माध्य

अरिथमेटिक मीन हर डेटा पॉइंट को फ़ाइनल एवरेज में बराबर योगदान देने वाला मानता है, जबकि वेटेड मीन अलग-अलग वैल्यू को खास लेवल का महत्व देता है। इस अंतर को समझना सिंपल क्लास एवरेज कैलकुलेट करने से लेकर कॉम्प्लेक्स फ़ाइनेंशियल पोर्टफ़ोलियो तय करने तक, हर चीज़ के लिए ज़रूरी है, जहाँ कुछ एसेट दूसरों की तुलना में ज़्यादा ज़रूरी होते हैं।

अक्षांश-देशांतर प्रणालियाँ बनाम ध्रुवीय निर्देशांक प्रणालियाँ

जहां लैटिट्यूड-लॉन्गीट्यूड सिस्टम, पृथ्वी के इक्वेटर और प्राइम मेरिडियन से जुड़े दो परपेंडिकुलर एंगुलर मेज़रमेंट का इस्तेमाल करके थ्री-डाइमेंशनल स्फेरिकल सरफेस पर लोकेशन मैप करते हैं, वहीं पोलर कोऑर्डिनेट सिस्टम एक सेंट्रल स्टार्टिंग रे से मापे गए सिंगल एंगल के साथ एक स्ट्रेट-लाइन रेडियल डिस्टेंस का इस्तेमाल करके एक फ्लैट टू-डाइमेंशनल प्लेन पर पोजीशन बताते हैं।

अभाज्य संख्या बनाम संयुक्त संख्या

यह तुलना अभाज्य और संयुक्त संख्याओं की परिभाषाओं, गुणों, उदाहरणों और अंतरों को स्पष्ट करती है, जो प्राकृतिक संख्याओं की दो मूलभूत श्रेणियां हैं। यह बताता है कि उन्हें कैसे पहचाना जाता है, वे गुणनखंडन में कैसे व्यवहार करते हैं, और बुनियादी संख्या सिद्धांत में उन्हें पहचानने का महत्व क्यों है।