हालांकि डेटा साइंटिस्ट अक्सर डाइमेंशनैलिटी रिडक्शन में दोनों शब्दों का सामना करते हैं, प्रिंसिपल कंपोनेंट डेटासेट में मैक्सिमम वेरिएंस की दिशाओं को बताते हैं, जबकि सिंगुलर वैल्यू मैट्रिक्स डीकंपोज़िशन के दौरान उन ज्योमेट्रिक एक्सिस के साथ स्केलिंग के मैग्नीट्यूड को मापते हैं। PCA और SVD जैसे एल्गोरिदम में महारत हासिल करने के लिए उनके मैथमेटिकल ब्रिज को समझना ज़रूरी है।
मुख्य बातें
प्रिंसिपल कंपोनेंट डेटा वेरिएंस का स्पेशल ओरिएंटेशन तय करते हैं, जबकि सिंगुलर वैल्यू स्केल तय करती हैं।
एक सीधा मैथमेटिकल ब्रिज उन्हें तभी जोड़ता है जब अंदरूनी डेटा मैट्रिक्स ठीक से मीन-सेंटर्ड हो।
SVD सीधे सिंगुलर वैल्यूज़ को कैलकुलेट करता है, जिससे प्रिंसिपल कंपोनेंट्स को खोजने के लिए न्यूमेरिकली ज़्यादा स्टेबल रास्ता मिलता है।
प्रिंसिपल कंपोनेंट्स एक दूसरे के ऑर्थोगोनल होने चाहिए, जबकि सिंगुलर वैल्यूज़ पूरी तरह से नॉन-नेगेटिव रियल नंबर्स होती हैं।
मूल घटक क्या है?
ऑर्थोगोनल वेक्टर जो मैक्सिमम वेरिएंस की दिशा में इशारा करते हैं, हाई-डाइमेंशनल डेटा को आसान और छोटा करने में मदद करते हैं।
वे सीधे डेटासेट के कोवेरिएंस मैट्रिक्स के आइगनवेक्टर से मेल खाते हैं।
पहला प्रिंसिपल कंपोनेंट डेटा में सबसे ज़्यादा वेरिएंस के लिए ज़िम्मेदार है।
हर अगला कॉम्पोनेंट अपने पहले वाले कॉम्पोनेंट के बिल्कुल बराबर होता है, जिससे ज़ीरो कोरिलेशन पक्का होता है।
वे डेटा स्केलिंग पर बहुत ज़्यादा निर्भर करते हैं, जिससे मीन-सेंटरिंग एक ज़रूरी प्रीप्रोसेसिंग स्टेप बन जाता है।
इंजीनियर इनका इस्तेमाल जानकारी को सुरक्षित रखते हुए हाई-डाइमेंशनल जगहों को निचले डाइमेंशन में प्रोजेक्ट करने के लिए करते हैं।
एकवचन मान क्या है?
एक सिंगुलर वैल्यू मैट्रिक्स की डायगोनल एंट्री, जो एक लीनियर ट्रांसफॉर्मेशन के एब्सोल्यूट स्केलिंग फैक्टर्स को दिखाती हैं।
इन्हें मैट्रिक्स के आइजेन वैल्यू के पॉजिटिव स्क्वायर रूट को उसके ट्रांसपोज़ से गुणा करके कैलकुलेट किया जाता है।
हर रियल मैट्रिक्स, चाहे वह स्क्वायर हो या रेक्टेंगुलर, में सिंगुलर वैल्यू का एक यूनिक सेट होता है।
इन्हें आम तौर पर SVD में सिग्मा मैट्रिक्स के डायगोनल के साथ घटते क्रम में लगाया जाता है।
ज़ीरो का सिंगुलर वैल्यू बताता है कि मैट्रिक्स रैंक-डेफ़िशिएंट या सिंगुलर है।
वे एक यूनिट स्फीयर पर लीनियर ट्रांसफॉर्मेशन की वजह से होने वाले ज्योमेट्रिक स्ट्रेचिंग या डिस्टॉर्शन को मापते हैं।
तुलना तालिका
विशेषता
मूल घटक
एकवचन मान
गणितीय उत्पत्ति
सहप्रसरण मैट्रिक्स आइगनवेक्टर
मैट्रिक्स अपघटन (एसवीडी) कारक
ज्यामितीय व्याख्या
अधिकतम विचरण की दिशाएँ
मुख्य अक्षों की लंबाई मापना
डेटा आवश्यकता
स्टैटिस्टिकल मतलब के लिए मीन-सेंटर्ड डेटा की ज़रूरत होती है
किसी भी मनमाने आयताकार या वर्ग मैट्रिक्स पर लागू होता है
आइजेनवैल्यू से संबंध
सहप्रसरण मैट्रिक्स के आइजेन मानों के बराबर
मैट्रिक्स प्रोडक्ट के आइजेन वैल्यू के वर्गमूल के बराबर
प्राथमिक आवेदन
आयाम में कमी और विशेषता निष्कर्षण
मैट्रिक्स इनवर्जन, स्यूडो-इनवर्स कैलकुलेशन, और लो-रैंक एप्रोक्सिमेशन
पैमाने पर निर्भरता
डेटा को शिफ्ट या स्केल करके काफ़ी बदला गया
विघटित हो रहे विशिष्ट मैट्रिक्स की अंतर्निहित संपत्ति
भौतिक व्याख्या
डेटा क्लाउड एलिप्सॉइड के अक्ष
एक रूपांतरित इकाई गोले के खिंचाव कारक
विस्तृत तुलना
कोर परिभाषा और अवधारणा
प्रिंसिपल कंपोनेंट उन खास दिशाओं को दिखाते हैं जहाँ डेटा सबसे ज़्यादा बदलता है, और ये एक ऑप्टिमाइज़्ड कोऑर्डिनेट सिस्टम के लिए नए एक्सिस के तौर पर काम करते हैं। इसके उलट, सिंगुलर वैल्यू स्केलर क्वांटिटी होती हैं जो बताती हैं कि एक मैट्रिक्स उन एक्सिस के साथ स्पेस को कितना फैलाता या दबाता है। जहाँ एक आपको डेटा क्लाउड का ओरिएंटेशन देता है, वहीं दूसरा खुद ट्रांसफॉर्मेशन के मैग्नीट्यूड को मापता है।
गणितीय गणना
पारंपरिक रूप से प्रिंसिपल कंपोनेंट खोजने के लिए, आपको डेटासेट के कोवेरिएंस मैट्रिक्स के आइगनवेक्टर को कैलकुलेट करना होगा। सिंगुलर वैल्यू, सिंगुलर वैल्यू डीकंपोज़िशन से निकलती हैं, जहाँ कोई भी मैट्रिक्स तीन अलग-अलग कंपोनेंट मैट्रिक्स में बंट जाता है। जब आप मीन घटाकर अपने डेटा को सेंटर करते हैं, तो सिंगुलर वैल्यू के स्क्वेयर को सैंपल साइज़ माइनस एक से डिवाइड करने पर वह प्रिंसिपल कंपोनेंट का वैरिएंस पूरी तरह से बराबर हो जाता है।
डेटा प्रीप्रोसेसिंग के प्रति संवेदनशीलता
अगर आप अपने डेटा को मीन-सेंटर या स्टैंडर्डाइज़ करना भूल जाते हैं, तो प्रिंसिपल कंपोनेंट बहुत ज़्यादा बदल जाते हैं, क्योंकि स्टैटिस्टिकल वेरिएंस ओरिजिन पॉइंट और वेरिएबल स्केल पर बहुत ज़्यादा निर्भर करता है। हालांकि, सिंगुलर वैल्यू दिए गए रॉ मैट्रिक्स की एक बुनियादी अलजेब्रिक प्रॉपर्टी हैं। वे स्टैटिस्टिकल अंदाज़ों की परवाह नहीं करते, जब तक कि यूज़र जानबूझकर पहले एक सेंटर्ड कोवेरिएंस जैसा मैट्रिक्स न बना ले।
उद्योग में व्यावहारिक अनुप्रयोग
डेटा एनालिस्ट सिंपल टू-डाइमेंशनल प्लॉट पर कॉम्प्लेक्स, हाई-डाइमेंशनल डेटासेट को विज़ुअलाइज़ करने के लिए प्रिंसिपल कंपोनेंट्स पर भरोसा करते हैं। दूसरी ओर, कंप्यूटर विज़न इंजीनियर लो-रैंक मैट्रिक्स एप्रोक्सिमेशन के ज़रिए इमेज कम्प्रेशन और रिकमेंडेशन सिस्टम के लिए सिंगुलर वैल्यू का इस्तेमाल करते हैं। SVD असल में PCA के पीछे पसंदीदा न्यूमेरिकल इंजन है क्योंकि सिंगुलर वैल्यू को कैलकुलेट करने से कोवेरिएंस मैट्रिक्स बनाते समय होने वाले प्रिसिजन के नुकसान से बचा जा सकता है।
लाभ और हानि
मूल घटक
लाभ
+डेटा विज़ुअलाइज़ेशन के लिए बहुत बढ़िया
+बहुसंरेखीयता को समाप्त करता है
+शोर को प्रभावी ढंग से कम करता है
+मशीन लर्निंग मॉडल को सरल बनाता है
सहमत
−प्रत्यक्ष भौतिक अर्थ का अभाव
−आउटलायर्स के प्रति अत्यधिक संवेदनशील
−सख्त प्रीप्रोसेसिंग की ज़रूरत है
−सूचना हानि होती है
एकवचन मान
लाभ
+किसी भी मैट्रिक्स पर काम करता है
+संख्यात्मक रूप से अत्यधिक स्थिर
+कम-रैंक अनुमान के लिए बिल्कुल सही
+मैट्रिक्स रैंक तुरंत दिखाता है
सहमत
−अमूर्त गणितीय अवधारणा
−विशाल मैट्रिक्स के लिए कम्प्यूटेशनल रूप से महंगा
−अंतर्निहित सांख्यिकीय संदर्भ का अभाव
−व्याख्या के लिए रैखिक बीजगणित की आवश्यकता होती है
सामान्य भ्रांतियाँ
मिथ
प्रिंसिपल कंपोनेंट्स और सिंगुलर वैल्यूज़ पूरी तरह से इंडिपेंडेंट कॉन्सेप्ट्स हैं।
वास्तविकता
वे डेटा सेंटरिंग के ज़रिए गहराई से जुड़े हुए हैं। जब किसी डेटा मैट्रिक्स का मीन घटाया जाता है, तो उसकी सिंगुलर वैल्यूज़ प्रिंसिपल कंपोनेंट्स के साथ वेरिएंस के स्क्वेयर रूट्स के सीधे प्रोपोर्शनल होती हैं।
मिथ
प्रिंसिपल कंपोनेंट्स खोजने के लिए आपको हमेशा कोवेरिएंस मैट्रिक्स कैलकुलेट करना होगा।
वास्तविकता
मॉडर्न सॉफ्टवेयर शायद ही कभी कोवेरिएंस मैट्रिक्स को कैलकुलेट करते हैं क्योंकि इससे न्यूमेरिकल राउंडिंग एरर आते हैं। इसके बजाय, एल्गोरिदम सीधे डेटा मैट्रिक्स पर SVD चलाते हैं, जिससे प्रिंसिपल कंपोनेंट ज़्यादा सुरक्षित और अच्छे से निकलते हैं।
मिथ
अगर डेटा नेगेटिव कोरिलेशन दिखाता है, तो सिंगुलर वैल्यू नेगेटिव हो सकती हैं।
वास्तविकता
सिंगुलर वैल्यू, परिभाषा के हिसाब से, एक सिमेट्रिक मैट्रिक्स से आइजेन वैल्यू के पॉजिटिव स्क्वेयर रूट होते हैं। वे हमेशा नॉन-नेगेटिव रियल नंबर होते हैं, जो ओरिजिनल डेटा में कोरिलेशन की परवाह किए बिना, लंबाई या स्ट्रेचिंग फैक्टर को दिखाते हैं।
मिथ
सभी डेटा पॉइंट्स में एक कॉन्सटेंट वैल्यू जोड़ने से सिंगुलर वैल्यू और प्रिंसिपल कंपोनेंट्स एक जैसे बदल जाते हैं।
वास्तविकता
डेटा को एक कॉन्स्टेंट से शिफ्ट करने पर सिंगुलर वैल्यू बदल जाती हैं क्योंकि रॉ मैट्रिक्स एंट्री बदल जाती हैं। हालांकि, क्योंकि प्रिंसिपल कंपोनेंट कोवैरिएंस मैट्रिक्स पर निर्भर करते हैं, जो स्वाभाविक रूप से मीन को घटाता है, इसलिए डेटा को शिफ्ट करने पर प्रिंसिपल कंपोनेंट पूरी तरह से अपरिवर्तित रहते हैं।
मिथ
पहला प्रिंसिपल कंपोनेंट हमेशा सारी ज़रूरी जानकारी कैप्चर करता है।
वास्तविकता
पहला कंपोनेंट सिर्फ़ एक एक्सिस पर मैक्सिमम वेरिएंस को कैप्चर करता है। अगर आपका डेटा स्फेरिकली डिस्ट्रिब्यूटेड है या उसमें क्रिटिकल नॉन-लीनियर पैटर्न हैं, तो एक सिंगल लीनियर कंपोनेंट सबसे ज़रूरी स्ट्रक्चर को पूरी तरह से मिस कर सकता है।
अक्सर पूछे जाने वाले सवाल
आप एक सिंगुलर वैल्यू को प्रिंसिपल कंपोनेंट के वैरिएंस में कैसे बदलते हैं?
अगर आपके पास दिए गए नंबर के सैंपल वाला एक मीन-सेंटर्ड डेटा मैट्रिक्स है, तो आप सिंगुलर वैल्यू को स्क्वेयर करें और उसे सैंपल साइज़ माइनस वन से डिवाइड करें। यह मैथमेटिकल ऑपरेशन कोवेरिएंस मैट्रिक्स की एकदम सही आइजेनवैल्यू देता है, जो उस खास प्रिंसिपल कंपोनेंट द्वारा कैप्चर किए गए वेरिएंस को दिखाता है।
क्या आप SVD का इस्तेमाल किए बिना PCA कर सकते हैं?
हाँ, आप कोवेरिएंस मैट्रिक्स को साफ़ तौर पर कैलकुलेट करके और फिर क्लासिकल आइजेनडेकंपोज़िशन के ज़रिए उसके आइजेनवेक्टर ढूंढकर प्रिंसिपल कंपोनेंट ढूंढ सकते हैं। हालाँकि, यह तरीका SVD मेथड की तुलना में न्यूमेरिकली कम स्टेबल है और इसमें फ्लोटिंग-पॉइंट एरर का ज़्यादा चांस है, इसीलिए SVD इंडस्ट्री स्टैंडर्ड है।
प्रिंसिपल कंपोनेंट्स के लिए डेटा सेंटरिंग इतना ज़रूरी क्यों है?
PCA का मकसद डेटा क्लाउड के सेंटर के आसपास वैरिएंस को ज़्यादा से ज़्यादा करना है। अगर आप डेटा मीन को ओरिजिन पर शिफ्ट नहीं करते हैं, तो पहला प्रिंसिपल कंपोनेंट बस ओरिजिन से डेटा क्लस्टर के सेंटर की ओर पॉइंट करेगा, और वैरिएंस के अंदरूनी ज्योमेट्रिक स्ट्रक्चर को कैप्चर करने में फेल हो जाएगा।
अगर किसी मैट्रिक्स की सिंगुलर वैल्यू ज़ीरो हो तो क्या होगा?
ज़ीरो सिंगुलर वैल्यू का मतलब है कि मैट्रिक्स रैंक-डेफ़िशिएंट है और इसे उल्टा नहीं किया जा सकता। ज्योमेट्रिकली, इसका मतलब है कि लीनियर ट्रांसफ़ॉर्मेशन कम से कम एक डायमेंशन को पूरी तरह से फ़्लैट कर देता है, जिससे वॉल्यूम एक प्लेन या लाइन में सिमट जाता है।
क्या प्रिंसिपल कंपोनेंट्स आइगनवेक्टर्स के समान हैं?
वे आपस में बहुत मिलते-जुलते हैं लेकिन टर्मिनोलॉजी में अलग हैं। प्रिंसिपल कंपोनेंट नए एक्सिस के साथ असल में प्रोजेक्टेड डेटा पॉइंट हैं, हालांकि कई प्रैक्टिशनर आम तौर पर इस शब्द का इस्तेमाल प्रिंसिपल डायरेक्शन के लिए करते हैं, जो असल में कोवेरिएंस मैट्रिक्स के आइगनवेक्टर हैं।
इमेज कम्प्रेशन के लिए कौन सा बेहतर है, PCA या SVD?
SVD को आम तौर पर लो-रैंक एप्रोक्सिमेशन नाम की तकनीक के ज़रिए इमेज कम्प्रेशन के लिए ज़्यादा पसंद किया जाता है और यह ज़्यादा डायरेक्ट होता है। क्योंकि एक इमेज पहले से ही पिक्सल का एक स्ट्रक्चर्ड मैट्रिक्स होती है, न कि इंडिपेंडेंट ऑब्ज़र्वेशन का स्टैटिस्टिकल सैंपल, इसलिए SVD फ़ाइल साइज़ को आसानी से कम करने के लिए सबसे कम सिग्निफिकेंट सिंगुलर वैल्यू को काट देता है।
मुझे एक मॉडल में कितने मुख्य कॉम्पोनेंट रखने चाहिए?
एक आम तरीका है स्क्री प्लॉट को देखना या सिंगुलर वैल्यू का इस्तेमाल करके कुल एक्सप्लेंड वेरिएंस को कैलकुलेट करना। ज़्यादातर डेटा साइंटिस्ट का मकसद खास प्रोजेक्ट के नॉइज़ लेवल के आधार पर, कुल वेरिएंस का 80% से 95% कैप्चर करने के लिए काफ़ी कंपोनेंट रखना होता है।
अगर आप मैट्रिक्स को ट्रांसपोज़ करते हैं तो क्या सिंगुलर वैल्यू बदल जाती हैं?
नहीं, मैट्रिक्स को ट्रांसपोज़ करने से उसकी सिंगुलर वैल्यू नहीं बदलती हैं। मैट्रिक्स और उसके ट्रांसपोज़ की नॉन-ज़ीरो सिंगुलर वैल्यू पूरी तरह से एक जैसी रहती हैं क्योंकि उनके संबंधित क्रॉस-प्रोडक्ट मैट्रिक्स की आइगन वैल्यू बिल्कुल एक जैसी होती हैं।
आइजेनवैल्यू और सिंगुलर वैल्यू में क्या अंतर है?
आइजेनवैल्यू सिर्फ़ स्क्वायर मैट्रिक्स के लिए डिफाइन की जाती हैं और कॉम्प्लेक्स नंबर हो सकती हैं, जो दिखाती हैं कि एक वेक्टर बिना दिशा बदले कैसे स्केल करता है। सिंगुलर वैल्यू किसी भी मैट्रिक्स पर लागू होती हैं, हमेशा रियल और नॉन-नेगेटिव होती हैं, और एक ट्रांसफॉर्मेशन के तहत एक यूनिट स्फीयर के मैक्सिमम स्ट्रेचिंग को दिखाती हैं।
निर्णय
जब आपका मुख्य लक्ष्य वैरिएंस के आधार पर किसी स्टैटिस्टिकल डेटासेट के फीचर्स को समझना, विज़ुअलाइज़ करना या कम करना हो, तो प्रिंसिपल कंपोनेंट्स चुनें। जब आपको लीनियर सिस्टम को सॉल्व करना हो, मैट्रिसेस को कम्प्रेस करना हो, या स्टैटिस्टिकल प्रीप्रोसेसिंग की चिंता किए बिना स्टेबल न्यूमेरिकल कैलकुलेशन करना हो, तो सिंगुलर वैल्यू चुनें।