गणितडेटा-सायन्सरेषीय-बीजगणितमशीन-लर्निंग

मुख्य घटक विरुद्ध एकवचनी मूल्ये

जरी डेटा शास्त्रज्ञांना डायमेन्शनॅलिटी रिडक्शनमध्ये या दोन्ही संज्ञा वारंवार आढळत असल्या तरी, प्रिन्सिपल कंपोनंट्स डेटासेटमधील सर्वाधिक फरकाच्या दिशांचे वर्णन करतात, तर सिंग्युलर व्हॅल्यूज मॅट्रिक्स डीकंपोझिशन दरम्यान त्या भौमितिक अक्षांवर होणाऱ्या स्केलिंगचे प्रमाण मोजतात. PCA आणि SVD सारख्या अल्गोरिदममध्ये प्राविण्य मिळवण्यासाठी त्यांच्यातील गणितीय दुवा समजून घेणे आवश्यक आहे.

ठळक मुद्दे

मुख्य घटक डेटा भिन्नतेची अवकाशीय अभिमुखता निश्चित करतात, तर एकवचनी मूल्ये प्रमाण ठरवतात.
जेव्हा मूळ डेटा मॅट्रिक्स योग्यरित्या माध्य-केंद्रित असतो, तेव्हाच त्यांच्यात थेट गणितीय दुवा जोडला जातो.
SVD थेट सिंग्युलर व्हॅल्यूजची गणना करते, ज्यामुळे प्रिन्सिपल कंपोनंट्स शोधण्यासाठी अधिक संख्यात्मकदृष्ट्या स्थिर मार्ग मिळतो.
मुख्य घटक एकमेकांना लंब असले पाहिजेत, तर एकवचनी मूल्ये ही काटेकोरपणे अऋणात्मक वास्तव संख्या असतात.

मुख्य घटक काय आहे?

सर्वाधिक विचलनाच्या दिशेने निर्देशित करणारे लंब सदिश, उच्च-मितीय डेटाचे सरलीकरण आणि संक्षेपीकरण करण्यास मदत करतात.

ते थेट डेटासेटच्या कोव्हेरियन्स मॅट्रिक्सच्या आयगेनव्हेक्टरशी संबंधित असतात.
पहिला मुख्य घटक डेटामधील सर्वाधिक संभाव्य विचलनाचे स्पष्टीकरण देतो.
प्रत्येक पुढील घटक त्याच्या आधीच्या घटकांशी पूर्णपणे लंब असतो, ज्यामुळे शून्य सहसंबंध सुनिश्चित होतो.
ते डेटा स्केलिंगवर मोठ्या प्रमाणावर अवलंबून असतात, त्यामुळे मीन-सेंटरिंग ही एक महत्त्वपूर्ण पूर्व-प्रक्रिया पायरी ठरते.
अभियंते माहिती जतन करून उच्च-मितीय अवकाशांना खालच्या मितींमध्ये प्रक्षेपित करण्यासाठी त्यांचा वापर करतात.

एकवचनी मूल्ये काय आहे?

सिंग्युलर व्हॅल्यू मॅट्रिक्समधील कर्णावरील नोंदी, ज्या रेषीय रूपांतरणाचे निरपेक्ष स्केलिंग घटक दर्शवतात.

त्यांची गणना मॅट्रिक्सच्या आयगेनव्हॅल्यूजच्या धन वर्गमूळांना त्याच्या ट्रान्सपोजने गुणून केली जाते.
प्रत्येक वास्तविक मॅट्रिक्स, मग तो चौरस असो वा आयताकृती, एक अद्वितीय सिंग्युलर व्हॅल्यूजचा संच बाळगतो.
SVD मध्ये सिग्मा मॅट्रिक्सच्या कर्णावर त्यांची पारंपरिकरित्या उतरत्या क्रमाने मांडणी केली जाते.
शून्याचे सिंग्युलर मूल्य हे दर्शवते की मॅट्रिक्स रँक-डेफिशियंट किंवा सिंग्युलर आहे.
ते एका एकक गोलावरील रेषीय रूपांतरणामुळे होणारे भौमितिक ताणणे किंवा विरूपण मोजतात.

तुलना सारणी

वैशिष्ट्ये	मुख्य घटक	एकवचनी मूल्ये
गणितीय मूळ	सहप्रसरण मॅट्रिक्स आयगेनव्हेक्टर	मॅट्रिक्स डीकंपोझिशन (SVD) घटक
भूमितीय अर्थ लावणे	कमाल विचलनाच्या दिशा	मुख्य अक्षांच्या लांबीचे मापन
डेटा आवश्यकता	सांख्यिकीय अर्थासाठी मध्य-केंद्रित डेटा आवश्यक आहे	कोणत्याही आयताकृती किंवा चौरस मॅट्रिक्सला लागू होते
आयगेनव्हॅल्यूजशी संबंध	सहप्रसरण मॅट्रिक्सच्या आयगेनव्हॅल्यूजच्या समान	मॅट्रिक्स गुणाकाराच्या आयगेनव्हॅल्यूच्या वर्गमूळांच्या समान
प्राथमिक अर्ज	आयामी घट आणि वैशिष्ट्य निष्कर्षण	मॅट्रिक्स इन्व्हर्जन, स्यूडो-इन्व्हर्स कॅल्क्युलेशन आणि लो-रँक ॲप्रोक्झिमेशन
स्केल अवलंबित्व	डेटा हलवल्याने किंवा त्याचे प्रमाण बदलल्याने लक्षणीय बदल झाला.	विघटन होत असलेल्या विशिष्ट मॅट्रिक्सचा अंगभूत गुणधर्म
शारीरिक अर्थ लावणे	डेटा क्लाउड लंबवर्तुळाचे अक्ष	रूपांतरित एकक गोलाचे ताणण्याचे घटक

तपशीलवार तुलना

मुख्य व्याख्या आणि संकल्पना

प्रिन्सिपल कंपोनंट्स त्या विशिष्ट दिशा दर्शवतात जिथे डेटा सर्वात जास्त बदलतो आणि ते एका ऑप्टिमाइझ्ड कोऑर्डिनेट सिस्टीमसाठी नवीन अक्ष म्हणून काम करतात. याउलट, सिंग्युलर व्हॅल्यूज ह्या स्केलर राशी आहेत, ज्या हे उघड करतात की एखादा मॅट्रिक्स त्या अक्षांवर अवकाशाला किती ताणतो किंवा संकुचित करतो. एकीकडे एक डेटा क्लाउडची दिशा दर्शवते, तर दुसरीकडे ते प्रत्यक्ष परिवर्तनाचे प्रमाण मोजते.

गणितीय गणना

पारंपरिकरित्या मुख्य घटक शोधण्यासाठी, तुम्हाला डेटासेटच्या सहप्रसरण मॅट्रिक्सचे आयगेनव्हेक्टर मोजावे लागतात. सिंग्युलर व्हॅल्यू डीकंपोझिशनमधून सिंग्युलर व्हॅल्यूज निर्माण होतात, ज्यात कोणताही मॅट्रिक्स तीन भिन्न घटक मॅट्रिक्समध्ये विभागला जातो. जेव्हा तुम्ही सरासरी वजा करून तुमचा डेटा सेंटर करता, तेव्हा सिंग्युलर व्हॅल्यूच्या वर्गाला सॅम्पल साईज वजा एकने भागल्यावर मिळणारे उत्तर हे त्या मुख्य घटकाच्या प्रसरणाएवढे असते.

डेटा प्रीप्रोसेसिंगची संवेदनशीलता

जर तुम्ही तुमच्या डेटाला माध्य-केंद्रित (mean-center) किंवा प्रमाणित (standardize) करायला विसरलात, तर मुख्य घटकांमध्ये (principal components) लक्षणीय बदल होतो, कारण सांख्यिकीय विचलन (statistical variance) हे आरंभ बिंदू (origin point) आणि चल प्रमाणांवर (variable scales) मोठ्या प्रमाणावर अवलंबून असते. तथापि, एकवचनी मूल्ये (singular values) ही दिलेल्या मूळ मॅट्रिक्सचा एक मूलभूत बीजगणितीय गुणधर्म आहेत. जोपर्यंत वापरकर्ता हेतुपुरस्सर प्रथम एक केंद्रित सहविचलन-सदृश (centered covariance-like) मॅट्रिक्स तयार करत नाही, तोपर्यंत त्यांना सांख्यिकीय गृहितकांची पर्वा नसते.

उद्योगातील व्यावहारिक अनुप्रयोग

डेटा विश्लेषक जटिल, उच्च-मितीय डेटासेट साध्या द्विमितीय आलेखांवर दृश्यमान करण्यासाठी प्रिन्सिपल कंपोनंट्सवर अवलंबून असतात. दुसरीकडे, कॉम्प्युटर व्हिजन इंजिनिअर्स लो-रँक मॅट्रिक्स ॲप्रोक्झिमेशन्सद्वारे इमेज कॉम्प्रेशन आणि शिफारस प्रणालींसाठी सिंग्युलर व्हॅल्यूजचा वापर करतात. खरे तर, PCA च्या मागे SVD हे अधिक पसंतीचे संख्यात्मक इंजिन आहे, कारण सिंग्युलर व्हॅल्यूजची गणना केल्याने कोव्हेरियन्स मॅट्रिक्स तयार करताना होणारी अचूकतेची हानी टाळता येते.

गुण आणि दोष

मुख्य घटक

गुणदोष

+ डेटा व्हिज्युअलायझेशनसाठी उत्कृष्ट
+ बहुरेषीयता दूर करते
+ आवाज प्रभावीपणे कमी करते
+ मशीन लर्निंग मॉडेल्स सोपे करते

संरक्षित केले

− थेट भौतिक अर्थाचा अभाव आहे
− अपवादात्मक मूल्यांप्रति अत्यंत संवेदनशील
− कठोर पूर्वप्रक्रिया आवश्यक आहे
− माहितीची हानी होते

एकवचनी मूल्ये

गुणदोष

+ कोणत्याही मॅट्रिक्सवर काम करते
+ संख्यात्मकदृष्ट्या अत्यंत स्थिर
+ कमी दर्जाच्या अंदाजासाठी उत्तम
+ मॅट्रिक्स रँक त्वरित प्रकट करते

संरक्षित केले

− अमूर्त गणितीय संकल्पना
− मोठ्या मॅट्रिक्ससाठी संगणकीयदृष्ट्या खर्चिक
− अंतर्भूत सांख्यिकीय संदर्भाचा अभाव आहे
− अर्थ लावण्यासाठी रेषीय बीजगणिताची आवश्यकता आहे

सामान्य गैरसमजुती

मिथ

मुख्य घटक आणि एकवचनी मूल्ये या पूर्णपणे स्वतंत्र संकल्पना आहेत.

वास्तव

डेटा सेंटरिंगद्वारे ते एकमेकांशी घट्ट जोडलेले आहेत. जेव्हा एखाद्या डेटा मॅट्रिक्समधून त्याची सरासरी वजा केली जाते, तेव्हा त्याची सिंग्युलर व्हॅल्यूज प्रिन्सिपल कंपोनंट्सवरील व्हेरिएन्सच्या वर्गमूळांशी थेट प्रमाणात असतात.

मिथ

मुख्य घटक शोधण्यासाठी तुम्हाला नेहमी सहप्रसरण मॅट्रिक्सची गणना करावी लागेल.

वास्तव

आधुनिक सॉफ्टवेअर क्वचितच कोव्हेरियन्स मॅट्रिक्सची गणना करते, कारण त्यामुळे संख्यात्मक पूर्णांकीकरण त्रुटी निर्माण होतात. त्याऐवजी, अल्गोरिदम थेट डेटा मॅट्रिक्सवर SVD चालवतात, ज्यामुळे मुख्य घटक अधिक सुरक्षितपणे आणि कार्यक्षमतेने काढले जातात.

मिथ

जर डेटा नकारात्मक सहसंबंध दर्शवत असेल, तर एकवचनी मूल्ये नकारात्मक असू शकतात.

वास्तव

व्याख्येनुसार, सिंग्युलर व्हॅल्यूज म्हणजे सममित मॅट्रिक्समधील आयगेनव्हॅल्यूजची धन वर्गमुळे होत. मूळ डेटामधील सहसंबंधांचा विचार न करता, त्या नेहमीच अऋणात्मक वास्तव संख्या असतात, ज्या लांबी किंवा ताणण्याचे घटक दर्शवतात.

मिथ

सर्व डेटा पॉइंट्समध्ये एक स्थिर मूल्य जोडल्याने सिंग्युलर व्हॅल्यूज आणि प्रिन्सिपल कंपोनंट्समध्ये समान प्रमाणात बदल होतो.

वास्तव

डेटा एका स्थिर संख्येने सरकवल्याने सिंग्युलर व्हॅल्यूज बदलतात, कारण मूळ मॅट्रिक्समधील नोंदी बदलतात. तथापि, प्रिन्सिपल कंपोनंट्स कोव्हेरियन्स मॅट्रिक्सवर अवलंबून असल्यामुळे, आणि त्यामधून स्वाभाविकपणे सरासरी वजा केली जात असल्यामुळे, डेटा सरकवल्याने प्रिन्सिपल कंपोनंट्समध्ये कोणताही बदल होत नाही.

मिथ

पहिला मुख्य घटक नेहमी सर्व मौल्यवान माहिती सामावून घेतो.

वास्तव

पहिला घटक केवळ एकाच अक्षावरील कमाल विचलन टिपतो. जर तुमचा डेटा गोलाकारपणे वितरित असेल किंवा त्यात महत्त्वपूर्ण अरेखीय नमुने असतील, तर एकच रेषीय घटक सर्वात महत्त्वाच्या संरचना पूर्णपणे चुकवू शकतो.

वारंवार विचारले जाणारे प्रश्न

एका एकवचनी मूल्याचे मुख्य घटकाच्या प्रसरणामध्ये रूपांतर कसे करायचे?

जर तुमच्याकडे दिलेल्या संख्येच्या नमुन्यांसह एक माध्य-केंद्रित डेटा मॅट्रिक्स असेल, तर तुम्ही सिंग्युलर व्हॅल्यूचा वर्ग करता आणि त्याला नमुन्याच्या आकारातून एक वजा करून मिळणाऱ्या संख्येने भागता. या गणितीय क्रियेमुळे कोव्हेरियन्स मॅट्रिक्सची अचूक आयगेनव्हॅल्यू मिळते, जी त्या विशिष्ट प्रिन्सिपल कंपोनंटद्वारे दर्शविलेली भिन्नता दर्शवते.

तुम्ही SVD न वापरता PCA करू शकता का?

होय, तुम्ही कोव्हेरियन्स मॅट्रिक्सची स्पष्टपणे गणना करून आणि नंतर क्लासिकल आयगेनडिकंपोझिशनद्वारे त्याचे आयगेनव्हेक्टर शोधून प्रिन्सिपल कंपोनंट्स शोधू शकता. तथापि, ही पद्धत SVD पद्धतीपेक्षा संख्यात्मकदृष्ट्या कमी स्थिर आहे आणि फ्लोटिंग-पॉइंट त्रुटींसाठी अधिक प्रवण आहे, म्हणूनच SVD हे इंडस्ट्री स्टँडर्ड आहे.

प्रिन्सिपल कंपोनंट्ससाठी डेटा सेंटरिंग इतके महत्त्वाचे का असते?

PCA चा उद्देश डेटा क्लाउडच्या केंद्राभोवती भिन्नता जास्तीत जास्त करणे हा असतो. जर तुम्ही डेटाची सरासरी मूळ बिंदूकडे सरकवली नाही, तर पहिला मुख्य घटक केवळ मूळ बिंदूपासून डेटा क्लस्टरच्या केंद्राकडे निर्देशित होईल, ज्यामुळे भिन्नतेची अंतर्गत भौमितिक रचना पकडण्यात तो अयशस्वी ठरेल.

जर मॅट्रिक्सचे सिंग्युलर व्हॅल्यू शून्य असेल तर काय होते?

शून्य सिंग्युलर व्हॅल्यूचा अर्थ असा आहे की मॅट्रिक्स रँक-डेफिशियंट आहे आणि त्याचे व्युत्क्रमण करता येत नाही. भूमितीयदृष्ट्या, याचा अर्थ असा होतो की रेषीय रूपांतरण किमान एका मितीला पूर्णपणे सपाट करते, ज्यामुळे एक व्हॉल्यूम एका प्रतलात किंवा रेषेत संकुचित होतो.

मुख्य घटक आणि आयगेन सदिश एकच असतात का?

ते एकमेकांशी जवळून संबंधित असले तरी पारिभाषिक शब्दांमध्ये भिन्न आहेत. मुख्य घटक म्हणजे नवीन अक्षांवर प्रक्षेपित केलेले प्रत्यक्ष डेटा बिंदू असतात, तरीही अनेक व्यावसायिक बोलचालीत हा शब्द मुख्य दिशांसाठी वापरतात, ज्या वास्तविकतः सहप्रसरण मॅट्रिक्सचे आयगेनव्हेक्टर असतात.

इमेज कॉम्प्रेशनसाठी PCA की SVD, यांपैकी कोणते चांगले आहे?

लो-रँक ॲप्रोक्झिमेशन नावाच्या तंत्राद्वारे इमेज कॉम्प्रेशनसाठी SVD ला सामान्यतः प्राधान्य दिले जाते आणि ते अधिक थेट आहे. इमेज ही स्वतंत्र निरीक्षणांचा सांख्यिकीय नमुना नसून, आधीपासूनच पिक्सेलचा एक संरचित मॅट्रिक्स असल्यामुळे, SVD फाईलचा आकार अखंडपणे कमी करण्यासाठी सर्वात कमी महत्त्वपूर्ण सिंग्युलर व्हॅल्यूज काढून टाकते.

एका मॉडेलमध्ये किती मुख्य घटक ठेवावेत?

एक सामान्य पद्धत म्हणजे स्क्री प्लॉट पाहणे किंवा सिंग्युलर व्हॅल्यूज वापरून संचयी स्पष्ट केलेल्या फरकाची गणना करणे. बहुतेक डेटा शास्त्रज्ञांचे उद्दिष्ट असते की, विशिष्ट प्रकल्पातील नॉईजच्या पातळीनुसार, एकूण फरकाच्या ८०% ते ९५% भाग मिळवण्यासाठी पुरेसे घटक टिकवून ठेवणे.

मॅट्रिक्सचे ट्रान्सपोज केल्यास सिंग्युलर व्हॅल्यूज बदलतात का?

नाही, मॅट्रिक्सचे ट्रान्सपोज केल्याने त्याच्या सिंग्युलर व्हॅल्यूज बदलत नाहीत. मॅट्रिक्स आणि त्याच्या ट्रान्सपोजच्या नॉन-झिरो सिंग्युलर व्हॅल्यूज पूर्णपणे एकसारख्या राहतात, कारण त्यांच्या संबंधित क्रॉस-प्रॉडक्ट मॅट्रिक्सच्या आयगेनव्हॅल्यूज अगदी समान असतात.

आयगेनव्हॅल्यू आणि सिंग्युलर व्हॅल्यू यांच्यात काय फरक आहे?

आयगेनव्हॅल्यूज केवळ चौरस मॅट्रिक्ससाठीच परिभाषित केल्या जातात आणि त्या संमिश्र संख्या असू शकतात, ज्या दिशा न बदलता वेक्टर कसा स्केल होतो हे दर्शवतात. सिंग्युलर व्हॅल्यूज कोणत्याही मॅट्रिक्सला लागू होतात, त्या नेहमी वास्तव आणि अऋणात्मक असतात, आणि एका रूपांतरणाअंतर्गत युनिट गोलाचे कमाल ताणणे दर्शवतात.

निकाल

जेव्हा तुमचे मुख्य उद्दिष्ट प्रसरणाच्या आधारावर सांख्यिकीय डेटासेटच्या वैशिष्ट्यांचे विश्लेषण करणे, ते दृश्य स्वरूपात मांडणे किंवा कमी करणे हे असते, तेव्हा प्रिन्सिपल कंपोनंट्स निवडा. जेव्हा तुम्हाला सांख्यिकीय पूर्व-प्रक्रियेची चिंता न करता रेषीय प्रणाली सोडवायच्या असतील, मॅट्रिक्स संकुचित करायचे असतील किंवा स्थिर संख्यात्मक गणना करायची असेल, तेव्हा सिंग्युलर व्हॅल्यूजची निवड करा.

मुख्य घटक विरुद्ध एकवचनी मूल्ये

ठळक मुद्दे

मुख्य घटक काय आहे?

एकवचनी मूल्ये काय आहे?

तुलना सारणी

तपशीलवार तुलना

मुख्य व्याख्या आणि संकल्पना

गणितीय गणना

डेटा प्रीप्रोसेसिंगची संवेदनशीलता

उद्योगातील व्यावहारिक अनुप्रयोग

गुण आणि दोष

मुख्य घटक

गुणदोष

संरक्षित केले

एकवचनी मूल्ये

गुणदोष

संरक्षित केले

सामान्य गैरसमजुती

वारंवार विचारले जाणारे प्रश्न

निकाल

संबंधित तुलना

अंकगणित विरुद्ध भौमितिक क्रम

अंकगणितीय श्रेणी विरुद्ध दृश्य क्रम

अंकगणितीय सरासरी विरुद्ध भारित सरासरी

अनुक्रम विश्लेषण विरुद्ध नमुना दृश्यांकन

अमूर्त संख्या विरुद्ध भूमितीय अर्थ लावणे