आकडेवारीडेटा-विश्लेषणगणितशिक्षण

सरासरी विरुद्ध मानक विचलन

जरी दोन्ही सांख्यिकीचे मूलभूत आधारस्तंभ म्हणून काम करतात, तरी ते डेटासेटची पूर्णपणे भिन्न वैशिष्ट्ये वर्णन करतात. सरासरी मध्यवर्ती संतुलन बिंदू किंवा सरासरी मूल्य ओळखते, तर मानक विचलन त्या केंद्रापासून वैयक्तिक डेटा बिंदू किती दूर जातात हे मोजते, माहितीच्या सुसंगतता किंवा अस्थिरतेबद्दल महत्त्वपूर्ण संदर्भ प्रदान करते.

ठळक मुद्दे

सरासरी 'काय' प्रदान करते, तर मानक विचलन भिन्नतेबद्दल 'किती' प्रदान करते.
दृश्यदृष्ट्या पूर्णपणे भिन्न दिसणाऱ्या दोन गटांसाठी सरासरी एकसारखी असू शकते.
मानक विचलन म्हणजे मूलतः प्रत्येक बिंदूचे सरासरीपासूनचे सरासरी अंतर.
दोन्ही संख्यांशिवाय, सांख्यिकीय सारांश बहुतेकदा अपूर्ण किंवा अगदी फसवा असतो.

सरासरी काय आहे?

सर्व मूल्यांची बेरीज करून आणि एकूण संख्येने भागून काढलेल्या डेटासेटची अंकगणितीय सरासरी.

हे संख्यात्मक वितरणाचे भौमितिक केंद्र किंवा 'संतुलन बिंदू' म्हणून काम करते.
गणना विशिष्ट डेटासेटमधील प्रत्येक मूल्य समाविष्ट करते.
आउटलायर्स किंवा एक्स्ट्रीम व्हॅल्यूज बहुतेक डेटामधून निकाल लक्षणीयरीत्या दूर करू शकतात.
एका परिपूर्ण सममितीय बेल कर्व्हमध्ये, ते मध्यक आणि मोडशी अचूकपणे संरेखित होते.
सांख्यिकीशास्त्रज्ञ ग्रीक अक्षर mu (μ) ने लोकसंख्या आवृत्ती दर्शवतात.

मानक विचलन काय आहे?

डेटा मूल्यांच्या संचातील भिन्नता किंवा फैलाव यांचे प्रमाण मोजणारे मेट्रिक.

कमी मूल्ये दर्शवितात की डेटा पॉइंट्स गणना केलेल्या सरासरीच्या खूप जवळ आहेत.
ते मूळ डेटा मोजल्या जाणाऱ्या भौतिक एककांमध्ये व्यक्त केले जाते.
प्रचलनाचे वर्गमूळ घेऊन मूल्य काढले जाते.
उच्च मूल्ये विस्तृत प्रसार दर्शवितात, जे डेटामध्ये कमी अंदाजक्षमता दर्शवितात.
ग्रीक अक्षर सिग्मा (σ) हे लोकसंख्या विचलनासाठी वापरले जाणारे मानक चिन्ह आहे.

तुलना सारणी

वैशिष्ट्ये	सरासरी	मानक विचलन
प्राथमिक उद्देश	केंद्र शोधा	प्रसार मोजा
बाह्य घटकांबद्दल संवेदनशीलता	उंच (सहज तिरपे केले जाऊ शकते)	उच्च (अतिरिक्तता मूल्य वाढवते)
गणितीय चिन्ह	μ (Mu) किंवा x̄ (x-बार)	σ (सिग्मा) किंवा s
मोजमापाची एकके	डेटा प्रमाणेच	डेटा प्रमाणेच
शून्याचा निकाल	सरासरी शून्य आहे.	सर्व डेटा पॉइंट्स एकसारखे आहेत.
की अनुप्रयोग	सामान्य कामगिरी निश्चित करणे	जोखीम आणि सातत्य मूल्यांकन करणे

तपशीलवार तुलना

मध्यवर्तीता विरुद्ध फैलाव

सरासरी तुम्हाला तुमच्या डेटाचा 'मध्यभागी' कुठे राहतो हे सांगते, ज्यामुळे सामान्य पातळीचा एक जलद स्नॅपशॉट मिळतो. याउलट, प्रमाणित विचलन संख्यांमधील अंतरांवर पूर्णपणे लक्ष केंद्रित करण्यासाठी केंद्राच्या स्थानाकडे दुर्लक्ष करते. तुमचे दोन गट असू शकतात ज्यांचा सरासरी 50 समान आहे, परंतु जर एक गट 49 ते 51 आणि दुसरा 0 ते 100 पर्यंत असेल, तर मानक विचलन हे एकमेव साधन आहे जे विश्वासार्हतेतील हा मोठा फरक प्रकट करते.

अतिरेकी मूल्यांबद्दल संवेदनशीलता

दोन्ही मेट्रिक्स आउटलायर्सचे वजन जाणतात, परंतु ते वेगवेगळ्या प्रकारे प्रतिक्रिया देतात. एक अपवादात्मक उच्च संख्या सरासरी वर खेचेल, संभाव्यतः 'सामान्य' अनुभवाचे दिशाभूल करणारे चित्र रंगवेल. तेच आउटलायर्स मानक विचलन वाढण्यास भाग पाडते, संशोधकाला सूचित करते की डेटा गोंधळलेला आहे आणि सरासरी संपूर्ण गटाचा विश्वासार्ह प्रतिनिधी असू शकत नाही.

सामान्य वितरणातील भूमिका

घंटा वक्र पाहताना, हे दोन्ही आकार निश्चित करण्यासाठी एकत्रितपणे कार्य करतात. वक्रतेचा शिखर आडव्या अक्षावर कुठे बसतो हे सरासरी ठरवते. मानक विचलन रुंदी नियंत्रित करते; एक लहान विचलन एक उंच, पातळ स्पाइक तयार करते, तर एक मोठे विचलन वक्र एका लहान, जाड ढिगाऱ्यात पसरवते. एकत्रितपणे, ते आपल्याला अंदाज लावण्यास अनुमती देतात की अंदाजे 68% डेटा केंद्राच्या एका 'पायरी'मध्ये येतो.

व्यावहारिक निर्णय घेणे

वास्तविक जगात, सरासरी हा शब्द बहुतेकदा उद्दिष्टांसाठी वापरला जातो, जसे की लक्ष्य विक्री सरासरी. तथापि, व्यावसायिक जोखीम व्यवस्थापित करण्यासाठी मानक विचलनाचा वापर करतात. उदाहरणार्थ, जर एखादा प्रवासी खूपच कमी मानक विचलन असेल तर तो थोडा जास्त सरासरी प्रवास वेळ असलेला बस मार्ग निवडू शकतो, कारण तो अनपेक्षित चढउतारांना सामोरे जाण्याऐवजी दररोज वेळेवर पोहोचेल याची हमी देतो.

गुण आणि दोष

सरासरी

गुणदोष

+ गणना करणे सोपे
+ खूप अंतर्ज्ञानी
+ सर्व डेटा वापरते
+ तुलना करण्यासाठी चांगले

संरक्षित केले

− बाहेरील लोकांसाठी असुरक्षित
− विकृत डेटामध्ये दिशाभूल करणे
− अस्तित्वात नसलेले मूल्य असू शकते
− अंतर्गत विविधता लपवते

मानक विचलन

गुणदोष

+ डेटा विश्वसनीयता दर्शविते
+ मूळ युनिट्सची देखभाल करते
+ संभाव्यतेसाठी महत्त्वाचे
+ अस्थिरता ओळखते

संरक्षित केले

− मॅन्युअली गणना करणे कठीण
− अर्थाशिवाय अर्थहीन
− अतिरेक्यांमुळे प्रभावित
− मोठे नमुने आवश्यक आहेत

सामान्य गैरसमजुती

मिथ

सरासरी ८० म्हणजे बहुतेक लोकांनी ८० गुण मिळवले.

वास्तव

सरासरी हा फक्त एक शिल्लक बिंदू आहे; जर डेटा खूप उच्च आणि खूप कमी मूल्यांमध्ये विभागला गेला तर कोणालाही प्रत्यक्षात 80 गुण मिळाले नसणे शक्य आहे.

मिथ

मानक विचलन ही ऋण संख्या असू शकते.

वास्तव

सूत्रामध्ये सरासरीपासून फरकांचे वर्गीकरण केल्यामुळे, निकाल नेहमीच शून्य किंवा सकारात्मक असतो. ऋण मूल्य गणितीयदृष्ट्या अशक्य आहे.

मिथ

उच्च मानक विचलन नेहमीच 'वाईट' असते.

वास्तव

हे फक्त विविधता दर्शवते. वर्गात, हितसंबंधांमध्ये उच्च मानक विचलन उत्तम असते, जरी ते समान बोल्ट बनवण्याचा प्रयत्न करणाऱ्या उत्पादकासाठी तणावपूर्ण असू शकते.

मिथ

तुम्ही सरासरी जाणून घेतल्याशिवाय मानक विचलनाची गणना करू शकता.

वास्तव

सूत्रात मध्यक हा एक आवश्यक घटक आहे. सर्वकाही त्यापासून किती दूर आहे हे मोजण्यासाठी तुम्हाला प्रथम केंद्र कुठे आहे हे माहित असले पाहिजे.

वारंवार विचारले जाणारे प्रश्न

आपण फक्त श्रेणीऐवजी मानक विचलन का वापरतो?

ही श्रेणी फक्त दोन अत्यंत टोकाच्या मूल्यांकडे पाहते, जी जर फक्त यादृच्छिक बदल असतील तर ती फसवी असू शकतात. मानक विचलन अधिक मजबूत आहे कारण ते प्रत्येक डेटा बिंदू कुठे बसतो हे पाहते. हे तुम्हाला केवळ बाह्य सीमाच नव्हे तर डेटाच्या 'घनतेची' जाणीव करून देते.

दोन वेगवेगळ्या डेटासेटमध्ये समान सरासरी आणि भिन्न मानक विचलन असू शकतात का?

नक्कीच, आणि हे वास्तव जगात नेहमीच घडते. कल्पना करा की दोन शहरे जिथे सरासरी तापमान ७० अंश आहे. एक शहर वर्षभर ६८ ते ७२ च्या दरम्यान राहू शकते (कमी विचलन), तर दुसरे २० ते १२० च्या दरम्यान (उच्च विचलन). सरासरी समान आहे, परंतु राहणीमानाचा अनुभव पूर्णपणे वेगळा आहे.

कमी प्रमाण विचलनाचा अर्थ डेटा 'अचूक' आहे का?

आवश्यक नाही. याचा अर्थ असा की डेटा 'अचूक' किंवा सुसंगत आहे. तुमच्याकडे असा स्केल असू शकतो जो तुटलेला असेल आणि त्याचे वजन नेहमीच ५ पौंड जास्त असेल. परिणाम सुसंगत असल्याने प्रमाणित विचलन कमी असेल, परंतु खऱ्या वजनाच्या तुलनेत सरासरी चुकीची असेल.

गुंतवणुकीसाठी कोणते जास्त महत्त्वाचे आहे?

गुंतवणूकदार दोन्ही वापरतात, परंतु ते बहुतेकदा मानक विचलन अधिक बारकाईने पाहतात कारण ते 'जोखीम' दर्शवते. सरासरी तुम्हाला अपेक्षित परतावा सांगते, परंतु मानक विचलन तुम्हाला तो परतावा किती चढ-उतार होऊ शकतो हे सांगते. उच्च विचलन म्हणजे एक कठीण प्रवास आणि तात्पुरते नुकसान होण्याची शक्यता जास्त असते.

या दोन मेट्रिक्सवर आउटलायर्सचा कसा परिणाम होतो?

आउटलायर्स हे सरासरीसाठी चुंबकासारखे असतात, जे त्याला त्यांच्याकडे खेचतात. मानक विचलनासाठी, आउटलायर्स एका अॅम्प्लिफायरसारखे काम करतात. कारण गणनेमध्ये सरासरीपासूनचे अंतर वर्ग केले जाते, एक दूरचा बिंदू मानक विचलनाला असमानतेने वाढवू शकतो, जो डेटा सेट खूप पसरलेला असल्याचे दर्शवितो.

मी मध्यकाऐवजी मध्यका कधी वापरावा?

जेव्हा तुमचा डेटा 'विकृत' असेल किंवा घरांच्या किमती किंवा पगारासारखे मोठे फरक असतील तेव्हा तुम्ही मध्यकावर स्विच केले पाहिजे. अशा परिस्थितीत, काही अब्जाधीश सरासरी सामान्य व्यक्तीच्या प्रत्यक्षात मिळणाऱ्या उत्पन्नापेक्षा खूपच जास्त दाखवू शकतात. मध्यका या टोकांना 'प्रतिरोधक' आहे.

६८-९५-९९.७ नियम काय आहे?

सामान्य वितरणासाठी हा एक सोपा नियम आहे. त्यात असे म्हटले आहे की तुमचा ६८% डेटा सरासरीच्या एका मानक विचलनात, ९५% दोनच्या आत आणि ९९.७% तीनच्या आत येईल. विशिष्ट डेटा पॉइंट प्रत्यक्षात किती 'सामान्य' किंवा 'विचित्र' आहे हे पाहण्याचा हा एक शक्तिशाली मार्ग आहे.

मानक विचलन हे भिन्नतेसारखेच आहे का?

ते जवळून संबंधित आहेत, परंतु समान नाहीत. भिन्नता म्हणजे सरासरीपासून वर्ग फरकांची सरासरी, ज्यामुळे 'वर्ग एकके' (चौरस डॉलर्स सारखी) होतात, जी कल्पना करणे कठीण असते. मानक विचलन मिळविण्यासाठी आपण भिन्नतेचे वर्गमूळ घेतो जेणेकरून युनिट्स आपल्या मूळ डेटाशी पुन्हा जुळतील.

निकाल

जेव्हा तुम्हाला गटाच्या एकूण पातळीचा सारांश देण्यासाठी एकाच प्रतिनिधी संख्येची आवश्यकता असेल तेव्हा सरासरी निवडा. जेव्हा तुम्हाला त्या सरासरीची विश्वासार्हता किंवा तुमच्या नमुन्यातील विविधता समजून घ्यायची असेल तेव्हा मानक विचलनावर अवलंबून राहा.

सरासरी विरुद्ध मानक विचलन

ठळक मुद्दे

सरासरी काय आहे?

मानक विचलन काय आहे?

तुलना सारणी

तपशीलवार तुलना

मध्यवर्तीता विरुद्ध फैलाव

अतिरेकी मूल्यांबद्दल संवेदनशीलता

सामान्य वितरणातील भूमिका

व्यावहारिक निर्णय घेणे

गुण आणि दोष

सरासरी

गुणदोष

संरक्षित केले

मानक विचलन

गुणदोष

संरक्षित केले

सामान्य गैरसमजुती

वारंवार विचारले जाणारे प्रश्न

निकाल

संबंधित तुलना

अंकगणित विरुद्ध भौमितिक क्रम

अंकगणितीय श्रेणी विरुद्ध दृश्य क्रम

अंकगणितीय सरासरी विरुद्ध भारित सरासरी

अनुक्रम विश्लेषण विरुद्ध नमुना दृश्यांकन

अमूर्त संख्या विरुद्ध भूमितीय अर्थ लावणे