डेटा-सायन्सगणित सिद्धांतविश्लेषणेसंभाव्यता सिद्धांत

संभाव्यता विरुद्ध सांख्यिकी

संभाव्यता आणि सांख्यिकी या एकाच गणितीय नाण्याच्या दोन बाजू आहेत, ज्या विरुद्ध दिशांमधून येणाऱ्या अनिश्चिततेचा सामना करतात. संभाव्यता ज्ञात मॉडेल्सच्या आधारे भविष्यातील निकालांची शक्यता भाकित करते, तर सांख्यिकी त्या मॉडेल्स तयार करण्यासाठी किंवा सत्यापित करण्यासाठी भूतकाळातील डेटाचे विश्लेषण करते, अंतर्निहित सत्य शोधण्यासाठी निरीक्षणांमधून प्रभावीपणे मागे काम करते.

ठळक मुद्दे

संभाव्यता हा पाया आहे; आकडेवारी ही त्यावर बांधलेली इमारत आहे.
०.५ ची संभाव्यता हा गणितीय दावा आहे, तर सांख्यिकीय सरासरी हा निरीक्षण आहे.
सांख्यिकी 'आवाज' आणि बाह्य घटक हाताळते, जे शुद्ध संभाव्यता सिद्धांतात दुर्लक्षित केले जातात.
जुगार संभाव्यतेवर अवलंबून असतो, तर विमा कंपन्या आकडेवारीवर अवलंबून असतात.

संभाव्यता काय आहे?

यादृच्छिकतेचा गणितीय अभ्यास जो विशिष्ट घटना घडण्याची शक्यता भाकित करतो.

हे एक निगमन प्रक्रिया म्हणून कार्य करते, सामान्य नियमांपासून विशिष्ट परिणामांकडे जाते.
गणना नेहमीच ० (अशक्य) आणि १ (निश्चितता) दरम्यान बांधली जाते.
ते गृहीत धरते की 'लोकसंख्या' किंवा प्रणालीचे मापदंड आधीच ज्ञात आहेत.
सामान्यतः क्रमपरिवर्तन, संयोजन आणि वितरण वक्र यासारख्या साधनांचा वापर करते.
मोठ्या संख्येचा नियम सैद्धांतिक संभाव्यतेला वास्तविक जगातील निकालांशी जोडतो.

आकडेवारी काय आहे?

नमुने आणि ट्रेंड शोधण्यासाठी डेटा गोळा करणे, विश्लेषण करणे आणि अर्थ लावणे हे शास्त्र.

ही एक प्रेरक प्रक्रिया आहे, जी विशिष्ट निरीक्षणांपासून सामान्य निष्कर्षांकडे जाते.
लहान नमुना वापरून अज्ञात लोकसंख्या मापदंडांचा अंदाज घेण्यावर लक्ष केंद्रित करते.
यामध्ये त्रुटींचे प्रमाण आणि डेटामधील विश्वासार्हतेचे स्तर मोजणे समाविष्ट आहे.
दोन मुख्य शाखांमध्ये विभागलेले: वर्णनात्मक आणि अनुमानात्मक सांख्यिकी.
अचूकता सुनिश्चित करण्यासाठी डेटा क्लिनिंग आणि बायस काढून टाकण्यावर खूप अवलंबून आहे.

तुलना सारणी

वैशिष्ट्ये	संभाव्यता	आकडेवारी
तर्कशास्त्राची दिशा	निगमन (मॉडेल ते डेटा)	आगमनात्मक (डेटा ते मॉडेल)
प्राथमिक ध्येय	भविष्यातील घटनांचा अंदाज लावणे	भूतकाळातील/वर्तमानातील डेटा स्पष्ट करणे
ज्ञात संस्था	लोकसंख्या आणि त्याचे नियम	नमुना आणि त्याचे मोजमाप
अज्ञात घटक	चाचणीचा विशिष्ट निकाल	लोकसंख्येची खरी वैशिष्ट्ये
महत्त्वाचा प्रश्न	'X' होण्याची शक्यता किती आहे?	'X' आपल्याला जगाबद्दल काय सांगते?
अवलंबित्व	डेटा संकलनापासून स्वतंत्र	डेटा गुणवत्तेवर पूर्णपणे अवलंबून
मुख्य साधन	यादृच्छिक चल आणि वितरणे	नमुना आणि गृहीतक चाचणी

तपशीलवार तुलना

माहितीचा प्रवाह

संभाव्यतेचा विचार करा 'भविष्यसूचक' इंजिन जिथे तुम्ही पत्त्यांच्या डेकने सुरुवात करता आणि एक्का काढण्याची शक्यता मोजता. सांख्यिकी 'मागे वळणारी' असते; तुम्हाला काढलेल्या पत्त्यांचा एक ढीग दिला जातो आणि तुम्हाला हे ठरवावे लागते की डेक बनावट होता की योग्य. एक कारणापासून सुरुवात करतो आणि परिणामाचा अंदाज लावतो, तर दुसरा परिणामापासून सुरुवात करतो आणि कारणाचा शोध घेतो.

निश्चितता विरुद्ध अंदाज

संभाव्यता सैद्धांतिक निश्चिततेशी संबंधित आहे; जर एक फासा योग्य असेल तर सहा होण्याची शक्यता गणितीयदृष्ट्या निश्चित असते. तथापि, सांख्यिकी कधीही १००% निश्चिततेचा दावा करत नाही. त्याऐवजी, सांख्यिकीशास्त्रज्ञ 'विश्वास अंतराल' प्रदान करतात, हे मान्य करतात की जरी त्यांना ट्रेंड अस्तित्वात आहे असे वाटत असले तरी, त्रुटी किंवा 'पी-व्हॅल्यू' साठी नेहमीच एक गणना केलेले मार्जिन असते जे त्यांच्या चुकीच्या असण्याची क्षमता मोजते.

लोकसंख्या विरुद्ध नमुना

संभाव्यतेमध्ये, आपण गृहीत धरतो की आपल्याला संपूर्ण गटाबद्दल (लोकसंख्येबद्दल) सर्वकाही माहित आहे, जसे की एका भांड्यात किती लाल संगमरवरी आहेत हे जाणून घेणे. जेव्हा भांडे अपारदर्शक असते आणि मोजता येत नाही तेव्हा सांख्यिकी वापरली जाते. आपण मूठभर (नमुना) काढतो, ते पाहतो आणि त्या मर्यादित माहितीचा वापर करून भांड्यातील प्रत्येक संगमरवरीबद्दल एक सुज्ञ अंदाज लावतो.

एकमेकांशी जोडलेले नाते

संभाव्यतेशिवाय आधुनिक आकडेवारी असू शकत नाही. सांख्यिकीय चाचण्या, जसे की नवीन औषध प्लेसिबोपेक्षा चांगले काम करते की नाही हे ठरवणे, संभाव्यता वितरणावर अवलंबून असते जेणेकरून निरीक्षण केलेले परिणाम शुद्ध योगायोगाने घडले असतील का हे पाहावे. संभाव्यता सैद्धांतिक चौकट प्रदान करते, तर सांख्यिकी वास्तविक-जगातील अनुप्रयोग प्रदान करते.

गुण आणि दोष

संभाव्यता

गुणदोष

+ अत्यंत अचूक गणित
+ परिपूर्ण सैद्धांतिक नियम
+ एआय लॉजिकसाठी आवश्यक
+ जोखीम स्पष्टपणे मोजतो

संरक्षित केले

− ज्ञात इनपुट आवश्यक आहेत
− खूप अमूर्त असू शकते
− गृहीतकांना संवेदनशील
− पक्षपात गृहीत धरत नाही

आकडेवारी

गुणदोष

+ वास्तविक जगाचे पुरावे वापरते
+ लपलेले ट्रेंड ओळखते
+ चुका दुरुस्त करतो
+ धोरणात्मक निर्णयांची माहिती देते

संरक्षित केले

− अर्थ लावण्यासाठी खुले
− सहसंबंध म्हणजे कार्यकारणभाव नाही.
− सहजपणे हाताळले
− मोठे डेटासेट आवश्यक आहेत

सामान्य गैरसमजुती

मिथ

संभाव्यता आणि आकडेवारी ही एकाच गोष्टीची वेगवेगळी नावे आहेत.

वास्तव

ते वेगवेगळे विषय आहेत. जरी ते दोन्ही संधी हाताळतात, तरी संभाव्यता ही सैद्धांतिक गणिताची एक शाखा आहे, तर सांख्यिकी ही डेटा इंटरप्रिटेशनवर केंद्रित एक उपयोजित विज्ञान आहे.

मिथ

'सांख्यिकीय महत्त्व' म्हणजे काहीतरी १००% सिद्ध झाले आहे.

वास्तव

आकडेवारीमध्ये, काहीही पूर्णपणे 'सिद्ध' झालेले नाही. याचा अर्थ असा की निकाल अपघाताने घडण्याची शक्यता खूपच कमी असते, सहसा ५% किंवा १% शक्यता असते की तो अचानक घडतो.

मिथ

'सरासरीचा नियम' म्हणजे दीर्घ पराभवानंतर विजय 'निश्चित' आहे.

वास्तव

हा जुगारींचा खोटारडेपणा आहे. संभाव्यता सांगते की प्रत्येक स्वतंत्र घटनेला (नाणे उलथवण्यासारख्या) मागील घटनेची आठवण नसते; आधी काय घडले याची पर्वा न करता शक्यता सारखीच राहते.

मिथ

अधिक डेटा नेहमीच चांगल्या आकडेवारीकडे नेतो.

वास्तव

प्रमाण गुणवत्ता निश्चित करत नाही. जर डेटा पक्षपाती असेल किंवा नमुना प्रतिनिधित्व करत नसेल, तर मोठा डेटासेट तुम्हाला अधिक 'आत्मविश्वासपूर्ण' परंतु चुकीच्या निष्कर्षापर्यंत घेऊन जाईल.

वारंवार विचारले जाणारे प्रश्न

डेटा सायन्ससाठी मी प्रथम कोणते शिकले पाहिजे?

संभाव्यतेपासून सुरुवात करा. सांख्यिकीय चाचण्या प्रत्यक्षात कशा कार्य करतात हे समजून घेण्यासाठी तुम्हाला आवश्यक असलेली 'भाषा' आणि वितरणे (सामान्य वितरणासारखी) यात दिली आहेत. संभाव्यतेशिवाय, आकडेवारी फक्त सूत्रे का कार्य करतात हे न कळता लक्षात ठेवण्यासारखी वाटेल.

पॅरामीटर आणि स्टॅटिस्टिक्समध्ये काय फरक आहे?

पॅरामीटर म्हणजे संपूर्ण लोकसंख्येचे खरे मूल्य (जसे की पृथ्वीवरील प्रत्येक माणसाची सरासरी उंची). सांख्यिकी म्हणजे एका नमुन्यावरून मोजलेले मूल्य (जसे की तुम्ही मोजलेल्या १०० लोकांची सरासरी उंची). आम्ही पॅरामीटरचा अंदाज घेण्यासाठी सांख्यिकी वापरतो.

ब्लॅकजॅकमध्ये कार्ड मोजणे ही शक्यता आहे की आकडेवारी?

प्रत्यक्षात दोन्ही आहेत. तुम्ही 'डेटा' (कोणती कार्डे खेळली गेली आहेत) चा मागोवा ठेवण्यासाठी आकडेवारी वापरता आणि नंतर उर्वरित डेकच्या बदलत्या शक्यतांची गणना करण्यासाठी संभाव्यता वापरता. नवीन माहितीवर आधारित मॉडेल अद्यतनित करण्याचा हा रिअल-टाइम अनुप्रयोग आहे.

हवामान अंदाजात संभाव्यता कशी मदत करते?

हवामानशास्त्रज्ञ सध्याच्या डेटाचा वापर करून हजारो सिम्युलेशन चालवतात. जर १,००० पैकी ७०० सिम्युलेशनमध्ये पाऊस पडण्याची शक्यता दिसून आली तर ते ७०% संभाव्यता नोंदवतात. 'आकडेवारी'च्या भागात भूतकाळातील हवामानाच्या दशकांचे विश्लेषण करून प्रथमच ते सिम्युलेशन मॉडेल तयार करणे समाविष्ट होते.

सांख्यिकीमध्ये 'अनुमान' म्हणजे काय?

अनुमान म्हणजे लहान गटाच्या आधारे मोठ्या गटाची वैशिष्ट्ये 'अंदाज लावणे' किंवा अंदाज लावणे. हा असा पूल आहे जो आपल्याला देशातील प्रत्येक व्यक्तीची चाचणी न करता जनमत किंवा वैद्यकीय परिणामकारकतेबद्दल व्यापक दावे करण्यास अनुमती देतो.

० ची संभाव्यता म्हणजे काय?

मर्यादित निकालांच्या संचात, ० ची संभाव्यता म्हणजे घटना अशक्य आहे. तथापि, सतत गणितात (जसे की ० आणि १ मधील विशिष्ट अचूक दशांश निवडणे), तांत्रिकदृष्ट्या ० ची संभाव्यता घडू शकते, परंतु आपण व्यावहारिक अर्थाने त्याला 'जवळजवळ अशक्य' म्हणतो.

खोटे बोलण्यासाठी आकडेवारीचा वापर करता येतो का?

पूर्णपणे. पक्षपाती नमुने निवडून, दिशाभूल करणाऱ्या स्केलसह डेटाचे दृश्यमानीकरण करून किंवा 'त्रुटीच्या मार्जिन'कडे दुर्लक्ष करून, लोक जवळजवळ कोणत्याही दाव्याला सांख्यिकी समर्थन देऊ शकतात. म्हणूनच संख्यांमागील कार्यपद्धती समजून घेणे हे संख्यांइतकेच महत्त्वाचे आहे.

दोन्हीमध्ये 'सामान्य वितरण' इतके महत्त्वाचे का आहे?

बेल कर्व्ह (सामान्य वितरण) हा निसर्गातील सर्वात सामान्य नमुना आहे. संभाव्यतेमध्ये, ते यादृच्छिक चल कसे एकत्र होतात याचे वर्णन करते. सांख्यिकीमध्ये, केंद्रीय मर्यादा प्रमेय आपल्याला सांगते की जसजसे आपण अधिक नमुने घेतो तसतसे आपला डेटा नैसर्गिकरित्या हा आकार तयार करेल, ज्यामुळे खूप शक्तिशाली अंदाज येऊ शकतील.

निकाल

जेव्हा तुम्हाला खेळाचे नियम माहित असतील आणि पुढे काय होईल याचा अंदाज घ्यायचा असेल तेव्हा संभाव्यतेचा वापर करा. जेव्हा तुमच्याकडे डेटाचा ढीग असेल आणि ते लपलेले नियम प्रत्यक्षात काय आहेत हे शोधायचे असेल तेव्हा आकडेवारीकडे स्विच करा.

संभाव्यता विरुद्ध सांख्यिकी

ठळक मुद्दे

संभाव्यता काय आहे?

आकडेवारी काय आहे?

तुलना सारणी

तपशीलवार तुलना

माहितीचा प्रवाह

निश्चितता विरुद्ध अंदाज

लोकसंख्या विरुद्ध नमुना

एकमेकांशी जोडलेले नाते

गुण आणि दोष

संभाव्यता

गुणदोष

संरक्षित केले

आकडेवारी

गुणदोष

संरक्षित केले

सामान्य गैरसमजुती

वारंवार विचारले जाणारे प्रश्न

निकाल

संबंधित तुलना

अंकगणित विरुद्ध भौमितिक क्रम

अंकगणितीय सरासरी विरुद्ध भारित सरासरी

एक-ते-एक विरुद्ध ऑन्टू फंक्शन्स

कन्व्हर्जंट विरुद्ध डायव्हर्जंट मालिका

कार्टेशियन विरुद्ध ध्रुवीय निर्देशांक