स्टैटिस्टिक्स फैक्ट्स हैं, और कॉन्टेक्स्ट सिर्फ़ एक राय है।
दोनों ही सच के ज़रूरी रूप हैं। एक स्टैटिस्टिक एक न्यूमेरिकल फैक्ट है, लेकिन कॉन्टेक्स्ट वह फैक्ट वाला माहौल देता है जिससे आप उस नंबर को सही तरह से समझ सकते हैं।
कॉन्टेक्स्ट और स्टैटिस्टिक्स के बीच के तालमेल को समझना ही एडवांस्ड एनालिसिस की पहचान है। जहाँ स्टैटिस्टिक्स किसी आबादी में क्या हो रहा है, इसका एक पक्का, मैथमेटिकल ढांचा देते हैं, वहीं कॉन्टेक्स्ट ज़रूरी जानकारी देता है, यह समझाता है कि वे पैटर्न क्यों मौजूद हैं और किन खास हालात ने आखिरी नंबरों को बनाया।
आस-पास के हालात, बैकग्राउंड की जानकारी, और खास हालात जो किसी खास घटना या डेटा पॉइंट को मतलब देते हैं।
किसी ग्रुप में पैटर्न और ट्रेंड पहचानने के लिए न्यूमेरिकल डेटा इकट्ठा करने, उसका एनालिसिस करने और उसे समझने का काम।
| विशेषता | प्रसंग | आंकड़े |
|---|---|---|
| मौलिक लक्ष्य | अर्थ और 'क्यों' की तलाश | पैटर्न की तलाश और 'कितने' |
| सूचना स्रोत | पर्यावरण और आख्यान | संख्यात्मक अवलोकन |
| दृष्टिकोण | व्यक्तिपरक और स्थानीयकृत | वस्तुनिष्ठ और सामान्यीकृत |
| प्राथमिक शक्ति | गहरी समझ | मापनीयता और प्रमाण |
| मुख्य जोखिम | उपाख्यानात्मक पूर्वाग्रह | डेटा का अमानवीयकरण |
| विश्वसनीयता | उच्च स्थितिजन्य सटीकता | उच्च भविष्यसूचक शक्ति |
स्टैटिस्टिक्स को एक टोपोग्राफिक मैप की तरह समझें जो आपको जंगल की ऊंचाई और सीमाएं दिखाता है। कॉन्टेक्स्ट असल में उन पेड़ों के बीच से चलने जैसा है; इससे पता चलता है कि हाल ही में हुई बारिश से ज़मीन कीचड़ वाली है या किसी खास तरह के पक्षी ने वहां घोंसला बनाया है, ऐसी डिटेल्स जो मैप में शामिल नहीं हो सकतीं।
स्टैटिस्टिक्स आइसक्रीम की बिक्री और शार्क के हमलों के बीच एकदम सही संबंध दिखा सकते हैं, लेकिन बिना कॉन्टेक्स्ट के, वह डेटा खतरनाक है। कॉन्टेक्स्ट वह मिसिंग लिंक देता है—गर्मी की गर्मी—जिससे ज़्यादा लोग ट्रीट खरीदते हैं और ज़्यादा लोग स्विमिंग करते हैं, जिससे यह साबित होता है कि ये दोनों स्टैट्स असल में एक-दूसरे की वजह नहीं बन रहे हैं।
एक स्टैटिस्टिशियन आपको बता सकता है कि एक नदी एवरेज चार फीट गहरी होती है, जो पार करने के लिए सेफ लगती है। लेकिन, उस नदी के बीच में दस फीट की खाई का कॉन्टेक्स्ट 'एवरेज' मेज़रमेंट को जानलेवा बना देता है, जिससे पता चलता है कि ज़िंदा रहने के लिए लोकल डिटेल्स कितनी ज़रूरी हैं।
किसी कंपनी को अपनी वेबसाइट का ट्रैफिक 20% कम होता दिख सकता है और वह सिर्फ़ स्टैटिस्टिक्स के आधार पर घबरा सकती है। कॉन्टेक्स्ट के एनालिसिस से पता चल सकता है कि यह गिरावट किसी बड़ी नेशनल छुट्टी या ग्लोबल इंटरनेट आउटेज के दौरान हुई, जिससे 'क्राइसिस' एक ऐसी घटना बन जाती है जिस पर कोई एक्शन लेने की ज़रूरत नहीं होती।
स्टैटिस्टिक्स फैक्ट्स हैं, और कॉन्टेक्स्ट सिर्फ़ एक राय है।
दोनों ही सच के ज़रूरी रूप हैं। एक स्टैटिस्टिक एक न्यूमेरिकल फैक्ट है, लेकिन कॉन्टेक्स्ट वह फैक्ट वाला माहौल देता है जिससे आप उस नंबर को सही तरह से समझ सकते हैं।
अगर सैंपल साइज़ काफी बड़ा है, तो कॉन्टेक्स्ट मायने नहीं रखता।
अगर कॉन्टेक्स्ट गलत हो तो अरबों का सैंपल साइज़ भी बेकार हो सकता है। अगर आप बर्फ़ के बारे में अरबों लोगों से पोल करते हैं, लेकिन सिर्फ़ सहारा में रहने वालों से बात करते हैं, तो भी आपका बड़ा डेटासेट असल में गलत होगा।
यह संदर्भ केवल सोशियोलॉजी जैसे 'सॉफ्ट' साइंस के लिए है।
फिजिक्स और मेडिसिन जैसे हार्ड साइंस बहुत हद तक कॉन्टेक्स्ट पर निर्भर करते हैं। किसी दवा के असर का स्टैटिस्टिक मरीज़ की उम्र, वज़न और पहले से मौजूद बीमारियों के कॉन्टेक्स्ट के बिना बेकार है।
आप बाद में कभी भी कॉन्टेक्स्ट को 'कैलकुलेट' कर सकते हैं।
कॉन्टेक्स्ट अक्सर कुछ समय के लिए होता है। अगर आप डेटा इकट्ठा करते समय मौसम या राजनीतिक माहौल जैसी खास स्थितियों को रिकॉर्ड नहीं करते हैं, तो वह जानकारी हमेशा के लिए खो सकती है।
बड़े ट्रेंड्स को पहचानने और स्टेकहोल्डर्स को थ्योरीज़ साबित करने के लिए स्टैटिस्टिक्स आपका शुरुआती पॉइंट होना चाहिए। हालांकि, आपको बिना कॉन्टेक्स्ट के कभी भी कोई आखिरी फैसला नहीं लेना चाहिए, क्योंकि इससे यह पक्का होता है कि आपके काम उस असल दुनिया के माहौल के लिए काम के हों जिसमें आप काम कर रहे हैं।
परफॉर्मेंस ट्रैकिंग की दुनिया में आगे बढ़ने के लिए लीडिंग और लैगिंग, दोनों इंडिकेटर्स की अच्छी समझ होनी चाहिए। लैगिंग इंडिकेटर्स पहले से हो चुकी चीज़ों, जैसे टोटल रेवेन्यू, को कन्फर्म करते हैं, जबकि लीडिंग इंडिकेटर्स प्रेडिक्टिव सिग्नल के तौर पर काम करते हैं जो टीमों को बड़े लक्ष्यों को पाने के लिए रियल-टाइम में अपनी स्ट्रैटेजी को एडजस्ट करने में मदद करते हैं।
यह एनालिटिक्स ब्रेकडाउन मॉडर्न प्रोडक्शन एनवायरनमेंट से बनी अस्त-व्यस्त, बिना क्यूरेट की गई जानकारी को थ्योरेटिकल ट्रेनिंग में इस्तेमाल होने वाले एकदम सही स्ट्रक्चर्ड, साफ-सुथरे डेटा मॉडल से अलग दिखाता है। यह बताता है कि कैसे अचानक आने वाली कमियां और सिस्टम की गड़बड़ियां डेटा इंजीनियरों को किताब के स्टैटिस्टिकल अंदाज़ों पर भरोसा करने के बजाय मज़बूत पाइपलाइन बनाने के लिए मजबूर करती हैं।
जहां नॉइज़ फ़िल्टरिंग डेटासेट के मुख्य ट्रेंड को साफ़ करने के लिए कम लेवल के रैंडम उतार-चढ़ाव को हटा देती है, वहीं आउटलायर्स से सिग्नल निकालने के लिए एक्टिवली बहुत ज़्यादा, अलग-थलग डेटा पॉइंट्स की तलाश की जाती है जो छिपी हुई गड़बड़ियों, ज़रूरी सिस्टम गलतियों या हाई-वैल्यू ब्रेकथ्रू को दिखाते हैं। यह जानना कि हर तकनीक को कब इस्तेमाल करना है, आपको गलती से अपनी सबसे कीमती डेटा इनसाइट्स को खोने से बचाता है।
यह टेक्निकल तुलना एज केस डेटा – जो बहुत कम, बहुत ज़्यादा सिस्टम बिहेवियर को दिखाता है – और एवरेज केस डेटा, जो आम यूज़र पैटर्न को दिखाता है, के अलग-अलग रोल की जांच करती है। इन दो डेटा टाइप को सही तरह से बैलेंस करना, मज़बूत, हाई-परफॉर्मेंस एनालिटिक्स पाइपलाइन बनाने के लिए बहुत ज़रूरी है, जो स्टैंडर्ड ऑपरेशन और असल दुनिया में स्ट्रेस बढ़ाने वाले अस्थिर आउटलायर्स, दोनों को सही तरह से दिखाते हैं।
जहां डेटा क्लीनिंग में डुप्लीकेट को एक्टिवली हटाया जाता है, गड़बड़ियों को ठीक किया जाता है, और मशीन लर्निंग की सटीकता बढ़ाने के लिए खराब इनपुट को रीफ़ॉर्मेट किया जाता है, वहीं डेटा प्रिज़र्वेशन में रॉ, बिना बदलाव वाली हिस्ट्री को बनाए रखने पर फ़ोकस किया जाता है ताकि लंबे समय तक ऑडिटिंग कम्प्लायंस को सुरक्षित रखा जा सके और दुर्लभ लेकिन ज़रूरी एज केस के अचानक नुकसान को रोका जा सके।