Comparthing Logo
duomenų mokslaslogikaanalitikatyrimo metodai

Kontekstas ir statistika

Supratimas tarp konteksto ir statistikos yra sudėtingos analizės požymis. Nors statistika pateikia griežtą, matematinį to, kas vyksta visoje populiacijoje, kontekstas prideda esminę mintį ir prasmę, paaiškindamas, kodėl šie modeliai egzistuoja ir kokios konkrečios aplinkybės nulėmė galutinius skaičius.

Akcentai

  • Statistika pateikia klausimą „ką“, o kontekstas – „ir kas iš to“.
  • Duomenys be konteksto dažnai tėra triukšmas, maskuojamas kaip informacija.
  • Kontekstas veikia kaip filtras, kuris pašalina klaidinančius statistinius nuokrypius.
  • Pačios galingiausios įžvalgos atsiranda, kai skaičiai ir pasakojimai sutampa.

Kas yra Kontekstas?

Aplinkybės, kontekstinė informacija ir konkrečios sąlygos, suteikiančios prasmę konkrečiam įvykiui ar duomenų taškui.

  • Nustato išorinius kintamuosius, kurie turi įtakos matavimui
  • Esminis skirtumas tarp koreliacijos ir faktinio priežastingumo
  • Naudoja kokybinius elementus, tokius kaip kultūra, istorija ir aplinka
  • Apsaugo nuo klaidingo duomenų interpretavimo neįprastų įvykių metu
  • Pateikia staigaus rodiklių šuolio ar kritimo „istoriją“

Kas yra Statistika?

Disciplina, kurios metu renkami, analizuojami ir interpretuojami skaitmeniniai duomenys, siekiant nustatyti grupės viduje vykstančius modelius ir tendencijas.

  • Pasikliauja matematiniais modeliais, kad pasiektų objektyvių rezultatų
  • Naudoja tikimybę būsimų rezultatų tikimybei numatyti
  • Norint užtikrinti patikimą reprezentaciją, reikia didelių imčių dydžių
  • Padeda pašalinti individualius šališkumus taikant skaitinį apibendrinimą
  • Standartizuoja informaciją, kad būtų galima palyginti skirtingus duomenų rinkinius

Palyginimo lentelė

Funkcija Kontekstas Statistika
Pagrindinis tikslas Ieškant prasmės ir „kodėl“ Ieškoma šablonų ir „Kiek jų“
Informacijos šaltinis Aplinka ir pasakojimai Skaitmeniniai stebėjimai
Požiūris Subjektyvus ir lokalizuotas Objektyvus ir apibendrintas
Pirminis stiprumas Gilus supratimas Mastelio keitimas ir įrodymas
Pagrindinė rizika Anekdotinis šališkumas Duomenų dehumanizavimas
Patikimumas Didelis situacinis tikslumas Didelė nuspėjamoji galia

Išsamus palyginimas

Žemėlapis ir reljefas

Įsivaizduokite statistiką kaip topografinį žemėlapį, rodantį miško aukštį ir ribas. Kontekstas yra tarsi vaikščiojimas tarp tų medžių; jis parodo, ar žemė purvina nuo neseniai iškritusio lietaus, ar ten peri konkreti paukščių rūšis – detalės, kurių žemėlapyje tiesiog neįmanoma įtraukti.

Priežastingumas ir „paslėptas“ kintamasis

Statistika gali parodyti tobulą koreliaciją tarp ledų pardavimo ir ryklių išpuolių, tačiau be konteksto šie duomenys yra pavojingi. Kontekstas pateikia trūkstamą grandį – vasaros karštį, dėl kurios daugiau žmonių perka skanėstus ir daugiau žmonių maudosi, įrodydami, kad šios dvi statistikos viena kitos nesukelia.

Vidutinybės pavojus

Statistikas galėtų pasakyti, kad upė vidutiniškai yra 1,2 metro gylio, ir tai skamba saugiai kirsti. Tačiau dėl trijų metrų gylio upės viduryje esančio kritimo „vidutinis“ matavimas tampa pavojingas gyvybei, o tai pabrėžia, kokios svarbios išlikimui yra vietinės detalės.

Sprendimų priėmimas versle

Įmonė, remdamasi vien tik statistika, gali pastebėti, kad jos svetainės lankomumas sumažėjo 20 %, ir panikuoti. Kontekstinė analizė gali atskleisti, kad sumažėjimas įvyko per didelę nacionalinę šventę arba pasaulinį interneto sutrikimą, todėl „krizė“ paverčiama nereikšmingu įvykiu, nereikalaujančiu jokių veiksmų.

Privalumai ir trūkumai

Kontekstas

Privalumai

  • + Paaiškina sudėtingus niuansus
  • + Sumažina klaidingą interpretavimą
  • + Ugdo gilesnę empatiją
  • + Nustato unikalias rizikas

Pasirinkta

  • Sunku pritaikyti mastelį
  • Labai subjektyvu
  • Laiko reikalaujantis radimas
  • Sunku įvertinti kiekybiškai

Statistika

Privalumai

  • + Rodo bendrą vaizdą
  • + Objektyvus ir neutralus
  • + Įgalina prognozavimą
  • + Taupo laiką dideliais kiekiais

Pasirinkta

  • Gali būti klaidinantis
  • Trūksta žmogiškojo elemento
  • Ištrina „kodėl“
  • Linkęs į manipuliavimą

Dažni klaidingi įsitikinimai

Mitas

Statistika yra faktai, o kontekstas – tik nuomonė.

Realybė

Abi yra esminės tiesos formos. Statistika yra skaitinis faktas, tačiau kontekstas suteikia faktinę aplinką, kuri leidžia teisingai interpretuoti tą skaičių.

Mitas

Jei imties dydis yra pakankamai didelis, kontekstas nesvarbus.

Realybė

Net ir milijardų dydžio imtis gali būti nenaudinga, jei kontekstas netinkamas. Jei apklausiate milijardą žmonių apie sniegą, bet kalbatės tik su tais, kurie gyvena Sacharos dykumoje, jūsų didžiulis duomenų rinkinys vis tiek yra iš esmės ydingas.

Mitas

Kontekstas skirtas tik „minkštiesiems“ mokslams, tokiems kaip sociologija.

Realybė

Tokie mokslai kaip fizika ir medicina labai priklauso nuo konteksto. Vaisto veiksmingumo statistika yra nenaudinga neatsižvelgiant į paciento amžių, svorį ir gretutines ligas.

Mitas

Visada galite „apskaičiuoti“ kontekstą vėliau.

Realybė

Kontekstas dažnai būna trumpalaikis. Jei neužfiksuosite konkrečių sąlygų, tokių kaip orai ar politinis klimatas, tuo metu, kai renkami duomenys, ši informacija gali būti prarasta visam laikui.

Dažnai užduodami klausimai

Kas yra „slaptasis kintamasis“ statistikoje?
Tai kontekstinis veiksnys, kuris neįtraukiamas į statistinę analizę, bet iš tikrųjų daro įtaką tiek nepriklausomiems, tiek priklausomiems kintamiesiems. Būtent duomenų „vaiduoklis“ sukuria įspūdį, kad du nesusiję dalykai šoka kartu, ir jo atradimas yra pagrindinis kontekstinių tyrimų tikslas.
Kaip sužinoti, ar mano duomenims trūksta konteksto?
Paklauskite savęs, ar skaičius pasikeistų, jei skirtųsi paros laikas, vieta ar auditorija. Jei negalite paaiškinti, kodėl skaičius yra didelis arba mažas, nespėliodami, žiūrite į neapdorotą statistiką be pakankamai konteksto, kad galėtumėte priimti pagrįstą sprendimą.
Kodėl politikai naudoja statistiką be konteksto?
Tai įprasta „išrinkimo iš geriausių dalykų“ taktika. Pašalindamas kontekstą, pavyzdžiui, pasaulinę ekonominę tendenciją, kalbėtojas gali pateikti vaizdą apie vietinius pokyčius kaip tiesioginį jo konkrečios politikos rezultatą, net jei šie du dalykai nesusiję.
Ar „dideli duomenys“ pakeičia konteksto poreikį?
Jei jau ką, didieji duomenys kontekstą daro svarbesnį nei bet kada anksčiau. Turint milijardus duomenų taškų, lengva rasti „netikras koreliacijas“, kurios atrodo prasmingos, bet tėra matematiniai sutapimai. Kontekstas yra vienintelė priemonė, galinti atskirti tikrus signalus nuo to skaitmeninio triukšmo.
Ar kontekstas gali būti šališkas?
Be abejo. Kaip ir statistiką galima manipuliuoti, taip ir kontekstą galima „įrėminti“, kad jis paremtų konkretų pasakojimą. Štai kodėl svarbu ieškoti kelių konteksto šaltinių, kad gautumėte visą istoriją, o ne tik jos kuruotą versiją.
Kas yra Simpsono paradoksas?
Tai gerai žinomas statistinis reiškinys, kai tendencija atsiranda keliose skirtingose duomenų grupėse, bet išnyksta arba pasikeičia, kai šios grupės sujungiamos. Tai puikiai iliustruoja, kodėl duomenų grupavimo kontekstas gali visiškai pakeisti galutinę išvadą.
Ar kokybiniai tyrimai suteikia geresnį kontekstą nei kiekybiniai?
Paprastai taip. Kokybiniai metodai, tokie kaip interviu ir atviri stebėjimai, yra specialiai sukurti situacijos niuansams ir „atmosferai“ užfiksuoti. Tačiau kiekybiniai duomenys taip pat gali suteikti konteksto, jei juose yra metaduomenų, tokių kaip laiko žymos ir geolokacija.
Kaip pateikti kontekstą ataskaitoje, kurioje gausu duomenų?
Savo grafikuose naudokite anotacijas ir išnašas. Užuot tiesiog rodę į viršų kylančią liniją, pridėkite trumpą pastabą, paaiškinančią, kad tą savaitę pradėta rinkodaros kampanija. Šis paprastas papildymas sujungia neapdorotus skaičius su praktinėmis įžvalgomis.
Kas nutinka, kai turite kontekstą, bet neturite statistikos?
Galiausiai susidaro anekdotas. Nors anekdotas gali būti labai jaudinantis ir teisingas vienam žmogui, jam trūksta „statistinės reikšmės“, kad būtų galima įrodyti, jog tas pats nutinka ir visiems kitiems. Norint įrodyti istorijos mastą, reikia skaičių.
Ar įmanoma turėti per daug konteksto?
Taip, tai dažnai vadinama „analizės paralyžiumi“. Jei bandysite atsižvelgti į kiekvieną mažiausią kintamąjį visatoje, niekada nerasite aiškaus dėsningumo. Tikslas yra rasti „prasmingą“ kontekstą – veiksnius, kurie iš tikrųjų pajudina rodyklę.

Nuosprendis

Statistika turėtų būti jūsų atspirties taškas nustatant plačias tendencijas ir įrodinėjant teorijas suinteresuotosioms šalims. Tačiau niekada neturėtumėte priimti galutinio sprendimo be konteksto, nes tai užtikrina, kad jūsų veiksmai būtų aktualūs realioje aplinkoje, kurioje veikiate.

Susiję palyginimai

Astrologinė prognozė ir statistinė prognozė

Astrologinės prognozės susieja dangaus ciklus su žmonių patirtimi siekiant simbolinės reikšmės, o statistinės prognozės analizuoja empirinius istorinius duomenis, kad įvertintų būsimas skaitines vertes. Šiame palyginime nagrinėjamas skirtumas tarp senovinės, archetipais pagrįstos asmeninių apmąstymų sistemos ir modernios, duomenimis pagrįstos metodologijos, naudojamos objektyviam sprendimų priėmimui versle ir moksle.

Astrologiniai tranzitai ir gyvenimo įvykių tikimybių modeliai

Šis palyginimas nagrinėja intriguojančią prarają tarp senovinių dangaus stebėjimų ir šiuolaikinės prognozinės analizės. Astrologiniai tranzitai naudoja planetų ciklus asmeninio augimo fazėms interpretuoti, o gyvenimo įvykių tikimybių modeliai remiasi dideliais duomenimis ir statistiniais algoritmais, kad numatytų konkrečius etapus, tokius kaip karjeros pokyčiai ar sveikatos priežiūros poreikiai.

Ateities prognozavimo modeliai ir retrospektyvi analizė

Nors retrospektyvinė analizė veikia kaip organizacijos galinio vaizdo veidrodis, analizuodama istorinius įrašus, kad suprastų praeities sėkmes ir nesėkmes, ateities prognozavimo modeliai žvelgia pro priekinį stiklą, derindami statistinius algoritmus ir mašininį mokymąsi, kad numatytų būsimus rinkos pokyčius, klientų veiksmus ir veiklos kliūtis.

Aukšto dažnio duomenys ir agreguoti duomenys modeliavime

Pasirinkimas tarp aukšto dažnio duomenų ir apibendrintų duomenų yra esminis kompromisas analitikoje. Nors neapdoroti, per sekundę gaunami sandoriai ir jutiklių srautai suteikia neprilygstamą tiesioginio elgesio ir rinkos mikrostruktūrų matomumą, suspausti laiko apibendrinimai pašalina didžiulį statistinį triukšmą ir didelius infrastruktūros poreikius, kad būtų galima atskleisti aiškias, struktūrines ilgalaikes tendencijas.

Automatinis modelio stebėjimas ir rankinis eksperimento stebėjimas

Pasirinkimas tarp automatinio modelių sekimo ir rankinio eksperimentų sekimo iš esmės lemia duomenų mokslo komandos greitį ir atkuriamumą. Nors automatizavimas naudoja specializuotą programinę įrangą, kad sklandžiai užfiksuotų kiekvieną hiperparametrą, metriką ir artefaktą, rankinis sekimas priklauso nuo žmogaus kruopštumo naudojant skaičiuokles arba „markdown“ failus, todėl reikia rasti griežtą kompromisą tarp sąrankos greičio ir ilgalaikio keičiamo tikslumo.