duomenų mokslasmatematikos teorijaanalitikatikimybių teorija
Tikimybė ir statistika
Tikimybė ir statistika yra tos pačios matematinės monetos dvi pusės, nagrinėjančios priešingų krypčių neapibrėžtumą. Nors tikimybė prognozuoja būsimų rezultatų tikimybę remdamasi žinomais modeliais, statistika analizuoja praeities duomenis, kad sukurtų arba patikrintų tuos modelius, efektyviai dirbdama atgal nuo stebėjimų, kad rastų pagrindinę tiesą.
Akcentai
Tikimybė yra pamatas; statistika yra ant jo pastatytas pastatas.
0,5 tikimybė yra matematinis teiginys, o statistinis vidurkis – stebėjimas.
Statistika apdoroja „triukšmą“ ir išskirtis, kurie grynojoje tikimybių teorijoje ignoruojami.
Azartiniai lošimai remiasi tikimybe, o draudimo bendrovės – statistika.
Kas yra Tikimybė?
Matematinis atsitiktinumų tyrimas, kuris prognozuoja konkrečių įvykių tikimybę.
Tai veikia kaip dedukcinis procesas, pereinantis nuo bendrų taisyklių prie konkrečių rezultatų.
Skaičiavimai visada yra apriboti tarp 0 (neįmanoma) ir 1 (tikrumas).
Daroma prielaida, kad „populiacijos“ arba sistemos parametrai jau žinomi.
Dažniausiai naudojami tokie įrankiai kaip permutacijos, deriniai ir pasiskirstymo kreivės.
Didelių skaičių dėsnis susieja teorinę tikimybę su realaus pasaulio rezultatais.
Kas yra Statistika?
Duomenų rinkimo, analizės ir interpretavimo mokslas, siekiant atrasti modelius ir tendencijas.
Tai indukcinis procesas, pereinantis nuo konkrečių pastebėjimų prie bendrų išvadų.
Dėmesys skiriamas nežinomų populiacijos parametrų įvertinimui naudojant mažesnę imtį.
Apima paklaidų ribų ir duomenų patikimumo lygių apskaičiavimą.
Skirstoma į dvi pagrindines šakas: aprašomąją ir išvadinę statistiką.
Labai priklauso nuo duomenų valymo ir šališkumo pašalinimo, siekiant užtikrinti tikslumą.
Palyginimo lentelė
Funkcija
Tikimybė
Statistika
Logikos kryptis
Dedukcinis (modelio į duomenis)
Indukcinis (duomenys modeliui)
Pagrindinis tikslas
Būsimų įvykių prognozavimas
Ankstesnių / dabartinių duomenų paaiškinimas
Žinomi subjektai
Populiacija ir jos taisyklės
Mėginys ir jo matavimai
Nežinomi subjektai
Konkretus teismo proceso rezultatas
Tikrosios gyventojų savybės
Pagrindinis klausimas
Kokia tikimybė, kad įvyks „X“?
Ką „X“ mums sako apie pasaulį?
Priklausomybė
Nepriklausomai nuo duomenų rinkimo
Visiškai priklauso nuo duomenų kokybės
Pagrindinis įrankis
Atsitiktiniai kintamieji ir skirstiniai
Imčių ėmimas ir hipotezių tikrinimas
Išsamus palyginimas
Informacijos srautas
Įsivaizduokite tikimybę kaip „į ateitį orientuotą“ variklį, kai pradedate nuo kortų kaladės ir apskaičiuojate tikimybę ištraukti tūzą. Statistika yra „į praeitį orientuota“ sistema; jums įteikiama ištrauktų kortų krūvelė ir turite nustatyti, ar kaladė buvo suklastota, ar teisinga. Vienas pradeda nuo priežasties ir prognozuoja pasekmę, o kitas pradeda nuo pasekmės ir ieško priežasties.
Tikrumas ir įvertinimas
Tikimybė yra teorinis tikrumas; jei kauliukas teisingas, tikimybė, kad iškris šeši, yra matematiškai fiksuota. Tačiau statistika niekada nepretenduoja į 100 % tikrumą. Vietoj to, statistikai pateikia „pasitikėjimo intervalus“, pripažindami, kad nors jie ir tiki, jog tendencija egzistuoja, visada yra apskaičiuota paklaidos riba arba „p reikšmė“, kuri kiekybiškai įvertina jų tikimybę klysti.
Populiacija ir imtis
Tikimybių skaičiavime darome prielaidą, kad žinome viską apie visą grupę (populiaciją), pavyzdžiui, tiksliai žinome, kiek raudonų rutuliukų yra stiklainyje. Statistika naudojama, kai stiklainis yra neskaidrus ir per didelis, kad būtų galima suskaičiuoti. Ištraukiame saują (imtį), apžiūrime juos ir, naudodami šią ribotą informaciją, galime pagrįstai spėti apie kiekvieną rutuliuką stiklainyje.
Susipynę santykiai
Šiuolaikinė statistika neįsivaizduojama be tikimybių teorijos. Statistiniai testai, pavyzdžiui, nustatant, ar naujas vaistas veikia geriau nei placebas, remiasi tikimybių skirstiniais, siekiant išsiaiškinti, ar stebimi rezultatai galėjo būti gauti atsitiktinai. Tikimybė suteikia teorinį pagrindą, o statistika – praktinį pritaikymą.
Privalumai ir trūkumai
Tikimybė
Privalumai
+Labai tiksli matematika
+Absoliučios teorinės taisyklės
+Esminis dirbtinio intelekto logikai
+Aiškiai apskaičiuoja riziką
Pasirinkta
−Reikalingi žinomi įėjimai
−Gali būti pernelyg abstraktus
−Jautrus prielaidoms
−Neatsižvelgia į šališkumą
Statistika
Privalumai
+Naudoja realaus pasaulio įrodymus
+Nustato paslėptas tendencijas
+Ištaiso klaidas
+Informuoja apie politinius sprendimus
Pasirinkta
−Atvira interpretacijai
−Koreliacija nėra priežastinis ryšys
−Lengvai manipuliuojama
−Reikalingi dideli duomenų rinkiniai
Dažni klaidingi įsitikinimai
Mitas
Tikimybė ir statistika yra tiesiog skirtingi to paties dalyko pavadinimai.
Realybė
Tai skirtingos disciplinos. Nors abi jos nagrinėja atsitiktinumus, tikimybė yra teorinės matematikos šaka, o statistika – taikomasis mokslas, orientuotas į duomenų interpretavimą.
Mitas
„Statistinis reikšmingumas“ reiškia, kad kažkas yra 100 % įrodyta.
Realybė
Statistikoje niekas nėra „įrodyta“ absoliučia prasme. Tai tiesiog reiškia, kad rezultatas labai mažai tikėtinas atsitiktinumas, paprastai esant 5 % ar 1 % tikimybei, kad tai atsitiktinumas.
Mitas
„Vidutinybių dėsnis“ reiškia, kad pergalė „priklauso“ po ilgos pralaimėjimų serijos.
Realybė
Tai lošėjo klaida. Tikimybių teorija teigia, kad kiekvienas nepriklausomas įvykis (pvz., monetos metimas) neturi ankstesnio įvykio atminties; tikimybė išlieka ta pati, nepriklausomai nuo to, kas įvyko anksčiau.
Mitas
Daugiau duomenų visada veda prie geresnės statistikos.
Realybė
Kiekybė kokybės nenustato. Jei duomenys yra šališki arba imtis nėra reprezentatyvi, didesnis duomenų rinkinys tiesiog leis padaryti „patikimesnę“, bet neteisingą išvadą.
Dažnai užduodami klausimai
Kurį duomenų mokslą turėčiau išmokti pirmiausia?
Pradėkite nuo tikimybės. Ji suteikia „kalbą“ ir skirstinius (pvz., normalųjį skirstinį), kurių jums reikės norint suprasti, kaip iš tikrųjų veikia statistiniai testai. Be tikimybių statistika bus tarsi formulių įsiminimas nežinant, kodėl jos veikia.
Kuo skiriasi parametras ir statistika?
Parametras yra tikroji reikšmė, priklausanti visai populiacijai (pvz., vidutinis kiekvieno žmogaus ūgis Žemėje). Statistika yra reikšmė, apskaičiuota iš imties (pvz., vidutinis 100 žmonių ūgis, kurį išmatavote). Šią statistiką naudojame parametrui įvertinti.
Ar kortų skaičiavimas yra Blackjack tikimybė, ar statistika?
Iš tikrųjų tai yra ir viena, ir kita. Statistikos pagalba stebite „duomenis“ (kurios kortos buvo žaidžiamos), o tada, naudodami tikimybę, apskaičiuojate likusios kaladės kintančius koeficientus. Tai realaus laiko modelio atnaujinimo pagal naują informaciją taikymas.
Kaip tikimybė padeda prognozuoti orus?
Meteorologai atlieka tūkstančius modeliavimų, naudodami dabartinius duomenis. Jei 700 iš 1000 modeliavimų rodo lietų, jie nurodo 70 % tikimybę. „Statistikos“ dalis apėmė dešimtmečių praeities orų analizę, siekiant sukurti tokius modelius.
Kas yra „išvada“ statistikoje?
Išvada – tai veiksmas, kai, remiantis mažos grupės duomenimis, „daroma išvada“ arba spėliojama apie didelės grupės charakteristikas. Tai yra tiltas, leidžiantis mums daryti plačius teiginius apie visuomenės nuomonę ar medicinos veiksmingumą, netiriant kiekvieno šalies gyventojo.
Ką reiškia tikimybė, lygi 0?
Baigtiniame rezultatų rinkinyje tikimybė, lygi 0, reiškia, kad įvykis neįmanomas. Tačiau tolydžiojoje matematikoje (pvz., renkantis konkretų tikslų dešimtainį skaičių tarp 0 ir 1) tikimybė, lygi 0, techniškai gali įvykti, bet praktiškai mes ją vadiname „beveik neįmanoma“.
Ar statistika gali būti naudojama melui?
Be abejo. Pasirinkdami šališkas imtis, vizualizuodami duomenis klaidinančiomis skalėmis arba ignoruodami „paklaidos ribą“, žmonės gali priversti statistiką pagrįsti beveik bet kokį teiginį. Štai kodėl suprasti skaičių metodologiją yra taip pat svarbu, kaip ir pačius skaičius.
Kodėl „normalus skirstinys“ yra toks svarbus abiejuose?
Varpo kreivė (normalus skirstinys) yra labiausiai paplitęs gamtoje. Tikimybių teorijoje ji apibūdina, kaip atsitiktiniai kintamieji klasterizuojasi. Statistikoje centrinė ribinė teorema teigia, kad imant daugiau imčių, mūsų duomenys natūraliai sudarys šią formą, o tai leidžia pateikti labai patikimas prognozes.
Nuosprendis
Tikimybių teoriją naudokite, kai žinote žaidimo taisykles ir norite nuspėti, kas nutiks toliau. Statistikos teoriją naudokite, kai turite daug duomenų ir jums reikia išsiaiškinti, kokios iš tikrųjų yra tos paslėptos taisyklės.