Todennäköisyys ja tilastotiede ovat saman matemaattisen kolikon kaksi puolta, jotka käsittelevät epävarmuutta vastakkaisista suunnista. Todennäköisyys ennustaa tulevien tulosten todennäköisyyttä tunnettujen mallien perusteella, kun taas tilastotiede analysoi aiempia tietoja rakentaakseen tai varmentaakseen näitä malleja, tehokkaasti työskennellen havainnoista taaksepäin löytääkseen taustalla olevan totuuden.
Korostukset
Todennäköisyys on perusta; tilastot on sen päälle rakennettu rakennus.
Todennäköisyys 0,5 on matemaattinen väite, kun taas tilastollinen keskiarvo on havainto.
Tilastotiede käsittelee "kohinaa" ja poikkeavia havaintoja, jotka jätetään huomiotta puhtaassa todennäköisyysteoriassa.
Uhkapelaaminen perustuu todennäköisyyteen, kun taas vakuutusyhtiöt tilastoihin.
Mikä on Todennäköisyys?
Satunnaisuuden matemaattinen tutkimus, joka ennustaa tiettyjen tapahtumien todennäköisyyksiä.
Se toimii deduktiivisena prosessina, jossa siirrytään yleisistä säännöistä tiettyihin lopputuloksiin.
Laskelmat ovat aina sidottuja nollan (mahdoton) ja yhden (varma) välille.
Se olettaa, että 'populaation' tai järjestelmän parametrit ovat jo tiedossa.
Käyttää yleisesti työkaluja, kuten permutaatioita, yhdistelmiä ja jakaumakäyriä.
Suurten lukujen laki yhdistää teoreettisen todennäköisyyden tosielämän tuloksiin.
Mikä on Tilastot?
Tiede, jossa kerätään, analysoidaan ja tulkitaan dataa mallien ja trendien löytämiseksi.
Se on induktiivinen prosessi, jossa siirrytään erityisistä havainnoista yleisiin johtopäätöksiin.
Keskittyy tuntemattomien populaatioparametrien arviointiin pienemmän otoksen avulla.
Sisältää virhemarginaalien ja luotettavuustasojen laskemisen tiedoissa.
Jaettu kahteen päähaaraan: kuvailevaan ja päättelevään tilastotieteeseen.
Nojaa vahvasti datan puhdistamiseen ja vinoumien poistamiseen tarkkuuden varmistamiseksi.
Vertailutaulukko
Ominaisuus
Todennäköisyys
Tilastot
Logiikan suunta
Deduktiivinen (malli dataksi)
Induktiivinen (datasta malliksi)
Ensisijainen tavoite
Tulevien tapahtumien ennustaminen
Menneiden/nykyisten tietojen selittäminen
Tunnetut yksiköt
Väestö ja sen säännöt
Näyte ja sen mittaukset
Tuntemattomat yksiköt
Oikeudenkäynnin tarkka lopputulos
Väestön todelliset ominaisuudet
Keskeinen kysymys
Mitkä ovat todennäköisyydet sille, että 'X' tapahtuu?
Mitä X kertoo meille maailmasta?
Riippuvuus
Riippumaton tiedonkeruusta
Täysin riippuvainen datan laadusta
Ydintyökalu
Satunnaismuuttujat ja jakaumat
Otanta ja hypoteesien testaus
Yksityiskohtainen vertailu
Tiedonkulku
Ajattele todennäköisyyttä "eteenpäin katsovana" koneena, jossa aloitat korttipakalla ja lasket ässän nostamisen todennäköisyyden. Tilastotiede on "taaksepäin katsovaa"; sinulle jaetaan pino nostettuja kortteja ja sinun on määritettävä, onko pakka väärennetty vai reilu. Toinen aloittaa syystä ja ennustaa seurauksen, kun taas toinen aloittaa seurauksesta ja etsii syytä.
Varmuus vs. arviointi
Todennäköisyys käsittelee teoreettisia varmuuksia; jos noppa on reilu, kuutonen todennäköisyys on matemaattisesti kiinteä. Tilastotiede ei kuitenkaan koskaan väitä olevansa 100 % varma. Sen sijaan tilastotieteilijät tarjoavat "luottamusvälejä" myöntäen, että vaikka he uskovat trendin olevan olemassa, on aina olemassa laskettu virhemarginaali eli "p-arvo", joka ilmaisee heidän väärässäolomahdollisuutensa.
Populaatio vs. otos
Todennäköisyyslaskennassa oletamme tietävämme kaiken koko ryhmästä (populaatiosta), kuten tietävämme tarkalleen kuinka monta punaista marmorikuulaa purkissa on. Tilastotiedettä käytetään, kun purkki on läpinäkymätön ja liian suuri laskettavaksi. Otamme kourallisen (otoksen) purkista, tarkastelemme niitä ja käytämme näitä rajallisia tietoja tehdäksemme perustellun arvion jokaisesta purkissa olevasta marmorikuulasta.
Kietoutunut suhde
Nykyaikaista tilastotiedettä ei voi olla ilman todennäköisyysteoriaa. Tilastolliset testit, kuten sen määrittäminen, toimiiko uusi lääke paremmin kuin lumelääke, perustuvat todennäköisyysjakaumiin nähdäkseen, olisivatko havaitut tulokset voineet syntyä sattumalta. Todennäköisyys tarjoaa teoreettisen viitekehyksen, kun taas tilastotiede tarjoaa käytännön sovelluksen.
Hyödyt ja haitat
Todennäköisyys
Plussat
+Erittäin tarkka matematiikka
+Absoluuttiset teoreettiset säännöt
+Olennaista tekoälylogiikalle
+Laskee riskin selkeästi
Sisältö
−Vaatii tunnettuja syötteitä
−Voi olla liian abstrakti
−Herkkä oletuksille
−Ei ota huomioon ennakkoluuloja
Tilastot
Plussat
+Käyttää tosielämän todisteita
+Tunnistaa piileviä trendejä
+Korjaa virheet
+Tietoa poliittisista päätöksistä
Sisältö
−Avoin tulkinnoille
−Korrelaatio ei ole kausaliteetti
−Helposti manipuloitavissa
−Vaatii suuria tietojoukkoja
Yleisiä harhaluuloja
Myytti
Todennäköisyys ja tilastotiede ovat vain saman asian eri nimiä.
Todellisuus
Ne ovat erillisiä tieteenaloja. Vaikka molemmat käsittelevät sattumaa, todennäköisyys on teoreettisen matematiikan haara, kun taas tilastotiede on sovellettu tiede, joka keskittyy datan tulkintaan.
Myytti
Tilastollinen merkitsevyys tarkoittaa, että jokin on 100-prosenttisesti todistettu.
Todellisuus
Tilastoissa mikään ei ole absoluuttisessa mielessä "todistettua". Se tarkoittaa vain sitä, että tulos on hyvin epätodennäköisesti sattumalta tapahtunut, yleensä 5 %:n tai 1 %:n todennäköisyydellä sattuma.
Myytti
Keskiarvojen laki tarkoittaa, että voitto on "ansaittu" pitkän tappioputken jälkeen.
Todellisuus
Tämä on uhkapelurin harha. Todennäköisyyslaskelma väittää, että millään itsenäisellä tapahtumalla (kuten kolikonheitolla) ei ole muistikuvaa edellisestä; kertoimet pysyvät samoina riippumatta siitä, mitä aiemmin tapahtui.
Myytti
Enemmän dataa johtaa aina parempiin tilastoihin.
Todellisuus
Määrä ei korjaa laatua. Jos data on vinoutunutta tai otos ei ole edustava, suurempi datajoukko johtaa yksinkertaisesti "varmempaan", mutta virheelliseen johtopäätökseen.
Usein kysytyt kysymykset
Kumpi minun pitäisi opetella ensin datatieteen osalta?
Aloita todennäköisyydestä. Se tarjoaa "kielen" ja jakaumat (kuten normaalijakauman), joita tarvitset ymmärtääksesi, miten tilastolliset testit todellisuudessa toimivat. Ilman todennäköisyyttä tilastotiede tuntuu vain kaavojen ulkoa opettelulta tietämättä, miksi ne toimivat.
Mitä eroa on parametrilla ja tilastolla?
Parametri on koko populaatioon kuuluva todellinen arvo (kuten jokaisen maapallon ihmisen keskimääräinen pituus). Tilastoarvo on otoksesta laskettu arvo (kuten 100 mitatun ihmisen keskimääräinen pituus). Käytämme tilastoarvoa parametrin arvioimiseen.
Onko korttien laskeminen blackjackin todennäköisyyksiä vai tilastoja?
Se on itse asiassa molempia. Käytät tilastoja seurataksesi "dataa" (mitä kortteja on pelattu) ja sitten todennäköisyyttä laskeaksesi jäljellä olevan pakan muuttuvat kertoimet. Se on reaaliaikainen sovellus mallin päivittämiseen uusien tietojen perusteella.
Miten todennäköisyyslaskelma auttaa sään ennustamisessa?
Meteorologit suorittavat tuhansia simulaatioita nykyisen datan avulla. Jos 700 simulaatiota tuhannesta näyttää sadetta, he raportoivat 70 %:n todennäköisyyden. Tilastollisessa osassa analysoitiin vuosikymmenten säätä näiden simulaatiomallien luomiseksi.
Mitä on 'päättely' tilastotieteessä?
Päättely on teko, jossa pienen ryhmän ominaisuuksista tehdään päättelyä tai arvailua. Se on silta, jonka avulla voimme esittää laajoja väitteitä yleisestä mielipiteestä tai lääketieteellisestä tehokkuudesta testaamatta jokaista yksittäistä henkilöä maassa.
Mitä todennäköisyys 0 tarkoittaa?
Äärellisessä joukossa tuloksia todennäköisyys 0 tarkoittaa, että tapahtuma on mahdoton. Jatkuvassa matematiikassa (kuten tietyn desimaalin valitseminen 0:n ja 1:n väliltä) todennäköisyys 0 voi kuitenkin teknisesti esiintyä, mutta käytännössä kutsumme sitä "melkein mahdottomaksi".
Voiko tilastoja käyttää valehteluun?
Ehdottomasti. Valitsemalla puolueellisia otoksia, visualisoimalla tietoja harhaanjohtavilla asteikoilla tai jättämällä huomiotta "virhemarginaalin" ihmiset voivat saada tilastot tukemaan lähes mitä tahansa väitettä. Siksi lukujen taustalla olevan metodologian ymmärtäminen on yhtä tärkeää kuin itse luvut.
Miksi 'normaalijakauma' on niin tärkeä molemmissa?
Kellokäyrä (normaalijakauma) on yleisin luonnossa esiintyvä kuvio. Todennäköisyyslaskennassa se kuvaa satunnaismuuttujien ryppäämistä. Tilastotieteessä keskeinen raja-arvolause kertoo meille, että mitä enemmän näytteitä otamme, sitä enemmän datamme luonnollisesti muodostaa tämän muodon, mikä mahdollistaa erittäin tehokkaiden ennusteiden tekemisen.
Tuomio
Käytä todennäköisyyslaskentaa, kun tiedät pelin säännöt ja haluat ennustaa, mitä seuraavaksi tapahtuu. Vaihda tilastotieteeseen, kun sinulla on paljon dataa ja sinun on selvitettävä, mitä nuo piilotetut säännöt oikeastaan ovat.