Sannsynlighet og statistikk er to sider av samme matematiske sak, som håndterer usikkerhet fra motsatte retninger. Mens sannsynlighet forutsier sannsynligheten for fremtidige utfall basert på kjente modeller, analyserer statistikk tidligere data for å bygge eller verifisere disse modellene, og arbeider effektivt bakover fra observasjoner for å finne den underliggende sannheten.
Høydepunkter
Sannsynlighet er fundamentet; statistikk er bygningen som bygges på det.
En sannsynlighet på 0,5 er en matematisk påstand, mens et statistisk gjennomsnitt er en observasjon.
Statistikk håndterer «støy» og avvikere, som ignoreres i ren sannsynlighetsteori.
Gambling er basert på sannsynlighet, mens forsikringsselskaper er avhengige av statistikk.
Hva er Sannsynlighet?
Den matematiske studien av tilfeldighet som forutsier sjansene for at spesifikke hendelser inntreffer.
Den fungerer som en deduktiv prosess, som går fra generelle regler til spesifikke utfall.
Beregninger er alltid begrenset mellom 0 (umulig) og 1 (sikkerhet).
Den forutsetter at parametrene til «populasjonen» eller systemet allerede er kjent.
Bruker ofte verktøy som permutasjoner, kombinasjoner og fordelingskurver.
De store tallenes lov knytter teoretisk sannsynlighet til resultater i den virkelige verden.
Hva er Statistikk?
Vitenskapen om å samle inn, analysere og tolke data for å oppdage mønstre og trender.
Det er en induktiv prosess, som går fra spesifikke observasjoner til generelle konklusjoner.
Fokuserer på å estimere ukjente populasjonsparametere ved bruk av et mindre utvalg.
Involverer beregning av feilmarginer og nivåer av tillit til data.
Delt inn i to hovedgrener: beskrivende og inferensiell statistikk.
Avhenger sterkt av datarensing og fjerning av skjevheter for å sikre nøyaktighet.
Sammenligningstabell
Funksjon
Sannsynlighet
Statistikk
Logikkens retning
Deduktiv (modell til data)
Induktiv (data til modell)
Hovedmål
Å forutsi fremtidige hendelser
Forklaring av tidligere/nåværende data
Kjente enheter
Befolkningen og dens regler
Prøven og dens målinger
Ukjente enheter
Det spesifikke resultatet av en rettssak
De sanne egenskapene til befolkningen
Nøkkelspørsmål
Hva er oddsen for at «X» skjer?
Hva forteller «X» oss om verden?
Avhengighet
Uavhengig av datainnsamling
Helt avhengig av datakvalitet
Kjerneverktøy
Tilfeldige variabler og fordelinger
Utvalg og hypotesetesting
Detaljert sammenligning
Informasjonsflyten
Tenk på sannsynlighet som en «fremoverskuende» motor der du starter med en kortstokk og beregner oddsen for å trekke et ess. Statistikk er «bakoverskuende»; du får utdelt en bunke med trukket kort og må avgjøre om kortstokken var rigget eller rettferdig. Den ene starter med årsaken og forutsier virkningen, mens den andre starter med virkningen og jakter på årsaken.
Sikkerhet vs. estimering
Sannsynlighet handler om teoretiske sikkerheter; hvis en terning er rettferdig, er sjansen for en sekser matematisk fastsatt. Statistikk hevder imidlertid aldri 100 % sikkerhet. I stedet oppgir statistikere «konfidensintervaller», og innrømmer at selv om de tror at en trend eksisterer, er det alltid en beregnet feilmargin eller «p-verdi» som kvantifiserer potensialet for å ta feil.
Populasjon vs. utvalg
I sannsynlighetsregning antar vi at vi vet alt om hele gruppen (populasjonen), som å vite nøyaktig hvor mange røde klinkekuler som er i en krukke. Statistikk brukes når krukken er ugjennomsiktig og for stor til å telle. Vi tar ut en håndfull (utvalget), ser på dem og bruker den begrensede informasjonen til å komme med en kvalifisert gjetning om hver klinkekule i krukken.
Sammenflettet forhold
Du kan ikke ha moderne statistikk uten sannsynlighet. Statistiske tester, som å avgjøre om en ny medisin fungerer bedre enn en placebo, er avhengige av sannsynlighetsfordelinger for å se om de observerte resultatene kunne ha skjedd ved ren tilfeldighet. Sannsynlighet gir det teoretiske rammeverket, mens statistikk gir den virkelige anvendelsen.
Fordeler og ulemper
Sannsynlighet
Fordeler
+Svært presis matematikk
+Absolutte teoretiske regler
+Essensielt for AI-logikk
+Beregner risiko tydelig
Lagret
−Krever kjente inndata
−Kan bli for abstrakt
−Følsom for antagelser
−Tar ikke hensyn til skjevhet
Statistikk
Fordeler
+Bruker bevis fra den virkelige verden
+Identifiserer skjulte trender
+Retter opp feil
+Informerer politiske beslutninger
Lagret
−Åpen for tolkning
−Korrelasjon er ikke årsakssammenheng
−Lett å manipulere
−Krever store datasett
Vanlige misforståelser
Myt
Sannsynlighet og statistikk er bare forskjellige navn på det samme.
Virkelighet
De er forskjellige disipliner. Selv om begge håndterer tilfeldigheter, er sannsynlighet en gren av teoretisk matematikk, mens statistikk er en anvendt vitenskap fokusert på datatolkning.
Myt
«Statistisk signifikans» betyr at noe er 100 % bevist.
Virkelighet
statistikk er ingenting «bevist» i absolutt forstand. Det betyr bare at det er svært usannsynlig at resultatet har skjedd ved en tilfeldighet, vanligvis med en 5 % eller 1 % sjanse for at det er en tilfeldighet.
Myt
«Gjennomsnittsloven» betyr at en seier er «forutsigbar» etter en lang tapsrekke.
Virkelighet
Dette er gamblerens feilslutning. Sannsynlighetslæren sier at hver uavhengig hendelse (som et myntkast) ikke har noe minne om den forrige; oddsen forblir den samme uavhengig av hva som skjedde før.
Myt
Mer data fører alltid til bedre statistikk.
Virkelighet
Kvantitet avgjør ikke kvalitet. Hvis dataene er skjevt eller utvalget ikke er representativt, vil et større datasett ganske enkelt føre til en mer «sikker», men feil konklusjon.
Ofte stilte spørsmål
Hvilken bør jeg lære først innen datavitenskap?
Start med sannsynlighet. Det gir deg «språket» og fordelingene (som normalfordelingen) som du trenger for å forstå hvordan statistiske tester faktisk fungerer. Uten sannsynlighet vil statistikk bare føles som å memorere formler uten å vite hvorfor de fungerer.
Hva er forskjellen mellom en parameter og en statistikk?
En parameter er en sann verdi som tilhører en hel populasjon (som gjennomsnittshøyden til alle mennesker på jorden). En statistikk er en verdi beregnet fra et utvalg (som gjennomsnittshøyden til 100 personer du har målt). Vi bruker statistikken til å estimere parameteren.
Er korttelling i blackjack sannsynlighet eller statistikk?
Det er faktisk begge deler. Du bruker statistikk for å holde oversikt over «dataene» (hvilke kort som har blitt spilt) og bruker deretter sannsynlighet for å beregne de endrede oddsene for den gjenværende kortstokken. Det er en sanntidsapplikasjon for å oppdatere en modell basert på ny informasjon.
Hvordan hjelper sannsynlighet i værvarsling?
Meteorologer kjører tusenvis av simuleringer med aktuelle data. Hvis 700 av 1000 simuleringer viser regn, rapporterer de en sannsynlighet på 70 %. «Statistikk»-delen involverte å analysere tiår med tidligere vær for å lage disse simuleringsmodellene i utgangspunktet.
Hva er «inferens» i statistikk?
Inferens er handlingen med å «utlede» eller gjette egenskapene til en stor gruppe basert på en liten. Det er broen som lar oss komme med brede påstander om opinionen eller medisinsk effekt uten å teste hver eneste person i et land.
Hva betyr en sannsynlighet på 0?
I et endelig sett med utfall betyr en sannsynlighet på 0 at en hendelse er umulig. I kontinuerlig matematikk (som å velge et spesifikt eksakt desimaltall mellom 0 og 1) kan imidlertid en sannsynlighet på 0 teknisk sett forekomme, men vi kaller det «nesten umulig» i praktisk forstand.
Kan statistikk brukes til å lyve?
Absolutt. Ved å velge partiske utvalg, visualisere data med misvisende skalaer eller ignorere «feilmarginen» kan folk få statistikk til å støtte nesten enhver påstand. Derfor er det like viktig å forstå metodikken bak tallene som tallene i seg selv.
Hvorfor er «normalfordelingen» så viktig i begge?
Klokkekurven (normalfordeling) er det vanligste mønsteret i naturen. Innen sannsynlighet beskriver den hvordan tilfeldige variabler grupperes. Innen statistikk forteller sentralgrensesetningen oss at når vi tar flere prøver, vil dataene våre naturlig danne denne formen, noe som gir svært kraftige forutsigelser.
Vurdering
Bruk sannsynlighet når du kjenner spillets regler og ønsker å forutsi hva som vil skje videre. Bytt til statistikk når du har en haug med data og trenger å finne ut hva disse skjulte reglene egentlig er.