Sandsynlighed og statistik er to sider af samme matematiske sag, der håndterer usikkerhed fra modsatte retninger. Mens sandsynlighed forudsiger sandsynligheden for fremtidige udfald baseret på kendte modeller, analyserer statistik tidligere data for at opbygge eller verificere disse modeller og arbejder effektivt baglæns fra observationer for at finde den underliggende sandhed.
Højdepunkter
Sandsynlighed er fundamentet; statistik er bygningen, der bygges oven på det.
En sandsynlighed på 0,5 er en matematisk påstand, mens et statistisk gennemsnit er en observation.
Statistik håndterer 'støj' og outliers, som ignoreres i ren sandsynlighedsteori.
Spil er baseret på sandsynlighed, mens forsikringsselskaber er afhængige af statistik.
Hvad er Sandsynlighed?
Det matematiske studie af tilfældighed, der forudsiger chancerne for, at specifikke begivenheder indtræffer.
Det fungerer som en deduktiv proces, der bevæger sig fra generelle regler til specifikke resultater.
Beregninger er altid begrænset mellem 0 (umulig) og 1 (sikkerhed).
Det antager, at parametrene for 'populationen' eller systemet allerede er kendte.
Bruger almindeligvis værktøjer som permutationer, kombinationer og fordelingskurver.
De store tals lov forbinder teoretisk sandsynlighed med resultater i den virkelige verden.
Hvad er Statistik?
Videnskaben om at indsamle, analysere og fortolke data for at opdage mønstre og tendenser.
Det er en induktiv proces, der bevæger sig fra specifikke observationer til generelle konklusioner.
Fokuserer på at estimere ukendte populationsparametre ved hjælp af en mindre stikprøve.
Indebærer beregning af fejlmarginer og niveauer af konfidens i data.
Opdelt i to hovedgrene: beskrivende og inferentiel statistik.
Er i høj grad afhængig af datarensning og fjernelse af bias for at sikre nøjagtighed.
Sammenligningstabel
Funktion
Sandsynlighed
Statistik
Logikkens retning
Deduktiv (model til data)
Induktiv (data til model)
Primært mål
Forudsigelse af fremtidige begivenheder
Forklaring af tidligere/nuværende data
Kendte enheder
Befolkningen og dens regler
Prøven og dens målinger
Ukendte enheder
Det specifikke resultat af en retssag
Befolkningens sande karakteristika
Nøglespørgsmål
Hvad er oddsene for, at 'X' sker?
Hvad fortæller 'X' os om verden?
Afhængighed
Uafhængig af dataindsamling
Helt afhængig af datakvalitet
Kerneværktøj
Stokastiske variabler og fordelinger
Stikprøveudtagning og hypotesetestning
Detaljeret sammenligning
Informationsstrømmen
Tænk på sandsynlighed som en 'fremadskuende' maskine, hvor du starter med et sæt kort og beregner oddsene for at trække et es. Statistik er 'bagudskuende'; du får udleveret en stak trukne kort og skal afgøre, om bunken var rigget eller fair. Den ene starter med årsagen og forudsiger virkningen, mens den anden starter med virkningen og leder efter årsagen.
Sikkerhed vs. estimering
Sandsynlighed handler om teoretiske sandsynligheder; hvis en terning er fair, er chancen for en sekser matematisk fastsat. Statistik hævder dog aldrig 100% sikkerhed. I stedet angiver statistikere 'konfidensintervaller', hvor de indrømmer, at selvom de mener, at der findes en tendens, er der altid en beregnet fejlmargin eller 'p-værdi', der kvantificerer deres potentiale for at være forkert.
Population vs. stikprøve
I sandsynlighedsregning antager vi, at vi ved alt om hele gruppen (populationen), som at vide præcis, hvor mange røde kugler der er i en krukke. Statistik bruges, når krukken er uigennemsigtig og for stor til at tælle. Vi tager en håndfuld ud (stikprøven), ser på dem og bruger den begrænsede information til at lave et kvalificeret gæt om hver kugle i krukken.
Sammenflettet forhold
Man kan ikke have moderne statistik uden sandsynlighed. Statistiske tests, såsom at afgøre, om en ny medicin virker bedre end placebo, er afhængige af sandsynlighedsfordelinger for at se, om de observerede resultater kunne være opstået ved ren tilfældighed. Sandsynlighed danner den teoretiske ramme, mens statistik danner den virkelige anvendelse.
Fordele og ulemper
Sandsynlighed
Fordele
+Meget præcis matematik
+Absolutte teoretiske regler
+Essentiel for AI-logik
+Beregner risikoen tydeligt
Indstillinger
−Kræver kendte input
−Kan være for abstrakt
−Følsom over for antagelser
−Tager ikke højde for bias
Statistik
Fordele
+Bruger beviser fra den virkelige verden
+Identificerer skjulte tendenser
+Retter fejl
+Informerer politiske beslutninger
Indstillinger
−Åben for fortolkning
−Korrelation er ikke årsagssammenhæng
−Let manipuleret
−Kræver store datasæt
Almindelige misforståelser
Myte
Sandsynlighed og statistik er blot forskellige navne for den samme ting.
Virkelighed
De er forskellige discipliner. Selvom de begge beskæftiger sig med tilfældigheder, er sandsynlighed en gren af teoretisk matematik, mens statistik er en anvendt videnskab med fokus på datafortolkning.
Myte
'Statistisk signifikans' betyder, at noget er 100% bevist.
Virkelighed
statistik er intet 'bevist' i absolut forstand. Det betyder blot, at det er meget usandsynligt, at resultatet er sket ved et uheld, normalt med en 5% eller 1% chance for, at det er et lykketræf.
Myte
'Gennemsnitsloven' betyder, at en sejr er 'forventet' efter en lang taberrække.
Virkelighed
Dette er gamblerens fejlslutning. Sandsynlighedsregningen siger, at hver uafhængig begivenhed (som et møntkast) ikke har nogen erindring om den foregående; oddsene forbliver de samme uanset hvad der skete før.
Myte
Mere data fører altid til bedre statistik.
Virkelighed
Kvantitet bestemmer ikke kvalitet. Hvis dataene er forudindtagede, eller stikprøven ikke er repræsentativ, vil et større datasæt blot føre dig til en mere 'sikker', men forkert konklusion.
Ofte stillede spørgsmål
Hvilken skal jeg lære først inden for datalogi?
Start med sandsynlighed. Det giver dig det 'sprog' og de fordelinger (som normalfordelingen), som du skal bruge for at forstå, hvordan statistiske tests rent faktisk fungerer. Uden sandsynlighed vil statistik bare føles som at lære formler udenad uden at vide, hvorfor de fungerer.
Hvad er forskellen mellem en parameter og en statistik?
En parameter er en sand værdi, der tilhører en hel population (som den gennemsnitlige højde af alle mennesker på Jorden). En statistik er en værdi beregnet ud fra en stikprøve (som den gennemsnitlige højde af 100 personer, du har målt). Vi bruger statistikken til at estimere parameteren.
Er korttælling i blackjack sandsynlighed eller statistik?
Det er faktisk begge dele. Du bruger statistik til at holde styr på 'dataene' (hvilke kort der er blevet spillet) og bruger derefter sandsynlighed til at beregne de ændrede odds for det resterende sæt kort. Det er en realtidsapplikation til at opdatere en model baseret på ny information.
Hvordan hjælper sandsynlighed i vejrudsigter?
Meteorologer kører tusindvis af simuleringer ved hjælp af aktuelle data. Hvis 700 ud af 1.000 simuleringer viser regn, rapporterer de en sandsynlighed på 70%. 'Statistik'-delen involverede analyse af årtiers tidligere vejr for at skabe disse simuleringsmodeller i første omgang.
Hvad er 'inferens' i statistik?
Inferens er handlingen at 'udlede' eller gætte karakteristikaene ved en stor gruppe baseret på en lille gruppe. Det er den bro, der giver os mulighed for at fremsætte brede påstande om den offentlige mening eller medicinsk effektivitet uden at teste hver eneste person i et land.
Hvad betyder en sandsynlighed på 0?
I et endeligt sæt af udfald betyder en sandsynlighed på 0, at en begivenhed er umulig. I kontinuert matematik (som at vælge et specifikt præcist decimaltal mellem 0 og 1) kan en sandsynlighed på 0 teknisk set forekomme, men vi kalder det 'næsten umuligt' i praktisk forstand.
Kan statistik bruges til at lyve?
Absolut. Ved at vælge forudindtagede stikprøver, visualisere data med vildledende skalaer eller ignorere 'fejlmarginen' kan man få statistikker til at understøtte næsten enhver påstand. Derfor er det lige så vigtigt at forstå metodologien bag tallene som tallene selv.
Hvorfor er 'normalfordelingen' så vigtig i begge?
Klokkekurven (normalfordeling) er det mest almindelige mønster i naturen. Inden for sandsynlighed beskriver den, hvordan stokastiske variabler grupperes. Inden for statistik fortæller den centrale grænseværdisætning os, at når vi tager flere stikprøver, vil vores data naturligt danne denne form, hvilket giver mulighed for meget kraftfulde forudsigelser.
Dommen
Brug sandsynlighedsregning, når du kender spillets regler og ønsker at forudsige, hvad der vil ske. Skift til statistik, når du har en bunke data og har brug for at finde ud af, hvad disse skjulte regler egentlig er.