Waarschijnlijkheid en statistiek zijn twee kanten van dezelfde wiskundige medaille, die onzekerheid vanuit tegengestelde richtingen benaderen. Waar waarschijnlijkheid de kans op toekomstige uitkomsten voorspelt op basis van bekende modellen, analyseert statistiek gegevens uit het verleden om die modellen te construeren of te verifiëren. Statistiek werkt in feite vanuit observaties terug naar de onderliggende waarheid.
Uitgelicht
Waarschijnlijkheid is het fundament; statistiek is het gebouw dat daarop is gebouwd.
Een waarschijnlijkheid van 0,5 is een wiskundige bewering, terwijl een statistisch gemiddelde een waarneming is.
Statistiek houdt rekening met 'ruis' en uitschieters, die in de zuivere kansrekening worden genegeerd.
Gokken is gebaseerd op waarschijnlijkheid, terwijl verzekeringsmaatschappijen op statistieken vertrouwen.
Wat is Waarschijnlijkheid?
De wiskundige studie van willekeurigheid die de kans voorspelt dat specifieke gebeurtenissen zich voordoen.
Het werkt als een deductief proces, waarbij men van algemene regels naar specifieke uitkomsten gaat.
Berekeningen liggen altijd tussen 0 (onmogelijk) en 1 (zekerheid).
Het gaat ervan uit dat de parameters van de 'populatie' of het systeem al bekend zijn.
Maakt vaak gebruik van hulpmiddelen zoals permutaties, combinaties en verdelingscurven.
De wet van de grote getallen verbindt theoretische waarschijnlijkheid met resultaten in de praktijk.
Wat is Statistieken?
De wetenschap van het verzamelen, analyseren en interpreteren van gegevens om patronen en trends te ontdekken.
Het is een inductief proces, waarbij men van specifieke observaties naar algemene conclusies gaat.
De focus ligt op het schatten van onbekende populatieparameters met behulp van een kleinere steekproef.
Dit houdt in dat foutmarges en betrouwbaarheidsniveaus van gegevens worden berekend.
Verdeeld in twee hoofdtakken: beschrijvende en inferentiële statistiek.
Het onderzoek is sterk afhankelijk van het opschonen van gegevens en het verwijderen van vooroordelen om de nauwkeurigheid te garanderen.
Vergelijkingstabel
Functie
Waarschijnlijkheid
Statistieken
Richting van de logica
Deductief (van model naar data)
Inductief (van data naar model)
Hoofddoel
Toekomstige gebeurtenissen voorspellen
Uitleg van gegevens uit het verleden/heden
Bekende entiteiten
De bevolking en haar regels
Het monster en de bijbehorende metingen.
Onbekende entiteiten
De specifieke uitkomst van een rechtszaak
De ware kenmerken van de bevolking
Kernvraag
Wat is de kans dat 'X' gebeurt?
Wat vertelt 'X' ons over de wereld?
Afhankelijkheid
Onafhankelijk van gegevensverzameling
Volledig afhankelijk van de kwaliteit van de gegevens.
Kerntool
Willekeurige variabelen en verdelingen
Steekproeven en hypothesetoetsing
Gedetailleerde vergelijking
De informatiestroom
Zie kansrekening als een 'vooruitkijkende' machine waarbij je begint met een stapel kaarten en de kans berekent dat je een aas trekt. Statistiek is 'achteruitkijkend'; je krijgt een stapel getrokken kaarten en moet bepalen of de kaarten gemanipuleerd of eerlijk getrokken zijn. De ene methode begint met de oorzaak en voorspelt het gevolg, terwijl de andere begint met het gevolg en op zoek gaat naar de oorzaak.
Zekerheid versus schatting
Kansrekening houdt zich bezig met theoretische zekerheden; als een dobbelsteen eerlijk is, is de kans op een zes wiskundig vastgelegd. Statistiek claimt echter nooit 100% zekerheid. In plaats daarvan geven statistici 'betrouwbaarheidsintervallen', waarmee ze erkennen dat, hoewel ze geloven dat er een trend bestaat, er altijd een berekende foutmarge of 'p-waarde' is die de kans op een fout kwantificeert.
Populatie versus steekproef
Bij kansrekening gaan we ervan uit dat we alles weten over de hele groep (de populatie), zoals bijvoorbeeld precies weten hoeveel rode knikkers er in een pot zitten. Statistiek wordt gebruikt wanneer de pot ondoorzichtig en te groot is om te tellen. We pakken er een handvol uit (de steekproef), bekijken ze en gebruiken die beperkte informatie om een onderbouwde schatting te maken van het aantal knikkers in de pot.
Verweven relatie
Moderne statistiek is ondenkbaar zonder kansrekening. Statistische tests, zoals het bepalen of een nieuw medicijn beter werkt dan een placebo, zijn gebaseerd op kansverdelingen om te zien of de waargenomen resultaten ook door puur toeval zouden kunnen zijn ontstaan. Kansrekening biedt het theoretische kader, terwijl statistiek de praktische toepassing verzorgt.
Voors en tegens
Waarschijnlijkheid
Voordelen
+Uiterst precieze wiskunde
+Absolute theoretische regels
+Essentieel voor AI-logica
+Berekent het risico duidelijk
Gebruikt
−Vereist bekende invoerwaarden.
−Kan te abstract zijn
−Gevoelig voor aannames
−Houdt geen rekening met vooringenomenheid.
Statistieken
Voordelen
+Maakt gebruik van bewijsmateriaal uit de praktijk
+Identificeert verborgen trends
+Corrigeert fouten
+Vormt de basis voor beleidsbeslissingen
Gebruikt
−Voor interpretatie vatbaar
−Correlatie is geen causaliteit.
−Gemakkelijk te manipuleren
−Vereist grote datasets.
Veelvoorkomende misvattingen
Mythe
Waarschijnlijkheid en statistiek zijn gewoon verschillende namen voor hetzelfde.
Realiteit
Het zijn twee verschillende disciplines. Hoewel ze allebei met kans te maken hebben, is waarschijnlijkheid een tak van de theoretische wiskunde, terwijl statistiek een toegepaste wetenschap is die zich richt op de interpretatie van gegevens.
Mythe
'Statistische significantie' betekent dat iets 100% bewezen is.
Realiteit
In de statistiek is niets 'bewezen' in absolute zin. Het betekent alleen dat het resultaat zeer onwaarschijnlijk is dat het door toeval is ontstaan, meestal met een kans van 5% of 1% dat het een toevalstreffer is.
Mythe
Volgens de wet van de gemiddelden is een overwinning na een lange reeks verliezen 'aanstaande'.
Realiteit
Dit is de gokkersdwaaltheorie. De kansrekening stelt dat elke onafhankelijke gebeurtenis (zoals het opgooien van een munt) geen rekening houdt met de vorige; de kansen blijven hetzelfde, ongeacht wat er eerder is gebeurd.
Mythe
Meer data leidt altijd tot betere statistieken.
Realiteit
Kwantiteit garandeert geen kwaliteit. Als de data vertekend zijn of de steekproef niet representatief is, leidt een grotere dataset simpelweg tot een 'zelfverzekerder' maar onjuiste conclusie.
Veelgestelde vragen
Welke discipline moet ik als eerste leren voor Data Science?
Begin met kansrekening. Het biedt de 'taal' en verdelingen (zoals de normale verdeling) die je nodig hebt om te begrijpen hoe statistische toetsen daadwerkelijk werken. Zonder kansrekening voelt statistiek aan als het memoriseren van formules zonder te weten waarom ze werken.
Wat is het verschil tussen een parameter en een statistiek?
Een parameter is een werkelijke waarde die geldt voor een hele populatie (zoals de gemiddelde lengte van alle mensen op aarde). Een statistiek is een waarde die berekend is op basis van een steekproef (zoals de gemiddelde lengte van 100 mensen die je hebt gemeten). We gebruiken de statistiek om de parameter te schatten.
Is kaartentellen bij blackjack een kwestie van kansberekening of van statistiek?
Het is eigenlijk allebei. Je gebruikt statistieken om de 'data' bij te houden (welke kaarten er gespeeld zijn) en vervolgens gebruik je kansberekening om de veranderende kansen van de resterende kaarten te berekenen. Het is een realtime toepassing van het bijwerken van een model op basis van nieuwe informatie.
Hoe helpt waarschijnlijkheid bij het voorspellen van het weer?
Meteorologen voeren duizenden simulaties uit met behulp van actuele gegevens. Als 700 van de 1000 simulaties regen voorspellen, rapporteren ze een kans van 70%. Het 'statistische' gedeelte omvat het analyseren van tientallen jaren aan weersgegevens om die simulatiemodellen te creëren.
Wat is 'inferentie' in de statistiek?
Inferentie is het proces waarbij men de kenmerken van een grote groep 'afleidt' of vermoedt op basis van een kleine groep. Het is de brug die ons in staat stelt algemene uitspraken te doen over de publieke opinie of de effectiviteit van medische behandelingen zonder elk individu in een land te hoeven testen.
Wat betekent een kans van 0?
In een eindige verzameling van mogelijke uitkomsten betekent een kans van 0 dat een gebeurtenis onmogelijk is. In de continue wiskunde (zoals het kiezen van een specifiek exact decimaal getal tussen 0 en 1) kan een kans van 0 technisch gezien wel voorkomen, maar in de praktijk noemen we het 'vrijwel onmogelijk'.
Kunnen statistieken gebruikt worden om te liegen?
Absoluut. Door bevooroordeelde steekproeven te kiezen, gegevens te visualiseren met misleidende schalen of de 'foutmarge' te negeren, kunnen mensen statistieken gebruiken om bijna elke bewering te ondersteunen. Daarom is het begrijpen van de methodologie achter de cijfers net zo belangrijk als de cijfers zelf.
Waarom is de 'normale verdeling' in beide gevallen zo belangrijk?
De klokvormige curve (normale verdeling) is het meest voorkomende patroon in de natuur. In de kansrekening beschrijft deze curve hoe willekeurige variabelen zich groeperen. In de statistiek leert de centrale limietstelling ons dat naarmate we meer steekproeven nemen, onze gegevens vanzelf deze vorm zullen aannemen, wat zeer krachtige voorspellingen mogelijk maakt.
Oordeel
Gebruik kansberekening wanneer je de spelregels kent en wilt voorspellen wat er vervolgens zal gebeuren. Schakel over op statistiek wanneer je over een grote hoeveelheid gegevens beschikt en wilt achterhalen wat die verborgen regels precies inhouden.