nauka o danychteoria matematykianalitykateoria prawdopodobieństwa
Prawdopodobieństwo kontra statystyka
Rachunek prawdopodobieństwa i statystyka to dwie strony tej samej matematycznej monety, odnoszące się do niepewności z przeciwnych kierunków. Podczas gdy rachunek prawdopodobieństwa przewiduje prawdopodobieństwo przyszłych wyników w oparciu o znane modele, statystyka analizuje dane historyczne w celu zbudowania lub weryfikacji tych modeli, skutecznie działając wstecz, od obserwacji, aby znaleźć leżącą u ich podstaw prawdę.
Najważniejsze informacje
Prawdopodobieństwo jest fundamentem, statystyka zaś jest budynkiem na nim zbudowanym.
Prawdopodobieństwo 0,5 jest twierdzeniem matematycznym, podczas gdy średnia statystyczna jest obserwacją.
Statystyka radzi sobie z „szumem” i wartościami odstającymi, które w czystej teorii prawdopodobieństwa są ignorowane.
Hazard opiera się na prawdopodobieństwie, natomiast firmy ubezpieczeniowe bazują na statystykach.
Czym jest Prawdopodobieństwo?
Matematyczna nauka zajmująca się losowością, która przewiduje prawdopodobieństwo wystąpienia określonych zdarzeń.
Działa na zasadzie procesu dedukcyjnego, przechodząc od ogólnych zasad do szczegółowych wyników.
Obliczenia zawsze mieszczą się w przedziale od 0 (niemożliwe) do 1 (pewne).
Zakłada się, że parametry „populacji” lub systemu są już znane.
Najczęściej wykorzystuje się takie narzędzia jak permutacje, kombinacje i krzywe rozkładu.
Prawo Wielkich Liczb łączy teoretyczne prawdopodobieństwo z wynikami rzeczywistymi.
Czym jest Statystyka?
Nauka zajmująca się zbieraniem, analizowaniem i interpretowaniem danych w celu odkrywania wzorców i trendów.
Jest to proces indukcyjny, polegający na przejściu od szczegółowych obserwacji do ogólnych wniosków.
Koncentruje się na szacowaniu nieznanych parametrów populacji przy użyciu mniejszej próby.
Polega na obliczeniu marginesów błędu i poziomów ufności danych.
Dzieli się na dwie główne gałęzie: statystykę opisową i statystykę wnioskowania statystycznego.
Opiera się w dużej mierze na czyszczeniu danych i usuwaniu stronniczości w celu zapewnienia dokładności.
Tabela porównawcza
Funkcja
Prawdopodobieństwo
Statystyka
Kierunek logiki
Dedukcyjny (model do danych)
Indukcyjny (dane do modelu)
Główny cel
Przewidywanie przyszłych wydarzeń
Wyjaśnianie danych przeszłych/obecnych
Znane podmioty
Populacja i jej zasady
Próbka i jej pomiary
Nieznane podmioty
Konkretny wynik badania
Prawdziwe cechy populacji
Kluczowe pytanie
Jakie jest prawdopodobieństwo, że wydarzy się „X”?
Co „X” mówi nam o świecie?
Zależność
Niezależny od gromadzenia danych
Całkowicie zależne od jakości danych
Narzędzie podstawowe
Zmienne losowe i rozkłady
Próbkowanie i testowanie hipotez
Szczegółowe porównanie
Przepływ informacji
Wyobraź sobie rachunek prawdopodobieństwa jako „aparat przewidywania przyszłości”, w którym zaczynasz od talii kart i obliczasz prawdopodobieństwo wylosowania asa. Statystyka to „aparat przewidywania przyszłości”; otrzymujesz stos kart i musisz ustalić, czy talia była sfałszowana, czy uczciwa. Jeden zaczyna od przyczyny i przewiduje skutek, drugi zaczyna od skutku i poszukuje przyczyny.
Pewność kontra oszacowanie
Rachunek prawdopodobieństwa opiera się na teoretycznych pewnikach; jeśli kostka jest uczciwa, szansa na szóstkę jest matematycznie ustalona. Statystyka jednak nigdy nie gwarantuje 100% pewności. Zamiast tego statystycy podają „przedziały ufności”, przyznając, że chociaż wierzą w istnienie trendu, zawsze istnieje obliczony margines błędu, czyli „wartość p”, która określa prawdopodobieństwo ich błędu.
Populacja kontra próba
W rachunku prawdopodobieństwa zakładamy, że wiemy wszystko o całej grupie (populacji), na przykład dokładnie wiemy, ile czerwonych kulek znajduje się w słoiku. Statystyka jest stosowana, gdy słoik jest nieprzezroczysty i zbyt duży, aby go policzyć. Wyciągamy garść (próbkę), przyglądamy się im i wykorzystujemy te ograniczone informacje, aby trafnie oszacować zawartość każdej kulki w słoiku.
Powiązany związek
Nie ma współczesnej statystyki bez rachunku prawdopodobieństwa. Testy statystyczne, takie jak określanie, czy nowy lek działa lepiej niż placebo, opierają się na rozkładach prawdopodobieństwa, aby sprawdzić, czy obserwowane wyniki mogły powstać przez czysty przypadek. Rachunek prawdopodobieństwa zapewnia ramy teoretyczne, podczas gdy statystyka zapewnia praktyczne zastosowanie.
Zalety i wady
Prawdopodobieństwo
Zalety
+Bardzo precyzyjna matematyka
+Absolutne zasady teoretyczne
+Niezbędne dla logiki AI
+Oblicza ryzyko w sposób jasny
Zawartość
−Wymaga znanych danych wejściowych
−Może być zbyt abstrakcyjny
−Wrażliwy na założenia
−Nie bierze pod uwagę stronniczości
Statystyka
Zalety
+Wykorzystuje dowody ze świata rzeczywistego
+Identyfikuje ukryte trendy
+Koryguje błędy
+Informuje o decyzjach politycznych
Zawartość
−Otwarte na interpretację
−Korelacja nie oznacza związku przyczynowo-skutkowego
−Łatwo manipulować
−Wymaga dużych zestawów danych
Częste nieporozumienia
Mit
Prawdopodobieństwo i statystyka to po prostu różne nazwy tej samej rzeczy.
Rzeczywistość
To odrębne dyscypliny. Choć obie zajmują się przypadkiem, prawdopodobieństwo jest gałęzią matematyki teoretycznej, natomiast statystyka to nauka stosowana, skupiająca się na interpretacji danych.
Mit
„Znaczenie statystyczne” oznacza, że coś jest w 100% udowodnione.
Rzeczywistość
statystyce nic nie jest „udowodnione” w sensie absolutnym. Oznacza to po prostu, że wynik jest bardzo mało prawdopodobny, aby powstał przypadkowo, zazwyczaj z prawdopodobieństwem 5% lub 1%, że jest to pomyłka.
Mit
Prawo średnich oznacza, że po długiej serii porażek „należy” wygrać.
Rzeczywistość
To jest błąd hazardzisty. Rachunek prawdopodobieństwa zakłada, że każde niezależne zdarzenie (jak rzut monetą) nie ma związku z poprzednim; szanse pozostają takie same, niezależnie od tego, co wydarzyło się wcześniej.
Mit
Więcej danych zawsze oznacza lepsze statystyki.
Rzeczywistość
Ilość nie decyduje o jakości. Jeśli dane są obarczone błędem lub próba nie jest reprezentatywna, większy zbiór danych po prostu doprowadzi Cię do bardziej „pewnego”, ale błędnego wniosku.
Często zadawane pytania
Którego z nich powinienem nauczyć się w pierwszej kolejności, jeśli chodzi o naukę danych?
Zacznij od rachunku prawdopodobieństwa. Dostarcza on „języka” i rozkładów (takich jak rozkład normalny), które będą potrzebne do zrozumienia, jak faktycznie działają testy statystyczne. Bez rachunku prawdopodobieństwa statystyka będzie przypominać zapamiętywanie wzorów bez zrozumienia, dlaczego działają.
Jaka jest różnica pomiędzy parametrem a statystyką?
Parametr to wartość rzeczywista odnosząca się do całej populacji (jak średni wzrost każdego człowieka na Ziemi). Statystyka to wartość obliczona na podstawie próby (jak średni wzrost 100 osób, które zmierzyłeś). Używamy tej statystyki do oszacowania parametru.
Czy liczenie kart w Blackjacku to rachunek prawdopodobieństwa czy statystyka?
W rzeczywistości jest to jedno i drugie. Używasz statystyk do śledzenia „danych” (które karty zostały zagrane), a następnie używasz rachunku prawdopodobieństwa do obliczania zmieniających się szans na wygraną w pozostałej talii. To aplikacja w czasie rzeczywistym, która aktualizuje model na podstawie nowych informacji.
W jaki sposób rachunek prawdopodobieństwa jest pomocny w prognozowaniu pogody?
Meteorolodzy przeprowadzają tysiące symulacji, wykorzystując aktualne dane. Jeśli 700 na 1000 symulacji wskazuje na deszcz, prawdopodobieństwo wynosi 70%. Część „statystyczna” polegała na analizie pogody z ostatnich dziesięcioleci, aby w ogóle stworzyć te modele symulacyjne.
Czym jest „wnioskowanie” w statystyce?
Wnioskowanie to akt „wnioskowania” lub odgadywania cech dużej grupy na podstawie danych małej grupy. To pomost, który pozwala nam formułować ogólne twierdzenia na temat opinii publicznej lub skuteczności medycyny bez konieczności badania każdej osoby w kraju.
Co oznacza prawdopodobieństwo równe 0?
W skończonym zbiorze zdarzeń prawdopodobieństwo 0 oznacza, że zdarzenie jest niemożliwe. Jednak w matematyce ciągłej (jak np. wybór konkretnej liczby dziesiętnej z przedziału od 0 do 1) prawdopodobieństwo 0 może teoretycznie wystąpić, ale w praktyce nazywamy to „prawie niemożliwym”.
Czy statystyki mogą posłużyć do kłamstwa?
Zdecydowanie. Wybierając tendencyjne próby, wizualizując dane z mylącymi skalami lub ignorując „margines błędu”, ludzie mogą uzasadniać statystycznie niemal każde twierdzenie. Dlatego zrozumienie metodologii stojącej za liczbami jest równie ważne, jak same liczby.
Dlaczego „rozkład normalny” jest tak ważny w obu przypadkach?
Krzywa dzwonowa (rozkład normalny) to najczęściej występujący wzór w naturze. W teorii prawdopodobieństwa opisuje ona sposób, w jaki zmienne losowe się grupują. W statystyce, Centralne Twierdzenie Graniczne mówi nam, że wraz z pobieraniem kolejnych próbek, nasze dane naturalnie przyjmują ten kształt, co pozwala na bardzo trafne przewidywania.
Wynik
Używaj rachunku prawdopodobieństwa, gdy znasz zasady gry i chcesz przewidzieć, co się wydarzy. Przejdź do statystyki, gdy masz mnóstwo danych i musisz dowiedzieć się, na czym tak naprawdę polegają te ukryte zasady.