ciència de dadesteoria matemàticaanàlisiteoria de la probabilitat
Probabilitat vs. Estadística
La probabilitat i l'estadística són dues cares de la mateixa moneda matemàtica, que tracten la incertesa des de direccions oposades. Mentre que la probabilitat prediu la probabilitat de resultats futurs basant-se en models coneguts, l'estadística analitza dades passades per construir o verificar aquests models, treballant efectivament cap enrere a partir de les observacions per trobar la veritat subjacent.
Destacats
La probabilitat és el fonament; l'estadística és l'edifici que es construeix sobre ell.
Una probabilitat de 0,5 és una afirmació matemàtica, mentre que una mitjana estadística és una observació.
L'estadística gestiona el "soroll" i els valors atípics, que s'ignoren en la teoria pura de la probabilitat.
El joc es basa en la probabilitat, mentre que les companyies d'assegurances es basen en les estadístiques.
Què és Probabilitat?
L'estudi matemàtic de l'aleatorietat que prediu la probabilitat que es produeixin esdeveniments específics.
Funciona com un procés deductiu, que passa de regles generals a resultats específics.
Els càlculs sempre estan lligats entre 0 (impossible) i 1 (certesa).
Assumeix que els paràmetres de la "població" o del sistema ja són coneguts.
Normalment utilitza eines com ara permutacions, combinacions i corbes de distribució.
La llei dels grans nombres connecta la probabilitat teòrica amb els resultats del món real.
Què és Estadístiques?
La ciència de recopilar, analitzar i interpretar dades per descobrir patrons i tendències.
És un procés inductiu, que va des d'observacions específiques fins a conclusions generals.
Se centra en l'estimació de paràmetres poblacionals desconeguts utilitzant una mostra més petita.
Implica el càlcul dels marges d'error i dels nivells de confiança en les dades.
Dividida en dues branques principals: estadística descriptiva i inferencial.
Depèn en gran mesura de la neteja de dades i l'eliminació de biaixos per garantir la precisió.
Taula comparativa
Funcionalitat
Probabilitat
Estadístiques
Direcció de la lògica
Deductiu (Model a Dades)
Inductiu (dades a model)
Objectiu principal
Predicció d'esdeveniments futurs
Explicació de dades passades/presents
Entitats conegudes
La població i les seves regles
La mostra i les seves mesures
Entitats desconegudes
El resultat específic d'un judici
Les veritables característiques de la població
Pregunta clau
Quines són les probabilitats que passi 'X'?
Què ens diu "X" sobre el món?
Dependència
Independent de la recollida de dades
Totalment dependent de la qualitat de les dades
Eina principal
Variables aleatòries i distribucions
Mostreig i prova d'hipòtesis
Comparació detallada
El flux d'informació
Pensa en la probabilitat com una màquina "que mira cap al futur" on comences amb una baralla de cartes i calcules les probabilitats de treure un as. L'estadística mira cap al passat; et donen una pila de cartes robades i has de determinar si la baralla estava manipulada o era justa. Una comença amb la causa i prediu l'efecte, mentre que l'altra comença amb l'efecte i busca la causa.
Certesa vs. Estimació
La probabilitat tracta de certeses teòriques; si un dau és just, la probabilitat d'un sis està fixada matemàticament. L'estadística, però, mai afirma una certesa del 100%. En canvi, els estadístics proporcionen "intervals de confiança", admetent que, si bé creuen que existeix una tendència, sempre hi ha un marge d'error calculat o "valor p" que quantifica el seu potencial d'equivocar-se.
Població vs. Mostra
En probabilitat, assumim que ho sabem tot sobre tot el grup (la població), com ara saber exactament quantes bales vermelles hi ha en un pot. L'estadística s'utilitza quan el pot és opac i massa gran per comptar-lo. En traiem un grapat (la mostra), les mirem i fem servir aquesta informació limitada per fer una conjectura fonamentada sobre cada bala del pot.
Relació entrellaçada
No es pot tenir estadística moderna sense probabilitat. Les proves estadístiques, com ara determinar si un nou medicament funciona millor que un placebo, es basen en distribucions de probabilitat per veure si els resultats observats podrien haver ocorregut per pura casualitat. La probabilitat proporciona el marc teòric, mentre que l'estadística proporciona l'aplicació al món real.
Avantatges i Inconvenients
Probabilitat
Avantatges
+Matemàtiques d'alta precisió
+Regles teòriques absolutes
+Essencial per a la lògica de la IA
+Calcula el risc amb claredat
Consumit
−Requereix entrades conegudes
−Pot ser massa abstracte
−Sensible a les suposicions
−No té en compte el biaix
Estadístiques
Avantatges
+Utilitza evidències del món real
+Identifica tendències ocultes
+Corregeix els errors
+Informa les decisions polítiques
Consumit
−Obert a la interpretació
−La correlació no és causalitat
−Fàcilment manipulable
−Requereix grans conjunts de dades
Conceptes errònies habituals
Mite
La probabilitat i l'estadística són només noms diferents per a la mateixa cosa.
Realitat
Són disciplines diferents. Tot i que ambdues tracten l'atzar, la probabilitat és una branca de les matemàtiques teòriques, mentre que l'estadística és una ciència aplicada centrada en la interpretació de dades.
Mite
Una "significança estadística" significa que alguna cosa està 100% demostrada.
Realitat
En estadística, res està "demostrat" en el sentit absolut. Simplement significa que és molt poc probable que el resultat hagi passat per accident, normalment amb una probabilitat del 5% o 1% que sigui una casualitat.
Mite
La "llei de les mitjanes" significa que una victòria és "mergida" després d'una llarga ratxa de derrotes.
Realitat
Aquesta és la fal·làcia del jugador. La probabilitat afirma que cada esdeveniment independent (com ara llançar una moneda al corrent) no té memòria de l'anterior; les probabilitats romanen iguals independentment del que hagi passat abans.
Mite
Més dades sempre porten a millors estadístiques.
Realitat
La quantitat no arregla la qualitat. Si les dades són esbiaixades o la mostra no és representativa, un conjunt de dades més gran simplement us portarà a una conclusió més "seguretat" però incorrecta.
Preguntes freqüents
Quin hauria d'aprendre primer per a Ciència de Dades?
Comença amb la probabilitat. Proporciona el "llenguatge" i les distribucions (com la distribució normal) que necessitaràs per entendre com funcionen realment les proves estadístiques. Sense probabilitat, l'estadística només semblarà memoritzar fórmules sense saber per què funcionen.
Quina diferència hi ha entre un paràmetre i una estadística?
Un paràmetre és un valor real que pertany a tota una població (com l'alçada mitjana de cada humà a la Terra). Una estadística és un valor calculat a partir d'una mostra (com l'alçada mitjana de 100 persones que has mesurat). Fem servir l'estadística per estimar el paràmetre.
El recompte de cartes al Blackjack és probabilitat o estadística?
En realitat, és ambdues coses. S'utilitzen estadístiques per fer un seguiment de les "dades" (quines cartes s'han jugat) i després s'utilitza la probabilitat per calcular les probabilitats canviants de la baralla restant. És una aplicació en temps real per actualitzar un model basat en informació nova.
Com ajuda la probabilitat en la predicció meteorològica?
Els meteoròlegs executen milers de simulacions utilitzant dades actuals. Si 700 de cada 1.000 simulacions mostren pluja, informen d'una probabilitat del 70%. La part "estadística" va implicar analitzar dècades de temps passats per crear aquests models de simulació en primer lloc.
Què és la "inferència" en estadística?
La inferència és l'acte d'"inferir" o endevinar les característiques d'un grup gran basant-se en un grup petit. És el pont que ens permet fer afirmacions generals sobre l'opinió pública o l'eficàcia mèdica sense haver de fer proves a totes les persones d'un país.
Què significa una probabilitat de 0?
En un conjunt finit de resultats, una probabilitat de 0 significa que un esdeveniment és impossible. Tanmateix, en matemàtiques contínues (com ara triar un decimal exacte específic entre 0 i 1), tècnicament es pot produir una probabilitat de 0, però en un sentit pràctic ho anomenem "gairebé impossible".
Es poden utilitzar les estadístiques per mentir?
Absolutament. Si triem mostres esbiaixades, visualitzem dades amb escales enganyoses o ignorem el "marge d'error", la gent pot fer que les estadístiques donin suport a gairebé qualsevol afirmació. És per això que entendre la metodologia que hi ha darrere de les xifres és tan important com les xifres en si mateixes.
Per què és tan important la "Distribució Normal" en ambdues?
La corba de campana (Distribució Normal) és el patró més comú a la natura. En probabilitat, descriu com s'agrupen les variables aleatòries. En estadística, el teorema del límit central ens diu que a mesura que prenem més mostres, les nostres dades adoptaran aquesta forma de manera natural, cosa que permet fer prediccions molt potents.
Veredicte
Fes servir la probabilitat quan coneguis les regles del joc i vulguis predir què passarà després. Canvia a l'estadística quan tinguis una pila de dades i necessitis esbrinar quines són realment aquestes regles ocultes.