ciencia de datosteoría matemáticaanáliseteoría da probabilidade
Probabilidade vs. Estatística
A probabilidade e a estatística son as dúas caras da mesma moeda matemática, que tratan a incerteza desde direccións opostas. Mentres que a probabilidade predí a probabilidade de resultados futuros baseándose en modelos coñecidos, a estatística analiza datos pasados para construír ou verificar eses modelos, traballando efectivamente cara atrás a partir das observacións para atopar a verdade subxacente.
Destacados
A probabilidade é o alicerce; a estatística é o edificio que se constrúe sobre ela.
Unha probabilidade de 0,5 é unha afirmación matemática, mentres que unha media estatística é unha observación.
A estatística xestiona o "ruído" e os valores atípicos, que se ignoran na teoría pura da probabilidade.
Os xogos de azar baséanse na probabilidade, mentres que as compañías de seguros dependen das estatísticas.
Que é Probabilidade?
O estudo matemático da aleatoriedade que predí a probabilidade de que ocorran eventos específicos.
Funciona como un proceso dedutivo, que pasa de regras xerais a resultados específicos.
Os cálculos sempre están ligados entre 0 (imposible) e 1 (certeza).
Asume que os parámetros da "poboación" ou do sistema xa son coñecidos.
Usa habitualmente ferramentas como permutacións, combinacións e curvas de distribución.
A lei dos grandes números conecta a probabilidade teórica cos resultados do mundo real.
Que é Estatísticas?
A ciencia de recompilar, analizar e interpretar datos para descubrir patróns e tendencias.
É un proceso indutivo, que parte de observacións específicas e chega a conclusións xerais.
Céntrase na estimación de parámetros poboacionais descoñecidos empregando unha mostra máis pequena.
Implica o cálculo das marxes de erro e os niveis de confianza nos datos.
Dividida en dúas ramas principais: estatística descritiva e inferencial.
Depende en gran medida da limpeza de datos e da eliminación de sesgos para garantir a precisión.
Táboa comparativa
Característica
Probabilidade
Estatísticas
Dirección da lóxica
Dedutivo (Modelo a Datos)
Indutivo (Datos a Modelo)
Obxectivo principal
Predicción de eventos futuros
Explicación de datos pasados/presentes
Entidades coñecidas
A poboación e as súas regras
A mostra e as súas medidas
Entidades descoñecidas
O resultado específico dun xuízo
As verdadeiras características da poboación
Pregunta clave
Cales son as probabilidades de que ocorra "X"?
Que nos di "X" sobre o mundo?
Dependencia
Independente da recollida de datos
Totalmente dependente da calidade dos datos
Ferramenta principal
Variables e distribucións aleatorias
Mostraxe e probas de hipóteses
Comparación detallada
O fluxo de información
Pensa na probabilidade como unha máquina "con visión de futuro" onde comezas cunha baralla de cartas e calculas as probabilidades de sacar un ás. A estatística é "con visión de futuro"; entrégasche unha pila de cartas extraídas e debes determinar se a baralla estaba amañada ou era xusta. Unha comeza coa causa e predí o efecto, mentres que a outra comeza co efecto e busca a causa.
Certeza vs. Estimación
probabilidade trata de certezas teóricas; se un dado é xusto, a probabilidade de sacar un seis está fixada matematicamente. Non obstante, a estatística nunca afirma unha certeza do 100 %. En vez diso, os estatísticos proporcionan "intervalos de confianza", admitindo que, aínda que cren que existe unha tendencia, sempre hai unha marxe de erro calculada ou "valor p" que cuantifica o seu potencial de estar equivocados.
Poboación vs. Mostra
En probabilidade, asumimos que sabemos todo sobre todo o grupo (a poboación), como saber exactamente cantas bólas vermellas hai nun frasco. A estatística úsase cando o frasco é opaco e demasiado grande para contalo. Sacamos un puñado (a mostra), obsérvaas e usamos esa información limitada para facer unha estimación fundamentada sobre cada bóla do frasco.
Relación entrelazada
Non se poden ter estatísticas modernas sen probabilidade. As probas estatísticas, como determinar se un novo medicamento funciona mellor que un placebo, baséanse en distribucións de probabilidade para ver se os resultados observados puideron ocorrer por pura casualidade. A probabilidade proporciona o marco teórico, mentres que a estatística proporciona a aplicación no mundo real.
Vantaxes e inconvenientes
Probabilidade
Vantaxes
+Matemáticas de alta precisión
+Regras teóricas absolutas
+Esencial para a lóxica da IA
+Calcula o risco con claridade
Contido
−Require entradas coñecidas
−Pode ser demasiado abstracto
−Sensible ás suposicións
−Non ten en conta o sesgo
Estatísticas
Vantaxes
+Usa evidencias do mundo real
+Identifica tendencias ocultas
+Corrixe os erros
+Informa as decisións políticas
Contido
−Aberto á interpretación
−A correlación non é causalidade
−Facilmente manipulable
−Require grandes conxuntos de datos
Conceptos erróneos comúns
Lenda
Probabilidade e estatística son só nomes diferentes para o mesmo.
Realidade
Son disciplinas distintas. Aínda que ambas tratan o azar, a probabilidade é unha rama das matemáticas teóricas, mentres que a estatística é unha ciencia aplicada centrada na interpretación de datos.
Lenda
Unha "significación estatística" significa que algo está 100 % probado.
Realidade
En estatística, nada está "probado" no sentido absoluto. Simplemente significa que é moi improbable que o resultado ocorrese por accidente, normalmente cunha probabilidade do 5 % ou do 1 % de ser casualidade.
Lenda
A "lei das medias" significa que unha vitoria é "merecida" despois dunha longa xeira de derrotas.
Realidade
Esta é a falacia do xogador. A probabilidade afirma que cada evento independente (como o lanzamento dunha moeda ao aire) non ten memoria do anterior; as probabilidades permanecen iguais independentemente do que aconteceu antes.
Lenda
Máis datos sempre levan a mellores estatísticas.
Realidade
A cantidade non xusta a calidade. Se os datos están sesgados ou a mostra non é representativa, un conxunto de datos máis grande simplemente levarache a unha conclusión máis "seguro" pero incorrecto.
Preguntas frecuentes
Cal debería aprender primeiro para a Ciencia de Datos?
Comeza coa probabilidade. Proporciona a "linguaxe" e as distribucións (como a distribución normal) que necesitarás para comprender como funcionan realmente as probas estatísticas. Sen probabilidade, a estatística parecerá simplemente memorizar fórmulas sen saber por que funcionan.
Cal é a diferenza entre un parámetro e unha estatística?
Un parámetro é un valor real que pertence a toda unha poboación (como a altura media de cada ser humano na Terra). Unha estatística é un valor calculado a partir dunha mostra (como a altura media de 100 persoas que medíches). Usamos a estatística para estimar o parámetro.
Contar cartas no Blackjack, é probabilidade ou estatística?
En realidade, son ambas as cousas. Emprégase a estatística para controlar os "datos" (que cartas se xogaron) e despois úsase a probabilidade para calcular as probabilidades cambiantes da baralla restante. É unha aplicación en tempo real para actualizar un modelo baseándose en nova información.
Como axuda a probabilidade na predición meteorolóxica?
Os meteorólogos executan miles de simulacións con datos actuais. Se 700 de cada 1000 simulacións mostran choiva, informan dunha probabilidade do 70 %. A parte de "estatísticas" implicou analizar décadas de tempo pasado para crear eses modelos de simulación en primeiro lugar.
Que é a "inferencia" en estatística?
A inferencia é o acto de "inferir" ou adiviñar as características dun grupo grande baseándose nun grupo pequeno. É a ponte que nos permite facer afirmacións amplas sobre a opinión pública ou a eficacia médica sen ter que avaliar a cada persoa dun país.
Que significa unha probabilidade de 0?
Nun conxunto finito de resultados, unha probabilidade de 0 significa que un evento é imposible. Non obstante, nas matemáticas continuas (como escoller un decimal exacto específico entre 0 e 1), tecnicamente pode ocorrer unha probabilidade de 0, pero chamámoslle "case imposible" nun sentido práctico.
Pódense usar as estatísticas para mentir?
Absolutamente. Ao elixir mostras sesgadas, visualizar datos con escalas enganosas ou ignorar a "marxe de erro", a xente pode facer que as estatísticas respalden case calquera afirmación. Por iso, comprender a metodoloxía que hai detrás das cifras é tan importante como as propias cifras.
Por que é tan importante a "Distribución Normal" en ambos os casos?
A curva de campá (Distribución Normal) é o patrón máis común na natureza. En probabilidade, describe como se agrupan as variables aleatorias. En estatística, o Teorema do Límite Central dinos que a medida que tomamos máis mostras, os nosos datos adoptarán esta forma de forma natural, o que permite predicións moi potentes.
Veredicto
Usa a probabilidade cando coñezas as regras do xogo e queiras predicir o que vai pasar a continuación. Cambia á estatística cando teñas unha morea de datos e necesites descubrir cales son realmente esas regras ocultas.