概率与统计学
概率和统计学就像一枚数学硬币的两面,分别从相反的方向处理不确定性。概率论基于已知模型预测未来结果的可能性,而统计学则分析历史数据来构建或验证这些模型,实际上是从观察结果出发,反向推导出根本真相。
亮点
- 概率是基础,统计学是建立在其上的建筑物。
- 概率为 0.5 是一个数学命题,而统计平均值是一个观察结果。
- 统计学能够处理“噪声”和异常值,而这些在纯粹的概率论中是被忽略的。
- 赌博依靠的是概率,而保险公司依靠的是统计数据。
可能性是什么?
对随机性进行数学研究,预测特定事件发生的概率。
- 它以演绎推理的方式运作,从一般规则推导出具体结果。
- 计算结果始终介于 0(不可能)和 1(确定)之间。
- 它假定“群体”或系统的参数已经已知。
- 常用的工具有排列组合和分布曲线。
- 大数定律将理论概率与现实世界的结果联系起来。
统计数据是什么?
数据分析是收集、分析和解释数据以发现模式和趋势的科学。
- 这是一个归纳过程,从具体观察推导出一般结论。
- 侧重于利用较小的样本估计未知总体参数。
- 涉及计算数据的误差范围和置信水平。
- 统计学分为两大分支:描述统计学和推断统计学。
- 高度依赖数据清洗和消除偏差来确保准确性。
比较表
| 功能 | 可能性 | 统计数据 |
|---|---|---|
| 逻辑方向 | 演绎法(模型到数据) | 归纳法(数据到模型) |
| 主要目标 | 预测未来事件 | 解释过去/现在的数据 |
| 已知实体 | 人口及其规则 | 样本及其测量 |
| 未知实体 | 试验的具体结果 | 人口的真实特征 |
| 关键问题 | 事件“X”发生的概率是多少? | “X”告诉我们关于这个世界的什么信息? |
| 依赖性 | 与数据收集无关 | 完全取决于数据质量 |
| 核心工具 | 随机变量和分布 | 抽样和假设检验 |
详细对比
信息流
把概率想象成一个“前瞻性”的引擎,你从一副扑克牌开始,计算抽到一张A的概率。统计学则是“回顾性”的;你拿到一叠抽过的牌,必须判断这副牌是否作弊。前者从原因出发预测结果,后者则从结果出发寻找原因。
确定性与估计性
概率论关注的是理论上的确定性;如果骰子是公平的,那么掷出六点的概率在数学上是固定的。然而,统计学从不声称百分之百确定。相反,统计学家提供的是“置信区间”,他们承认,虽然他们认为某种趋势存在,但总会存在一个计算出的误差范围或“p值”,用来量化他们出错的可能性。
总体与样本
在概率论中,我们假设对整个群体(总体)了如指掌,就像知道罐子里有多少颗红色弹珠一样。当罐子不透明且太大而无法计数时,统计学就派上了用场。我们取出少量弹珠(样本),观察它们,并利用这些有限的信息对罐子里每颗弹珠的数量做出合理的推测。
相互交织的关系
没有概率,就没有现代统计学。诸如判断一种新药是否比安慰剂更有效之类的统计检验,都依赖于概率分布来判断观察到的结果是否可能纯粹是偶然发生的。概率提供了理论框架,而统计学则提供了实际应用。
优点与缺点
可能性
优点
- +高度精确的数学
- +绝对理论规则
- +对人工智能逻辑至关重要
- +能够清晰地计算风险。
继续
- −需要已知输入
- −可能过于抽象
- −对假设很敏感
- −没有考虑到偏见
统计数据
优点
- +使用真实世界的证据
- +识别隐藏趋势
- +修正错误
- +为政策决策提供依据
继续
- −可有多种解读
- −相关性并不等于因果关系
- −易于操纵
- −需要大型数据集
常见误解
概率和统计学只是同一事物的不同名称。
它们是截然不同的学科。虽然两者都涉及概率,但概率论是理论数学的一个分支,而统计学是一门专注于数据解释的应用科学。
“统计学意义”意味着某件事已被100%证实。
在统计学中,没有绝对意义上的“证明”。它仅仅意味着结果极不可能偶然发生,通常只有5%或1%的概率是侥幸。
“平均法则”意味着,在经历长时间的连败之后,胜利是“必然”到来的。
这就是赌徒谬误。概率论指出,每个独立事件(例如抛硬币)都与前一次事件无关;无论之前发生了什么,发生的概率都保持不变。
更多的数据总是能带来更准确的统计结果。
数量并不能保证质量。如果数据存在偏差或样本不具代表性,更大的数据集只会让你得出更“自信”但却错误的结论。
常见问题解答
学习数据科学,我应该先学哪门学科?
参数和统计量有什么区别?
在二十一点中,算牌是概率论还是统计学?
概率论如何帮助进行天气预报?
统计学中的“推断”是什么?
概率为 0 意味着什么?
统计数据可以用来说谎吗?
为什么“正态分布”在这两种情况下都如此重要?
裁决
当你了解游戏规则并想预测接下来会发生什么时,可以使用概率论。当你拥有大量数据并需要找出其中隐藏的规则时,则应该转向统计学。
相关比较
一对一函数与上位函数
虽然这两个术语都描述了两个集合之间元素的映射方式,但它们关注的是等式的不同方面。一对一(单射)函数关注输入的唯一性,确保没有两条路径指向同一个目的地;而满射(满射)函数则确保每个可能的目的地都能被实际到达。
三角学与微积分
三角学侧重于三角形的角和边之间的特定关系以及波的周期性,而微积分则为理解事物如何瞬时变化提供了框架。三角学描绘的是静态或重复的结构,而微积分则是研究运动和累积的引擎。
二次方程公式与因式分解法
解二次方程通常需要在求根公式的精确性和因式分解的简洁高效之间做出选择。虽然求根公式是适用于所有方程的通用工具,但对于根为整数的简单问题,因式分解通常速度更快。
代数与几何
代数侧重于抽象的运算规则和符号运算,以求解未知数;而几何则探索空间的物理属性,包括图形的大小、形状和相对位置。它们共同构成了数学的基石,将逻辑关系转化为视觉结构。
偶数与奇数
这个比较阐明了偶数和奇数之间的差异,展示了每种类型的定义、它们在基本算术中的表现,以及帮助根据能否被2整除和计数与计算中的模式来对整数进行分类的常见性质。