Comparthing Logo
数据科学数学理论分析概率论

概率与统计学

概率和统计学就像一枚数学硬币的两面,分别从相反的方向处理不确定性。概率论基于已知模型预测未来结果的可能性,而统计学则分析历史数据来构建或验证这些模型,实际上是从观察结果出发,反向推导出根本真相。

亮点

  • 概率是基础,统计学是建立在其上的建筑物。
  • 概率为 0.5 是一个数学命题,而统计平均值是一个观察结果。
  • 统计学能够处理“噪声”和异常值,而这些在纯粹的概率论中是被忽略的。
  • 赌博依靠的是概率,而保险公司依靠的是统计数据。

可能性是什么?

对随机性进行数学研究,预测特定事件发生的概率。

  • 它以演绎推理的方式运作,从一般规则推导出具体结果。
  • 计算结果始终介于 0(不可能)和 1(确定)之间。
  • 它假定“群体”或系统的参数已经已知。
  • 常用的工具有排列组合和分布曲线。
  • 大数定律将理论概率与现实世界的结果联系起来。

统计数据是什么?

数据分析是收集、分析和解释数据以发现模式和趋势的科学。

  • 这是一个归纳过程,从具体观察推导出一般结论。
  • 侧重于利用较小的样本估计未知总体参数。
  • 涉及计算数据的误差范围和置信水平。
  • 统计学分为两大分支:描述统计学和推断统计学。
  • 高度依赖数据清洗和消除偏差来确保准确性。

比较表

功能可能性统计数据
逻辑方向演绎法(模型到数据)归纳法(数据到模型)
主要目标预测未来事件解释过去/现在的数据
已知实体人口及其规则样本及其测量
未知实体试验的具体结果人口的真实特征
关键问题事件“X”发生的概率是多少?“X”告诉我们关于这个世界的什么信息?
依赖性与数据收集无关完全取决于数据质量
核心工具随机变量和分布抽样和假设检验

详细对比

信息流

把概率想象成一个“前瞻性”的引擎,你从一副扑克牌开始,计算抽到一张A的概率。统计学则是“回顾性”的;你拿到一叠抽过的牌,必须判断这副牌是否作弊。前者从原因出发预测结果,后者则从结果出发寻找原因。

确定性与估计性

概率论关注的是理论上的确定性;如果骰子是公平的,那么掷出六点的概率在数学上是固定的。然而,统计学从不声称百分之百确定。相反,统计学家提供的是“置信区间”,他们承认,虽然他们认为某种趋势存在,但总会存在一个计算出的误差范围或“p值”,用来量化他们出错的可能性。

总体与样本

在概率论中,我们假设对整个群体(总体)了如指掌,就像知道罐子里有多少颗红色弹珠一样。当罐子不透明且太大而无法计数时,统计学就派上了用场。我们取出少量弹珠(样本),观察它们,并利用这些有限的信息对罐子里每颗弹珠的数量做出合理的推测。

相互交织的关系

没有概率,就没有现代统计学。诸如判断一种新药是否比安慰剂更有效之类的统计检验,都依赖于概率分布来判断观察到的结果是否可能纯粹是偶然发生的。概率提供了理论框架,而统计学则提供了实际应用。

优点与缺点

可能性

优点

  • +高度精确的数学
  • +绝对理论规则
  • +对人工智能逻辑至关重要
  • +能够清晰地计算风险。

继续

  • 需要已知输入
  • 可能过于抽象
  • 对假设很敏感
  • 没有考虑到偏见

统计数据

优点

  • +使用真实世界的证据
  • +识别隐藏趋势
  • +修正错误
  • +为政策决策提供依据

继续

  • 可有多种解读
  • 相关性并不等于因果关系
  • 易于操纵
  • 需要大型数据集

常见误解

神话

概率和统计学只是同一事物的不同名称。

现实

它们是截然不同的学科。虽然两者都涉及概率,但概率论是理论数学的一个分支,而统计学是一门专注于数据解释的应用科学。

神话

“统计学意义”意味着某件事已被100%证实。

现实

在统计学中,没有绝对意义上的“证明”。它仅仅意味着结果极不可能偶然发生,通常只有5%或1%的概率是侥幸。

神话

“平均法则”意味着,在经历长时间的连败之后,胜利是“必然”到来的。

现实

这就是赌徒谬误。概率论指出,每个独立事件(例如抛硬币)都与前一次事件无关;无论之前发生了什么,发生的概率都保持不变。

神话

更多的数据总是能带来更准确的统计结果。

现实

数量并不能保证质量。如果数据存在偏差或样本不具代表性,更大的数据集只会让你得出更“自信”但却错误的结论。

常见问题解答

学习数据科学,我应该先学哪门学科?
先从概率论入手。概率论提供了你理解统计检验实际运作原理所需的“语言”和分布(例如正态分布)。如果没有概率论,统计学就只是死记硬背公式,而不明白它们背后的原理。
参数和统计量有什么区别?
参数是属于整个总体的真实值(例如地球上所有人的平均身高)。统计量是根据样本计算出的值(例如你测量的100个人的平均身高)。我们使用统计量来估计参数。
在二十一点中,算牌是概率论还是统计学?
实际上两者兼而有之。你先用统计学方法记录“数据”(已打出的牌),然后用概率论方法计算剩余牌组出现不同结果的概率变化。这是一种基于新信息实时更新模型的应用。
概率论如何帮助进行天气预报?
气象学家利用当前数据进行数千次模拟。如果1000次模拟中有700次显示降雨,他们就报告降雨概率为70%。而“统计”部分则涉及分析过去几十年的天气数据,以便首先创建这些模拟模型。
统计学中的“推断”是什么?
推断是指根据一小部分人群的特征来“推断”或猜测一大群人群的特征。它就像一座桥梁,使我们能够在不检测一个国家所有人的情况下,对公众舆论或医疗效果做出广泛的论断。
概率为 0 意味着什么?
在有限的结果集合中,概率为 0 表示事件不可能发生。然而,在连续数学中(例如,在 0 和 1 之间选择一个特定的小数),概率为 0 在技术上是可能出现的,但在实际应用中,我们称之为“几乎不可能”。
统计数据可以用来说谎吗?
没错。通过选择有偏差的样本、使用误导性的比例尺可视化数据,或者忽略“误差范围”,人们几乎可以利用统计数据来支持任何论断。因此,理解数据背后的方法论与理解数据本身同样重要。
为什么“正态分布”在这两种情况下都如此重要?
钟形曲线(正态分布)是自然界中最常见的模式。在概率论中,它描述了随机变量的聚集方式。在统计学中,中心极限定理告诉我们,随着样本量的增加,数据自然会呈现出这种形状,从而可以进行非常有效的预测。

裁决

当你了解游戏规则并想预测接下来会发生什么时,可以使用概率论。当你拥有大量数据并需要找出其中隐藏的规则时,则应该转向统计学。

相关比较