Comparthing Logo
机器学习预测数据科学分析

基于图的预测与传统时间序列分析

本文探讨了从孤立地看待单个数据流到将其建模为相互关联的影响网络这一转变。传统方法依赖于历史数据自我修正,而基于图的方法则利用多个变量之间的空间和关系依赖性,以更高的上下文准确性预测未来结果。

亮点

  • 传统模型着眼于过去;图模型则“横向”观察邻近区域。
  • 图方法通过合并相关数据流来解决“数据孤岛”问题。
  • 经典统计数据仍然是简单、小规模企业规划的黄金标准。
  • 图神经网络可以通过发现人类可能忽略的联系来预测诸如电力激增之类的事件。

基于图的预测是什么?

一种使用图神经网络(GNN)将多元数据建模为节点和边的现代预测方法。

  • 它擅长捕捉“时空”依赖关系,其中一个变量的行为由其邻近变量决定。
  • 即使没有明确定义物理关系,该模型也能学习到潜在的图结构。
  • 它广泛应用于交通流量预测、电网和供应链物流等高复杂度系统中。
  • 通过将时间序列视为节点,可以减少大型多元数据集中常见的“维度灾难”。
  • 谷歌地图曾利用 GNN 将预计到达时间 (ETA) 的准确度在某些地区提高了 50%,这已是众所周知。

传统时间序列分析是什么?

经典的统计技术侧重于将单个数据序列分解为趋势、季节性和噪声。

  • ARIMA 和指数平滑等核心模型严重依赖于数据“平稳性”的假设。
  • 它主要关注自相关性,即变量与其自身过去值之间的关系。
  • 这些模型具有很强的可解释性,使分析师能够轻松解释为什么会生成特定的预测。
  • 与深度学习替代方案相比,它们通常需要的计算能力和数据量要少得多。
  • Prophet 由 Meta 开发,是一款流行的现代进化版本,它通过加性建模来处理节假日和缺失数据。

比较表

功能 基于图的预测 传统时间序列分析
主要关注点 系列间关系 系列内模式
数据复杂度 高(多元/关联) 低至中等(单变量)
可解释性 较低(黑箱特性) 较高(统计参数)
计算成本 高(需要GPU) 低(可在标准 CPU 上运行)
理想用例 智慧城市交通/电网 零售销售/库存
可扩展性 随网络密度变化 随系列数量变化的尺度
处理冲击 通过网络传播 通过误差项捕获

详细对比

隔离与连接

传统时间序列分析将每个数据流视为跑道上的一名孤单跑者,仅凭其过去的速度来预测未来的速度。而基于图的预测则着眼于整个赛道,它明白如果第一跑道的跑者绊倒,很可能会导致第二跑道的跑者偏离路线。这种模拟连锁反应的能力使得图方法在实体之间存在物理或逻辑关联的系统中远胜于传统方法。

平稳性陷阱

传统的 ARIMA 模型通常难以处理“非平稳”数据——即平均值或方差随时间变化的数据——需要进行复杂的变换,例如差分。图神经网络则更具适应性,它利用深度学习层来处理非线性模式和突变,而无需预先对数据进行完全稳定化处理。这使得它们更适用于真实工业环境中常见的混乱且不稳定的数据。

资源需求与效率

“准确性的代价”存在着显著的权衡。传统模型可以在一台普通笔记本电脑上快速部署,非常适合快速进行“足够好”的业务预测。然而,基于图的系统需要专门的硬件和复杂的数据管道来管理节点和边。虽然它们能够提供更深入的洞察,但训练和维护这些模型的成本通常使得它们对于简单的独立变量而言显得过于复杂。

透明度和信任

当传统模型预测销售额下降10%时,分析师可以指出具体的季节性系数或移动平均趋势来解释原因。而图模型则在“潜在空间”中运行,因此很难精确指出预测的真正原因。这种“黑箱”特性在金融或医疗保健等行业可能成为一大障碍,因为这些行业的利益相关者往往同样重视理解“为什么”和“是什么”。

优点与缺点

基于图的预测

优点

  • + 捕捉复杂的涟漪效应
  • + 处理非线性数据
  • + 卓越的多变量准确性
  • + 了解隐藏的关系

继续

  • 计算成本高昂
  • 需要海量数据集
  • 更难解释
  • 实施起来很复杂

传统时间序列

优点

  • + 快速轻便
  • + 高模型透明度
  • + 适用于小数据
  • + 易于自动化

继续

  • 忽略外部影响
  • 假设呈线性趋势
  • 系统冲击期间失效
  • 手动特征工程

常见误解

神话

基于图的预测总是比 ARIMA 模型更准确。

现实

不一定。如果你的数据流是真正独立的——例如不同国家不相关产品的销售数据——那么简单的 ARIMA 模型通常会比复杂的图模型表现更好,因为它能避免无关连接带来的不必要“噪声”。

神话

要使用图预测,你需要一张实体地图。

现实

现代图神经网络实际上可以“推断”图。即使没有连接图,模型也可以观察变量之间的相互作用,并构建自身的内部关系网络来改进预测。

神话

深度学习使传统统计学过时了。

现实

在许多商业环境中,传统统计方法的简洁性和速度优势依然占据主导地位。大多数“实时”仪表盘仍然使用经典的平滑算法或 Prophet 库,因为它们能够提供稳定的结果,且延迟远低于深度学习。

神话

更多的数据总能让图模型更好。

现实

图模型对“噪声边”非常敏感。如果输入的连接实际上并不相互影响,模型的准确率反而会下降,因为它试图从随机巧合中寻找意义。

常见问题解答

我应该何时从 Prophet 迁移到图神经网络?
当你的“个体”预测持续受到你无法预料的外部因素影响时,就应该考虑采用这种方法。例如,如果你在预测交货时间时发现,一个仓库的延误总是会影响其他五个仓库,那么图论方法可以帮助你模拟这种交叉影响,而 Prophet 却无法做到这一点。
图预测更适用于股票市场吗?
这很有前景,但也充满挑战。虽然股票之间确实存在关联,但金融市场的“噪音”实在太高,以至于图模型常常过度拟合暂时的巧合事件。大多数成功的金融系统都采用混合方法,将传统的波动率模型与基于社交网络的图情绪分析相结合。
时空预测中的“空间”部分是什么?
“空间”成分指的是数据点的位置或相互关系。在交通预测中,这指的是道路传感器之间的物理距离。在推荐引擎中,它可能是两个用户基于相似喜好而产生的“距离”。它本质上是在时间序列的“时间”之外添加了“地点”信息。
如果我只有一个数据流,可以使用图预测吗?
严格来说,不行。基于图的方法至少需要两个相关的实体才能构成一个“图”。如果你只有一个数据流,最好还是坚持使用像 Holt-Winters 或 LSTM 这样的单变量传统模型,这些模型专门设计用于深入分析单个序列。
这些模型如何应对“黑天鹅”事件?
传统模型通常将这些视为异常值并忽略它们,这可能很危险。图模型略好一些,因为它们可以检测到冲击从网络的一个角落开始,并提醒您冲击将如何扩散到其他部分,尽管没有任何模型能够完美地预测前所未有的事件。
哪种方式更容易在生产环境中维护?
传统模型要简单得多。它们的活动部件更少,对“数据漂移”的监控也更少,而且可以在几秒钟内重新训练。图模型则需要不断地对网络拓扑结构进行“健康检查”;如果实体之间的连接方式发生变化,整个模型可能就需要完全重建。
图预测适用于供应链管理吗?
是的,这正是它最强大的应用场景之一。由于供应链本质上是由节点(工厂)和边(运输路线)组成的网络,图模型非常适合预测单一原材料短缺会在数周后如何影响整个生产流程。
我需要哪些软件来进行基于图的预测?
通常情况下,你需要使用基于 Python 的框架,例如 PyTorch Geometric 或 Deep Graph Library (DGL)。与几乎所有电子表格或基本 BI 工具都提供的传统统计数据不同,图预测几乎完全依赖于自定义编写的机器学习管道。

裁决

对于易于解释且成本低廉的业务指标,请选择传统的时间序列分析。而当您管理复杂且相互关联的系统时,变量之间的关系与数据点本身同样重要,此时则应转向基于图的预测。

相关比较

OKR中的领先指标与滞后指标

要驾驭绩效追踪的世界,必须牢牢掌握领先指标和滞后指标。滞后指标确认已经发生的事情,例如总收入;而领先指标则作为预测信号,帮助团队实时调整策略,以实现远大目标。

背景与统计数据

理解背景与统计数据之间的相互作用是高水平分析的标志。统计数据为群体中发生的情况提供了一个严谨的数学框架,而背景则为其增添了至关重要的实质内容,解释了这些模式存在的原因以及哪些具体情况影响了最终的数字。

被动监测与预测性监测

选择合适的系统健康策略往往取决于时机。被动式监控会在事件发生后立即向团队发出警报,以最大限度地减少持续停机时间;而预测式监控则利用历史数据模式和机器学习技术,在潜在的资源耗尽或故障影响用户之前就发出预警。

充分简化与完全数据复杂度

在现代分析中,如何在充分降维和保留数据全部复杂性之间做出选择是一项基础性决策。降维侧重于去除噪声,在不损失预测能力的前提下提取核心统计信号;而保留复杂性则旨在揭示所有原始细节,从而发现那些细微的概括性描述可能无意中抹去的复杂非线性关系。

充分统计量与原始数据表示

这份技术对比分析了充分统计量和原始数据表示在操作上的差异。原始数据保留了所有观测到的细微差别,而充分统计量则将数据集压缩成紧凑的形式,同时又不丢失估计模型参数所需的任何信息。