Comparthing Logo
机器学习数据科学人工智能开发大数据

模型训练中的数据质量与数据数量

虽然曾经构建强大人工智能的主要目标是获取海量数据,但如今关注点已转向高保真数据集。质量强调信息的精确性和相关性,而数量则提供深度学习模型在复杂真实场景中进行泛化所需的统计广度。

亮点

  • 质量的提升可以减少因修复生产环境中的错误而产生的技术债务。
  • 数量是促成生成式人工智能爆发式增长的“燃料”。
  • 以数据为中心的 AI 提倡将 80% 的时间用于提高质量,而不是编写代码。
  • 如今最成功的模式都采用了两者恰到好处的混合方式。

数据质量是什么?

衡量数据集对于特定任务的准确性、清晰度和代表性的指标。

  • 高质量数据可以最大限度地降低模型训练过程中“垃圾进,垃圾出”的风险。
  • 干净的数据集需要的计算能力更少,因为模型收敛速度更快。
  • 质量控制的重点在于去除重复项、纠正错误以及确保标签平衡。
  • 当基础数据点可靠时,特征工程会更加有效。
  • 近期“以数据为中心的人工智能”的发展趋势是优先改进标签质量,而不是增加标签数量。

数据量是什么?

算法需要处理的单个观测值或数据点的数量非常庞大。

  • 海量数据集使大型语言模型能够学习细微的模式和边缘情况。
  • 数量有助于防止过拟合,因为它能为模型提供更多样化的例子。
  • 大数据对于像 Transformer 这样拥有数十亿个参数的架构至关重要。
  • 高音量有时可以通过统计平均值来弥补轻微的噪音。
  • 大规模数据抓取和合成数据生成是提高数据量的常用方法。

比较表

功能 数据质量 数据量
主要目标 精度和可靠性 多样性与普遍性
训练速度 快速收敛 速度慢且资源消耗大
理想型号 传统机器学习(支持向量机、决策树) 深度学习(神经网络)
主要风险 小样本偏差 算法偏差和噪声
购置成本 高(人工标注) 变量(自动抓取)
对逻辑的影响 更清晰的因果关系 发现隐藏的关联

详细对比

尺度定律之争

多年来,业界一直遵循“扩展法则”,认为更多的数据几乎总是能带来更好的性能。然而,研究人员发现,添加低质量数据实际上会降低模型的推理能力。这就像一个学生阅读十本高质量的教科书和一千篇质量低劣的博客文章一样;通常来说,前者对理解的深度更胜一筹。

处理噪声和异常值

大量样本训练方法假设噪声最终会在数百万个样本中“相互抵消”。虽然这种方法适用于简单的任务,但以质量为中心的训练方法会主动剔除可能导致模型得出错误结论的异常值。在医疗诊断等高风险领域,一张完美标注的图像往往比一千张模糊的图像更有价值。

成本和计算效率

在海量数据集上进行训练成本极其高昂,需要数周的GPU时间和巨大的能源消耗。通过精心挑选规模较小但质量更高的数据集,开发者通常可以用更少的硬件资源获得类似甚至更优的结果。这种转变使得那些无力负担大型服务器集群的小型组织也能更容易地使用复杂的AI技术。

边缘情况表示

数量优势在于能够捕捉“长尾”现象——即百万分之一概率发生的罕见事件。即使是最干净的小型数据集也可能遗漏这些关键的极端情况。要构建一个真正稳健的系统,例如自动驾驶汽车,你需要海量数据来确保模型能够应对所有可能出现的极端天气或交通状况。

优点与缺点

数据质量

优点

  • + 更高的模型精度
  • + 降低计算成本
  • + 可解释的结果
  • + 减少算法偏差

继续

  • 非常耗时
  • 难以扩展
  • 需要体力劳动
  • 缺失的罕见场景

数据量

优点

  • + 更好的泛化能力
  • + 捕捉极端情况
  • + 更容易实现自动化
  • + 法学硕士标准

继续

  • 高昂的仓储成本
  • 更难调试
  • 有毒物质风险
  • 收益递减

常见误解

神话

只要数据足够多,质量就无关紧要了。

现实

这是一个危险的陷阱。糟糕的数据会导致“偏差放大”,模型会学习甚至放大海量数据集中存在的错误或偏见。

神话

合成数据仅有助于增加数量。

现实

实际上,高质量的合成数据通常用于解决数据质量问题。它可以通过创建代表性不足群体的“完美”样本来重新平衡数据集。

神话

数据清理是一次性任务。

现实

数据质量是一个持续循环的过程。随着现实世界情况的变化(数据漂移),您必须不断地重新验证您的数据是否仍然能够准确反映当前的实际情况。

神话

小数据集永远无法与大数据集相提并论。

现实

在许多基准测试中,用 10% 的数据集(经过精心挑选,兼顾“难度”和质量)训练的模型,其性能优于用 100% 的数据集训练的模型。

常见问题解答

数据集中的“质量”究竟由什么决定?
质量通常由五大支柱衡量:准确性(是否真实?)、完整性(是否遗漏任何信息?)、一致性(格式是否一致?)、时效性(是否最新?)和相关性(是否真正解决了你的问题?)。一个数据集可能非常庞大,但却无法通过所有这些检查。
大数据能否解决自身的质量问题?
在某种程度上,是的。像“去噪”这样的技术利用大多数数据的统计权重来忽略少数明显错误的异常值。然而,如果你的“大数据”大部分都有缺陷,模型就会学会自信地做出错误的判断。
购买大型数据集还是雇佣人员标注小型数据集更好?
如果你的任务非常具体,例如识别专有制造工艺中的缺陷,那么聘请专家创建高质量的小型数据集几乎总是更好的选择。购买的数据集通常过于通用,无法为解决特定问题提供竞争优势。
数据量如何影响过拟合?
过拟合是指模型“记忆”少量数据集而不是学习其中的模式。更多的数据就像一张安全网,它迫使模型寻找适用于众多不同示例的更广泛的规则,而不仅仅是少数特定示例。
“以数据为中心的人工智能”究竟是什么?
这是吴恩达推广的一种理念,它建议与其不断调整代码和算法,不如保持代码不变,专注于提升数据质量。它将数据工程视为人工智能成功的关键驱动力。
数量对人工智能中的“幻觉”有帮助吗?
这把双刃剑。更多的数据能让模型掌握更多事实,从而减少误差。然而,如果这些数据包含相互矛盾或未经证实的信息,反而会促使模型将事实混淆,编造出看似可信的谎言。
对初创公司而言,哪个更重要?
初创公司几乎总是应该把质量放在首位。你可能没有足够的资源在数据量上与科技巨头竞争,但你可以通过拥有特定领域内最干净、最精心整理的数据,打造出高效且专业的工具。
“维度诅咒”在这里扮演什么角色?
随着特征(质量)的增加,通常需要指数级增长的数据量(数量)来填充这些点之间的“空间”。这就是为什么向小型数据集添加过多细节实际上会降低模型的性能——它没有足够的样本来连接这些点。
我可以实现数据质量检查过程的自动化吗?
是的,有一些“数据可观测性”工具可以自动标记缺失值、模式变更或统计异常。虽然它们无法告诉你标签在“道德”上是否正确,但它们非常擅长在技术错误影响训练流程之前将其捕获。
“数据多样性”发挥着怎样的作用?
多样性是连接两者的桥梁。即使拥有大量数据,如果缺乏多样性(例如,数百万张仅拍摄一种树木的照片),也会导致数据质量低下,因为模型无法理解其他树木的特征。真正的高质量数据需要多样化的数量。

裁决

如果您处理的是法律或医学等对准确性要求极高的专业领域,请选择数据质量方法。如果您构建的是需要处理大量且不可预测的人类输入数据的通用模型,则应选择数据数量方法。

相关比较

OKR中的领先指标与滞后指标

要驾驭绩效追踪的世界,必须牢牢掌握领先指标和滞后指标。滞后指标确认已经发生的事情,例如总收入;而领先指标则作为预测信号,帮助团队实时调整策略,以实现远大目标。

背景与统计数据

理解背景与统计数据之间的相互作用是高水平分析的标志。统计数据为群体中发生的情况提供了一个严谨的数学框架,而背景则为其增添了至关重要的实质内容,解释了这些模式存在的原因以及哪些具体情况影响了最终的数字。

被动监测与预测性监测

选择合适的系统健康策略往往取决于时机。被动式监控会在事件发生后立即向团队发出警报,以最大限度地减少持续停机时间;而预测式监控则利用历史数据模式和机器学习技术,在潜在的资源耗尽或故障影响用户之前就发出预警。

充分简化与完全数据复杂度

在现代分析中,如何在充分降维和保留数据全部复杂性之间做出选择是一项基础性决策。降维侧重于去除噪声,在不损失预测能力的前提下提取核心统计信号;而保留复杂性则旨在揭示所有原始细节,从而发现那些细微的概括性描述可能无意中抹去的复杂非线性关系。

充分统计量与原始数据表示

这份技术对比分析了充分统计量和原始数据表示在操作上的差异。原始数据保留了所有观测到的细微差别,而充分统计量则将数据集压缩成紧凑的形式,同时又不丢失估计模型参数所需的任何信息。