Comparthing Logo
数据工程数据分析数据治理分析

分析中的数据清洗与数据保留

数据清洗会主动去除重复数据、纠正异常情况并重新格式化混乱的输入,以提高下游机器学习的准确性;而数据保存则侧重于保持原始的、未经更改的历史数据完整,以保护长期的审计合规性,并防止意外丢失罕见但至关重要的边缘案例。

亮点

  • 清洗形状数据以供立即使用,而保存则可保护数据以备将来未知用途。
  • 清洁环节的失误可能会扭曲指标,但保存环节的失败可能会完全违反监管规定。
  • 保存将数据不可更改地存储在可扩展的数据库湖中,而清洗则填充优化的关系系统。
  • 现代数据处理流程将两者结合起来,先对原始数据进行归档,然后再运行破坏性的清理脚本。

数据清洗是什么?

从数据集中识别、纠正或删除损坏的、不准确的或不相关的记录的系统过程。

  • 在训练开始前消除结构错误和重复条目,直接提高模型性能。
  • 涉及主动干预,例如填补缺失值、规范文本大小写和删除异常值。
  • 通过过滤掉无用或冗余的后台遥测数据,降低存储开销和计算成本。
  • 依靠确定性脚本、正则表达式和专门的去重算法来标准化输入。
  • 如果验证规则配置得过于严格,则可能会丢失意外但真实的系统信号。

数据保存是什么?

保护和存储原始、未修改的数据,使其保持原始状态,以便长期合规和重新分析。

  • 通过保留从数据采集那一刻起不可篡改的审计跟踪,保证可靠的数据沿袭。
  • 采用一次写入多次读取的存储架构、冷云层和加密哈希来防止篡改。
  • 允许未来的数据科学家在出现新的分析方法时重新处理相同的原始输入。
  • 确保严格遵守 GDPR、HIPAA 等法律框架和财务报告标准。
  • 由于积累了大量未压缩、杂乱无章的数据集,因此需要大幅增加存储基础设施投资。

比较表

功能 数据清洗 数据保存
主要目标 优化数据即时效用和准确性 保持历史真实性和长期可重复性
数据状态 修改、标准化和过滤 未经剪辑、未经编辑且可能混乱的原始素材
核心行动 修改或删除有问题的条目 锁定并永久存储记录
存储架构 高性能数据仓库和特征存储 可扩展的数据湖和冷归档存储库
主要受益人 商业智能工具和机器学习模型 数据审计员、取证分析师和未来研究人员
主要技术风险 意外抹除现实世界的异常现象 昂贵且合规的数字垃圾的积累

详细对比

工作流程定位和时间安排

数据保存发生在数据摄取的最前端,在任何管道处理数据之前直接从源头捕获信息。清洗则发生在下游,将保存的原始文件转换为可用于业务仪表板的精选资产。数据保存防止数据丢失,而清洗则为日常运营整理数据。

处理现实世界中的异常情况

数据清理流程通常会将极端峰值或空字段标记为错误,并对其进行平滑处理或丢弃,以保持回归的稳定性。而数据保留则会保留这些损坏的记录,因为它意识到连接中断或极端传感器峰值可能蕴藏着日后发现硬件故障的关键信息。数据清理旨在优化平滑的趋势,而数据保留则重视原始的、未经修饰的真实数据。

基础设施和成本影响

数据清理流程需要强大的计算能力来解析字符串、执行连接操作并实时运行去重逻辑。而数据保存则绕过了复杂的处理逻辑,将资源转移到旨在无限期保存PB级文件的超大规模低成本对象存储方案上。清理数据时,您需要为实时计算能力付费;而数据保存时,您只需为稳定的磁盘空间付费。

监管合规与安全

现代法律框架要求组织机构准确说明其得出特定分析结论的过程。由于数据清理会永久性地改变数值或删除行,因此仅凭清理后的数据集无法满足严格的数字审计要求。数据保留提供了未经编辑的原始记录,使安全团队和监管机构能够毫无歧义地从头开始重建计算过程。

优点与缺点

数据清洗

优点

  • + 加快模型训练速度
  • + 消除令人困惑的仪表盘噪音
  • + 规范不匹配的文本格式
  • + 节省下游应用程序内存

继续

  • 可以销毁有效的异常
  • 将人为偏见引入规则
  • 需要持续的代码维护
  • 如果就地进行,则不可逆。

数据保存

优点

  • + 提供绝对数据沿袭
  • + 实现全面历史重新分析
  • + 满足严格的政府审计要求
  • + 保护原装边缘外壳

继续

  • 推高长期存储费用
  • 使组织面临合规风险
  • 导致数据杂乱无章且格式混乱。
  • 需要复杂的访问控制

常见误解

神话

在一个项目中,数据清洗和数据保存是相互排斥的选择。

现实

实际上,它们在现代数据架构中形成了一种强大的伙伴关系。顶尖的工程团队首先将原始传入数据保存在不可变的“湖”层中,然后启动解耦的清洗管道,将精炼后的副本输出到数据仓库中,以供日常分析。

神话

保留每一条原始数据,即可确保您自动遵守隐私法。

现实

无限期地存储原始数据可能与 GDPR 等隐私法规中的“被遗忘权”相冲突。数据保存需要复杂的元数据跟踪和加密策略,以便在不销毁整个档案的情况下,仍然可以清除或匿名化特定的客户记录。

神话

自动化数据清理程序始终比人工干预更安全。

现实

自动化程序可能会瞬间放大错误的影响。如果自动化脚本中存在细微的逻辑缺陷,它可能会悄无声息地覆盖整个数据库中数千行有效数据,这凸显了保留备份的重要性。

神话

数据彻底清理完毕后,您将不再需要原始的原始文件。

现实

分析需求不断变化。如果您的业务切换到处理缺失值方式不同的新机器学习模型,则之前清洗后的数据将失效,您将被迫提取保留的原始文件并重建数据管道。

常见问题解答

现代湖畔住宅建筑如何同时兼顾数据清洗和保存?
现代系统使用 Delta Lake 或 Apache Iceberg 等事务存储层来解决这一难题。它们在保持原始未编辑数据完整性的同时,维护所有清理操作的清晰版本历史记录。当分析师运行查询时,系统读取最新的清理状态,但开发人员可以使用时间旅行功能,立即查询数月前的原始数据。
早期清理数据与保留原始数据在财务成本上有何区别?
尽早清理数据可以最大限度地减少对昂贵、高速关系型数据库的占用,因为您可以立即过滤掉垃圾数据。然而,如果您的清理逻辑出现错误,永久丢失这些数据所造成的经济损失可能会对业务逻辑造成灾难性影响。保留原始数据虽然前期存储成本更高(以GB为单位),但它使用AWS S3 Glacier等低成本对象存储,从长远来看,这是一种非常经济实惠的保障措施。
数据保存是否存在安全风险,而数据清理是否有助于消除这些风险?
是的,保留未经编辑的数据会带来重大的安全挑战。原始日志通常包含敏感的明文字符串、未加密的 API 密钥或意外捕获的个人身份信息。虽然清理操作可以消除这些风险,确保下游环境的安全,但保留的存档必须通过严格的加密、严密的访问日志记录和严密的网络隔离来保护,以防止大规模的安全漏洞。
在ELT流程的哪个具体步骤中,数据清洗会取代数据保存?
在提取-加载-转换 (ELT) 工作流程中,提取和加载阶段完全属于数据保留阶段。该流程从生产系统中提取原始数据,并将其直接加载到目标区域,不进行任何字节的编辑。数据清洗阶段则在转换阶段进行,该阶段使用独立的 SQL 视图或 dbt 模型对原始数据进行处理、清理和验证,以供最终用户使用。
过度清洗数据会导致机器学习模型过拟合吗?
过度清洗数据通常会去除模型在训练过程中需要遇到的自然差异、异常值和各种杂乱无章的数据。如果给算法输入的是经过完美处理的数据,那么在实际应用中,当输入数据混乱且不可预测时,算法将难以泛化。保留数据的自然杂乱性有助于工程师构建具有弹性的测试验证集。
数据保留策略与长期数据保存目标之间有何关联?
数据保留策略为保存的数据设定了明确的期限,以限制企业责任并降低存储成本。合理的策略会精确定义原始文件必须保存多长时间才能满足历史分析或法律法规的要求,例如财务记录的保存期限为七年。一旦超过该期限,数据保留策略将触发自动删除或匿名化程序。
为什么数据保存被认为是可复现数据科学的核心要求?
真正的可复现性意味着独立的研究人员可以使用完全相同的代码和输入数据,并获得完全相同的结果。由于数据清洗脚本会随着时间推移而不断演变,仅仅共享清洗后的数据集不足以确保长期可复现性。提供对原始锁定数据的访问权限,可以让同行验证您的数据清洗脚本是否意外引入了偏差或扭曲了最终结论。
如果在不保留源数据的情况下清理数据,数据沿袭跟踪会发生什么变化?
您的数据沿袭完全断裂。如果没有原始源文件,沿袭追踪会在第一个清理脚本处终止,导致无法证明数据的来源或验证其真实性。保留原始状态可以为治理工具提供可靠的锚点,以便将每一次转换、列拆分和计算追溯到其真正的来源。

裁决

当您的首要任务是训练机器学习模型、构建清晰的管理仪表盘或消除会破坏生产代码的明显格式错误时,请选择数据清洗。而当您构建长期基础设施、满足严格的法律合规要求或设计深度取证工作流程时,则应重点关注数据保存,因为在这些情况下,丢失任何一个原始像素或日志行都是不可接受的。

相关比较

OKR中的领先指标与滞后指标

要驾驭绩效追踪的世界,必须牢牢掌握领先指标和滞后指标。滞后指标确认已经发生的事情,例如总收入;而领先指标则作为预测信号,帮助团队实时调整策略,以实现远大目标。

背景与统计数据

理解背景与统计数据之间的相互作用是高水平分析的标志。统计数据为群体中发生的情况提供了一个严谨的数学框架,而背景则为其增添了至关重要的实质内容,解释了这些模式存在的原因以及哪些具体情况影响了最终的数字。

被动监测与预测性监测

选择合适的系统健康策略往往取决于时机。被动式监控会在事件发生后立即向团队发出警报,以最大限度地减少持续停机时间;而预测式监控则利用历史数据模式和机器学习技术,在潜在的资源耗尽或故障影响用户之前就发出预警。

充分简化与完全数据复杂度

在现代分析中,如何在充分降维和保留数据全部复杂性之间做出选择是一项基础性决策。降维侧重于去除噪声,在不损失预测能力的前提下提取核心统计信号;而保留复杂性则旨在揭示所有原始细节,从而发现那些细微的概括性描述可能无意中抹去的复杂非线性关系。

充分统计量与原始数据表示

这份技术对比分析了充分统计量和原始数据表示在操作上的差异。原始数据保留了所有观测到的细微差别,而充分统计量则将数据集压缩成紧凑的形式,同时又不丢失估计模型参数所需的任何信息。