别让烂数据毁了你的AI：企业智能化转型的“地基”重构指南 - 人工智能

棒球界的马里奥·门多萨(Mario Mendoza)和AI有什么共同点?20%的成功率。门多萨的击球率确立了“门多萨线”，即勉强可接受的最低表现标准。在各行各业中，80%的AI项目仍未能达到预期。极有可能的是，问题通常不在于AI本身，而是缺乏数据就绪性。

企业急于开展雄心勃勃的AI驱动转型项目，以寻求提高效率、增加收入或其他收益，但却忽视了数据就绪性这一基本前提。Gartner预测，到2026年，60%的AI项目将因缺乏AI就绪数据而被放弃。

因此，在投资于另一个模型或工具之前，请确保你的数据已准备就绪。

基于明确定义的关系和基础事实建立数据基础

成功应用AI的企业会使用干净的数据管道、集成数据湖，并对数据的含义达成共识。即便到了2024年，Secoda报告称，仍有68%的企业数据未被用于分析和创新。当企业的大部分知识被锁定时，你的算法就只能从浅薄、模糊的数据池中提取信息。

在数据就绪性方面，沃尔玛展现了耐心典范，他们花了数年时间将供应链、销售点和供应商数据关联起来，这一坚实的基础使得后续的AI部署得以顺利推进，同时，它还有助于削减成本、限制缺货并简化配送流程。在企业内部的各种数据源之间建立并描述清晰的关系，可确保AI能够正确理解和解读整个业务领域的数据。

在训练AI模型时，建立基础事实数据集也至关重要。基础事实不仅仅是标注数据，它是将企业的专业知识转化为机器可学习的东西，以创建可扩展的流程，首先，要建立明确的本体和标签分类体系，直接映射到你正在解决的业务问题上，最后，确保训练数据在数量、质量和多样性上足够充分，以确保模型在各种场景下性能一致，并减少偏差，特别是在涉及合规性的用例中，如人力资源或医疗保健领域。

Typewiser表示：“结论显而易见，整理好数据或许是AI应用中虽不光鲜却最为关键的一步。”

确保数据治理不是事后考虑

尽管治理可能会让你感觉进展缓慢，但实际上它能加速审批流程并降低风险。为数据指定明确的所有者和管理者，并将从原始来源到模型输出的合同、谱系和来源进行编码。

在数据源上训练模型或构建检索增强生成(RAG)管道时，请确保在下游AI应用中执行数据访问和保留策略。关注敏感的个人数据，并在法规要求时获得同意。

治理在整体系统可靠性方面也发挥着关键作用，明确的所有权、可复制的文档和可审计的流程可以限制紧急数据修复的混乱。所谓的治理繁文缛节实际上是一个速度引擎：可靠的质量推动更快的工作流程。

防止时间漂移：削弱AI投资回报率的无声数据衰减

一般来说，葡萄酒越陈越香，但数据通常并非如此，客户的口味会变化，供应链会变动，法规也会收紧，其结果就是数据漂移，即AI对世界的认知与实际世界之间的不匹配。

这种漂移有两种类型，数据漂移发生在模型输入的分布发生变化时，例如患者人口统计学数量的变化，概念漂移则发生在输入与结果之间的关系发生变化时，例如在疫情之前建立的临床算法。

如果任其发展，这两种形式的漂移都会侵蚀投资回报率。据InsightFinder称，在有人注意到之前，一家电子商务公司的点击率意外下降了30%。

漂移会降低甚至消除模型对企业的价值，在某些情况下，它甚至会导致巨大损失。在Zillow，一个“估值算法导致公司在2021年第三季度和第四季度对其购买的房屋价值高估了超过5亿美元”。

为了保持韧性，企业必须在数据管道中添加监控器，对关键变量运行统计漂移测试，将预测输出与实际反馈进行比较，并定期重新训练模型。有些企业甚至部署影子模型，这些模型与生产系统一起学习，并在输出出现偏差时发出警报。

结论：你的AI不会瞬间失败，它的准确性只是逐渐消失，建立指标，在数据退化导致客户流失、信誉受损甚至季度收入损失之前及时发现并应对。

可持续数据就绪性的回报

显而易见的是，忽视数据就绪性投入的企业，极有可能加入那些难以达到投资回报率预期或彻底失败的AI部署行列，而那些掌握数据就绪性基本要素的企业，则将跻身于成功实现并交付真正业务价值的AI项目之列。

别让烂数据毁了你的AI：企业智能化转型的“地基”重构指南
2026-02-26 企业网D1Net

延伸阅读

热文

别让烂数据毁了你的AI：企业智能化转型的“地基”重构指南 2026-02-26 企业网D1Net

延伸阅读

热文

别让烂数据毁了你的AI：企业智能化转型的“地基”重构指南
2026-02-26 企业网D1Net