扫一扫
关注微信公众号

别让烂数据毁了你的AI:企业智能化转型的“地基”重构指南
2026-02-26   企业网D1Net

棒球界的马里奥·门多萨(Mario Mendoza)和AI有什么共同点?20%的成功率。门多萨的击球率确立了“门多萨线”,即勉强可接受的最低表现标准。在各行各业中,80%的AI项目仍未能达到预期。极有可能的是,问题通常不在于AI本身,而是缺乏数据就绪性。

企业急于开展雄心勃勃的AI驱动转型项目,以寻求提高效率、增加收入或其他收益,但却忽视了数据就绪性这一基本前提。Gartner预测,到2026年,60%的AI项目将因缺乏AI就绪数据而被放弃。

因此,在投资于另一个模型或工具之前,请确保你的数据已准备就绪。

基于明确定义的关系和基础事实建立数据基础

成功应用AI的企业会使用干净的数据管道、集成数据湖,并对数据的含义达成共识。即便到了2024年,Secoda报告称,仍有68%的企业数据未被用于分析和创新。当企业的大部分知识被锁定时,你的算法就只能从浅薄、模糊的数据池中提取信息。

在数据就绪性方面,沃尔玛展现了耐心典范,他们花了数年时间将供应链、销售点和供应商数据关联起来,这一坚实的基础使得后续的AI部署得以顺利推进,同时,它还有助于削减成本、限制缺货并简化配送流程。在企业内部的各种数据源之间建立并描述清晰的关系,可确保AI能够正确理解和解读整个业务领域的数据。

在训练AI模型时,建立基础事实数据集也至关重要。基础事实不仅仅是标注数据,它是将企业的专业知识转化为机器可学习的东西,以创建可扩展的流程,首先,要建立明确的本体和标签分类体系,直接映射到你正在解决的业务问题上,最后,确保训练数据在数量、质量和多样性上足够充分,以确保模型在各种场景下性能一致,并减少偏差,特别是在涉及合规性的用例中,如人力资源或医疗保健领域。

Typewiser表示:“结论显而易见,整理好数据或许是AI应用中虽不光鲜却最为关键的一步。”

确保数据治理不是事后考虑

尽管治理可能会让你感觉进展缓慢,但实际上它能加速审批流程并降低风险。为数据指定明确的所有者和管理者,并将从原始来源到模型输出的合同、谱系和来源进行编码。

在数据源上训练模型或构建检索增强生成(RAG)管道时,请确保在下游AI应用中执行数据访问和保留策略。关注敏感的个人数据,并在法规要求时获得同意。

治理在整体系统可靠性方面也发挥着关键作用,明确的所有权、可复制的文档和可审计的流程可以限制紧急数据修复的混乱。所谓的治理繁文缛节实际上是一个速度引擎:可靠的质量推动更快的工作流程。

防止时间漂移:削弱AI投资回报率的无声数据衰减

一般来说,葡萄酒越陈越香,但数据通常并非如此,客户的口味会变化,供应链会变动,法规也会收紧,其结果就是数据漂移,即AI对世界的认知与实际世界之间的不匹配。

这种漂移有两种类型,数据漂移发生在模型输入的分布发生变化时,例如患者人口统计学数量的变化,概念漂移则发生在输入与结果之间的关系发生变化时,例如在疫情之前建立的临床算法。

如果任其发展,这两种形式的漂移都会侵蚀投资回报率。据InsightFinder称,在有人注意到之前,一家电子商务公司的点击率意外下降了30%。

漂移会降低甚至消除模型对企业的价值,在某些情况下,它甚至会导致巨大损失。在Zillow,一个“估值算法导致公司在2021年第三季度和第四季度对其购买的房屋价值高估了超过5亿美元”。

为了保持韧性,企业必须在数据管道中添加监控器,对关键变量运行统计漂移测试,将预测输出与实际反馈进行比较,并定期重新训练模型。有些企业甚至部署影子模型,这些模型与生产系统一起学习,并在输出出现偏差时发出警报。

结论:你的AI不会瞬间失败,它的准确性只是逐渐消失,建立指标,在数据退化导致客户流失、信誉受损甚至季度收入损失之前及时发现并应对。

可持续数据就绪性的回报

显而易见的是,忽视数据就绪性投入的企业,极有可能加入那些难以达到投资回报率预期或彻底失败的AI部署行列,而那些掌握数据就绪性基本要素的企业,则将跻身于成功实现并交付真正业务价值的AI项目之列。

热词搜索:AI

上一篇:当算法获得开火权:2亿美元背后的AI生死边界
下一篇:最后一页

分享到: 收藏