企业急于开展雄心勃勃的AI驱动转型项目,以寻求提高效率、增加收入或其他收益,但却忽视了数据就绪性这一基本前提。Gartner预测,到2026年,60%的AI项目将因缺乏AI就绪数据而被放弃。
因此,在投资于另一个模型或工具之前,请确保你的数据已准备就绪。
基于明确定义的关系和基础事实建立数据基础
成功应用AI的企业会使用干净的数据管道、集成数据湖,并对数据的含义达成共识。即便到了2024年,Secoda报告称,仍有68%的企业数据未被用于分析和创新。当企业的大部分知识被锁定时,你的算法就只能从浅薄、模糊的数据池中提取信息。
在数据就绪性方面,沃尔玛展现了耐心典范,他们花了数年时间将供应链、销售点和供应商数据关联起来,这一坚实的基础使得后续的AI部署得以顺利推进,同时,它还有助于削减成本、限制缺货并简化配送流程。在企业内部的各种数据源之间建立并描述清晰的关系,可确保AI能够正确理解和解读整个业务领域的数据。
在训练AI模型时,建立基础事实数据集也至关重要。基础事实不仅仅是标注数据,它是将企业的专业知识转化为机器可学习的东西,以创建可扩展的流程,首先,要建立明确的本体和标签分类体系,直接映射到你正在解决的业务问题上,最后,确保训练数据在数量、质量和多样性上足够充分,以确保模型在各种场景下性能一致,并减少偏差,特别是在涉及合规性的用例中,如人力资源或医疗保健领域。
Typewiser表示:“结论显而易见,整理好数据或许是AI应用中虽不光鲜却最为关键的一步。”
确保数据治理不是事后考虑
尽管治理可能会让你感觉进展缓慢,但实际上它能加速审批流程并降低风险。为数据指定明确的所有者和管理者,并将从原始来源到模型输出的合同、谱系和来源进行编码。
在数据源上训练模型或构建检索增强生成(RAG)管道时,请确保在下游AI应用中执行数据访问和保留策略。关注敏感的个人数据,并在法规要求时获得同意。
治理在整体系统可靠性方面也发挥着关键作用,明确的所有权、可复制的文档和可审计的流程可以限制紧急数据修复的混乱。所谓的治理繁文缛节实际上是一个速度引擎:可靠的质量推动更快的工作流程。
防止时间漂移:削弱AI投资回报率的无声数据衰减
一般来说,葡萄酒越陈越香,但数据通常并非如此,客户的口味会变化,供应链会变动,法规也会收紧,其结果就是数据漂移,即AI对世界的认知与实际世界之间的不匹配。
这种漂移有两种类型,数据漂移发生在模型输入的分布发生变化时,例如患者人口统计学数量的变化,概念漂移则发生在输入与结果之间的关系发生变化时,例如在疫情之前建立的临床算法。
如果任其发展,这两种形式的漂移都会侵蚀投资回报率。据InsightFinder称,在有人注意到之前,一家电子商务公司的点击率意外下降了30%。
漂移会降低甚至消除模型对企业的价值,在某些情况下,它甚至会导致巨大损失。在Zillow,一个“估值算法导致公司在2021年第三季度和第四季度对其购买的房屋价值高估了超过5亿美元”。
为了保持韧性,企业必须在数据管道中添加监控器,对关键变量运行统计漂移测试,将预测输出与实际反馈进行比较,并定期重新训练模型。有些企业甚至部署影子模型,这些模型与生产系统一起学习,并在输出出现偏差时发出警报。
结论:你的AI不会瞬间失败,它的准确性只是逐渐消失,建立指标,在数据退化导致客户流失、信誉受损甚至季度收入损失之前及时发现并应对。
可持续数据就绪性的回报
显而易见的是,忽视数据就绪性投入的企业,极有可能加入那些难以达到投资回报率预期或彻底失败的AI部署行列,而那些掌握数据就绪性基本要素的企业,则将跻身于成功实现并交付真正业务价值的AI项目之列。


