藏在AI成功下的陷阱：架构迟改必吃亏 - 人工智能

　　不要被早期的成功蒙蔽双眼;如果AI的行为越来越难以解释，那就是时候停止修补旧架构，转而优化整体架构了。

　　在我参与的大多数企业级AI项目中，最大的问题并非CIO在早期做出了错误的架构决策，而是在其周围的系统已发生根本性变化后，他们仍长期坚持原有架构。在早期，一切似乎都很成功。试点项目取得成果，模型表现良好，足以支持扩展，平台在现有的云架构和治理结构内实现扩展。从领导层的角度来看，几乎没有动力去质疑发展方向，但随着时间的推移，情况会发生变化。成本越来越难以预测，安全和架构审查耗时更长，合规团队开始提出一些原设计中未涉及的问题，业务利益相关者开始提出一个简单却越来越难以回答的问题——“系统为什么会那样做?”

　　这一阶段的困难在于，实际上没有任何东西“失败”了。系统仍在运行，仪表盘显示正常，传统指标仍表明系统健康，然而，信心却开始动摇，这种模式并非个例。麦肯锡公司一直强调，由于运营和治理的复杂性，许多企业难以将AI试点项目扩展为可信赖的规模化部署，许多CIO迟迟未能认识到这一转折点并及时采取行动。

　　当成功开始掩盖真正的问题时

　　我在不同的企业和行业中多次看到这种模式，一个团队以一个聚焦的用例启动AI项目，该用例具有明确性和可衡量性。架构简单直接：集成一个模型，将其连接到企业数据，通过API公开数据，并添加基本控制。目标是快速实现价值证明，而非长期结构设计。

　　系统运行良好，这正是这一阶段具有欺骗性的舒适所在。由于系统运行良好，企业便对其进行扩展，增加更多用例，更多工作流程依赖于它，原本的试点项目成为日常运营的一部分，重要的是，这种扩展通常是在不重新审视底层架构假设的情况下进行的。随着时间的推移，系统的重要性增加，但结构并未相应提升，它变得更加关键，却未变得更加可控，差距由此开始显现。我见过一些团队，系统已被广泛使用，但没有一个团队能够自信地解释在不同条件下系统端到端的行为表现，此时，成功仍然可见，但理解却已滞后。

　　CIO往往合理化的信号

　　早期预警信号很少表现为严重的故障，而是表现为摩擦——微小、持续且容易被忽视，成本波动往往是第一个信号。原本可预测的工作负载变得不均衡，使用量激增，模型交互增加，优化变得被动而非计划性。团队花费更多时间解释成本行为，而非控制成本，这与更广泛的行业趋势相符。斯坦福AI指数指出，随着AI系统的扩展，成本、计算变异性和运营复杂性显著增加，尤其是对于生成式和多步骤系统而言。

　　治理摩擦紧随其后，安全和合规审查耗时更长，并非因为团队效率低下，而是因为系统更难理解，关于决策如何做出以及行动如何触发的问题没有明确的答案，然而，最具说服力的信号是行为不确定性。

　　我参加过一些会议，团队能够解释系统的每个组件，却难以解释系统的整体行为，利益相关者开始提出更多问题，而非更少，信心变得有条件，这种从清晰到犹豫的转变，是大多数组织低估的信号。

　　为何难以采取行动

　　从外部看，应对措施似乎显而易见：重新审视架构，但实际上，这很少能迅速实现，我见过几个原因。

　　首先，成功会产生惯性。即使系统存在缺陷，只要它能提供价值，就有强烈的动力去扩展它，而非破坏它。领导者需要在交付承诺、利益相关者期望和预算限制之间取得平衡。重新架构感觉像是倒退，即使这是必要的。

　　其次，缺乏推动因素。与停机或安全事件不同，这个问题不会产生一个要求立即采取行动的单一时刻。系统继续运行，问题分散在成本、治理和运营等多个方面，容易被视为独立问题，而非更大问题的症状。

　　第三，变革的成本是即时且可见的，而延迟的成本则是渐进且累积的。重新架构需要团队间的协调、时间投入以及愿意打破现有工作流程的意愿。许多企业推迟这一决策，因为在短期内，不采取行动的影响更难量化。

　　我见过团队花费数月时间优化这些问题，调整模型、优化流程并增加更多控制，然后才意识到根本问题是结构性的。到那时，系统已经变得更难改变。

　　被打破的架构假设

　　这一模式的核心是一个简单假设：随着系统扩展，决策和执行可以保持紧密耦合。

　　在早期系统中，这一假设成立。模型产生输出，输出直接触发行动。系统规模较小，决策和执行之间的关系易于理解和管理。随着系统扩展，这一假设开始失效。决策受到多个数据源、中间步骤和上下文依赖的影响。行动影响更多系统、更多用户和更多业务流程，然而，架构仍将决策和执行视为一个连续的流程。

　　这就是可预测性开始下降的原因，并非因为系统停止工作，而是因为更难预测在不同条件下系统的行为表现。我见过一些企业，他们信任组件，但不信任系统，这一转变很微妙，但却是架构不再适合系统的重要信号之一。

　　CIO做出决策后的变化

　　那些能够继续前进的企业是那些认识到这一转变并果断决定改变系统结构的企业。

　　根据我的经验，最有效的变革是在决策和执行之间引入明确的分离，这创造了一个以前不存在的控制点。决策不再立即付诸行动，而是经过评估、验证，并在必要时在执行前加以约束，这使团队能够理解系统不仅在做什么，还知道为什么这样做。

　　我见过这一转变从根本上改变团队的工作方式，安全和合规审查变得更有成效，因为系统更容易理解，运营团队对行为有了更多控制。业务利益相关者重拾信心，因为决策不再不透明。

　　这与主要技术提供商如何改进自身系统的方式相一致，微软强调，随着AI系统越来越多地集成到企业工作流程中，需要更强的运营治理和控制机制。架构并未变得更简单，但变得更容易控制。

　　等待的实际成本

　　延迟这一决策的成本很少体现在单一指标上，而是在整个企业中累积，它表现为反复进行的架构和安全审查，却始终无法完全消除担忧，表现为花费越来越多精力解释系统行为，而非改进系统，表现为团队对系统使用地点和方式变得更加谨慎，我还见过它减缓了采用速度，原本愿意在系统上构建的团队因不完全信任系统行为而犹豫不决。随着时间的推移，这降低了AI投资的总体影响。

　　行业观察结果强化了这一模式，国际正常运行时间协会(Uptime Institute)强调，系统复杂性的增加和运营清晰度的缺乏正成为管理现代数字基础设施的关键挑战。当企业决定重新架构时，他们往往是在压力下进行的——在摩擦已经开始限制规模并引入风险之后。

　　CIO需要更早做出的决策

　　回顾这些项目，模式是一致的。问题不在于架构是否需要演变，而在于何时演变。

　　更早采取行动的CIO将初始架构视为起点，而非长期基础。随着系统扩展，他们积极评估结构是否仍支持业务现在所需的控制、可预测性和透明度水平。

　　这需要一种不同的思维方式，领导者不再等待失败信号，而是寻找模式——成本波动、治理摩擦、行为不确定性——并将它们视为结构不匹配的指标，我见过早期做出这一转变的组织避免了数月的返工。更重要的是，随着系统扩展，他们保持了对系统的信心，这最终使更广泛的采用成为可能。

　　从扩展系统到控制系统

　　企业级AI正从辅助决策的系统转变为做出决策并付诸行动的系统，这改变了CIO所承担责任的本质。仅仅确保系统性能良好且可扩展已不够，它们还必须在真实运营条件下可控且可理解，这需要一种不仅支持执行，还支持监督的架构。

　　根据我的经验，最难的部分不是构建系统，而是认识到为早期成功构建的系统不再适合规模化运营所需，这就是往往被推迟的决策，而且等待时间越长，成本越高。