原因在于,企业将AI智能体治理视为非此即彼的二元选择——要么严格锁定,要么完全信任。Gartner高级总监分析师、该报告作者Shiva Varma表示:"这正是失败的根源。"这些失败将迫使企业降级或停用部分智能体。
"智能体在不同的自主等级下运行,并跨越不同的信任边界。当不加区分地套用相同的管控措施时,企业会遭遇两种常见的失败模式:对简单智能体过度限制,导致交付效率下降并催生影子开发;对高自主智能体限制不足,则会增加运营、安全和合规风险。"他写道。
对此,Gartner建议采用基于智能体自主程度的多层级治理方案。
"自主等级和作用范围必须独立评估,"Varma写道,"自主等级定义了智能体的行为能力,而作用范围则定义了其可访问的数据、系统和权限的广度。治理决策应同时考虑这两个维度,因为无论是自主等级扩大还是作用范围扩大,风险都会随之上升。"
他表示,Gartner的四级治理模型仅关注自主等级,因为访问控制是独立扩展的。
在该模型中,对已定义数据源仅有只读权限、且仅向请求用户展示结果的智能体,被归为第1级——"Observe(观察)"。Varma表示,这类智能体的治理应聚焦于基线管控:限定范围的数据访问、用户身份认证、使用日志记录,以及"基础功能与安全测试"。
他指出,第2级("Advise,建议")智能体同样仅有只读权限,但会在邮件起草、报告或代码生成、决策支持等活动中向用户生成建议,但由于其建议可能影响人类判断,仅靠第1级的约束是不够的;还需扩展至准确性与幻觉测试,以及特定领域的质量评估,此外,用户培训还应包含关于应在多大程度上依赖其结果的指导。
在第3级"Act with Approval(经批准后执行)"中,智能体在人类批准后执行操作,完成写入数据、发送通信或修改配置等任务,这需要在第2级治理基础上更强的管控。Varma表示:"在这一级别,人工审查只有在保持有意义的管控效力时才有效。如果缺乏严格的安全测试、清晰的带审计追踪的审批流程以及针对智能体的专项事件响应预案,审批在时间压力或审批疲劳下会逐渐流于形式,在扩大攻击面的同时制造出虚假的安全感。"
Varma表示,对第4级完全自主的智能体必须施加最严格的限制,这类智能体可在既定护栏内独立执行操作,人类仅需审查例外情况并查看审计日志和汇总结果,这意味着,除第1-3级的管控外,这些智能体还应具备完善的护栏定义、操作回滚能力、持续监控,以及在智能体突破阈值时中止其运行的机制,此外,还需要持续的红队测试、明确的行为归属与问责机制,以及智能体失效时的业务连续性预案。
Varma建议软件工程负责人对当前在用的智能体进行审计,并使其治理等级与自主等级相匹配。
Greyhound Research的首席分析师Sanchit Vir Gogia对Gartner的建议表示欢迎。"对所有智能体套用同一套治理模型,就好比因为所有人都用笔记本电脑,就对前台接待、财务主管、数据库管理员、理赔专员和采购主管实施完全相同的管控体系。纸面上看起来整齐划一,实际上毫无意义。"
他表示,治理模型要想真正有效,就必须认识到:智能体最大的风险往往不在于它说了什么,而在于它接下来能做什么。
Info-Tech Research Group的顾问研究员Valence Howden对此表示认同。"在第4级,治理体系必须具备适应性,企业需要转向更具韧性的反脆弱自适应模型。"
Gogia补充道:"真正的治理难题不在于模型的智能程度,而在于被委托的运营权限跨越信任边界的速度,超过了企业对其进行监控、约束或审计的能力。治理不是AI应用的刹车,而是规模化应用的前提条件。"
他对CIO的建议直截了当:"不要让智能体的扩展速度超过你治理其权限的能力,少量治理得当的智能体所创造的企业价值,远超一大片聪明但脆弱、权限过宽的数字学徒。AI智能体的未来不是无拘无束的自主,而是在精心设计的边界内的自主。"


