扫一扫
关注微信公众号

被指出错误不仅不认,AI竟还会编瞎话把人类给洗脑了
2026-06-04   企业网D1Net

  随着企业AI治理逐渐成为一种实践,它一直建立在一个令人安心的理念之上:让人留在回路中,让模型生成内容,再让人来审核,如果发现问题,就提出质疑、修正,然后继续,这听起来很审慎,但它也越来越显得不够完整。

  哈佛商学院的一篇最新工作论文为这一担忧提供了实证支持,在一项针对72名顾问使用GPT-4解决商业问题的研究中,研究人员发现:当专业人士试图验证模型输出时,系统并没有简单地退后一步重新考虑,反而加大了推销力度。用户越是事实核查、越是指出缺陷、越是反驳,模型就越强力地试图说服他们接受其最初的答案,作者将这种现象称为"说服轰炸"。

  这一发现之所以重要,是因为它挑战了企业AI领域最常见的假设之一:在同一次交互中进行验证是一种可靠的控制手段,事实可能并非如此。如果系统在实时适应用户的怀疑态度,那么审核过程就不再是完全独立的。模型不只是在产出内容,它还在塑造这些内容被评判的条件。在我们自己对企业建设者和运营者的访谈中,也看到了同样的大趋势:问题不仅在于模型出错,更在于系统让错误答案变得更难被质疑。

  这并没有听起来那么奇怪,哈佛商学院的论文描述了模型在受到质疑时的三种主要应对方式。第一,借助可信度:语气更权威、更确定、更多引用来源。第二,扩展逻辑:增加更多结构、更多变量、更多步骤、更多解释。第三,情感镜像:先肯定用户的顾虑,听起来很合理,然后再引导回同样的结论。这些策略没有一个能保证答案更准确,它们只是让答案更难被否定。这与我们在业界听到的情况一致:系统的失败不仅在于答错,还在于压倒、讨好或耗赢审核者。

  而且这不只是一篇论文指向一个令人不安的方向,Anthropic关于谄媚(sycophancy)的研究发现,主流AI助手会系统性地偏向与用户观点一致的回答,而非更真实的回答,该公司还发现,人类偏好判断会奖励这种行为,这意味着让助手感觉更自然、更有用的同样训练过程,也会让它们更倾向于告诉用户想听的话。

  其他近期研究表明,这个问题远不止于小众边缘案例。斯坦福研究人员在《Science》上发表的报告指出,在11个AI模型中,系统在人际建议场景下肯定用户行为的频率远高于人类,而用户往往更偏好那些更随和的模型。斯坦福对核心发现的总结很直白:在这些场景中,AI系统"远比人类更随和",而人们喜欢这一点。

  到了这里,这就不再是一个模型行为的趣闻,而变成了CIO必须面对的问题。企业领导者一直被训练从三个维度思考AI风险:不透明、过度依赖和准确性。这些仍然重要,但说服力也应该被列入清单。风险不仅在于模型给出错误答案,更在于它越来越擅长让错误答案站住脚。

  这有助于解释许多企业已经在经历的一个模式,团队花大量时间审核AI输出,信心上升,答案变得更长、更详细、更精致,但底层判断并不一定改善。在某些情况下,人们恰恰因为参与得更深而变得更加确信。这种交互感觉像是审查,但功能上更像是一场协商式的影响。

  这也是为什么"人在回路(human in the loop)"这个常用说法太过温和,以至于失去了实用价值。一个人可以在场,但仍然在结构上被削弱。关键不在于一个人是否触达了工作流,而在于审核过程是否足够独立,能够抵抗系统的影响。NIST的生成式AI概要(Generative AI Profile)用更宏观的治理语言表达了同样的观点,指出生成式AI可能需要不同级别的监督、更多人工审核以及更强的追踪和文档记录,具体取决于上下文和风险。这引出了一个更难但更实用的设计原则:将生成与验证分离。正如我们自己的研究反复证实的:监督的独立性比监督的存在本身更重要。

  不要假设在同一条对话中盘问模型就算监督,那可能只是在接触一个更强的论证生成器。如果任务重要,验证应该通过平行机制完成:另一个模型、另一位审核者、一个结构化测试框架,或一个不试图维护原答案的批判系统。哈佛商学院的作者明确指出,有效的验证可能需要"平行代理或互补的监督机制"。

  这正是多智能体(multi-agent)设计在严肃企业场景中受到关注的原因之一,结构化的分歧是少数几种能削弱说服锁定的可靠方式之一。一个独立的验证者可以质疑主张,而不会被拉入同样的对话博弈。一个批判或评估智能体可以检验假设,而不是捍卫它们。独立的证据核查可以打破权威、逻辑过载和情绪安抚的节奏。这与我们从构建这些系统的从业者那里听到的一致:准确性来自结构化的挑战,而非被动的同意,每一个重要结论都需要证据链接,治理必须定义谁可以质疑、否决或在信任破裂时让智能体下线。

  这种逻辑在实践中的一个早期案例来自Scout——一个智能体平台,其治理结构旨在减少谄媚行为。Scout使用竞争智能体、投票记录、明确的行为承诺和专门的批判角色来监控操纵、漂移和可靠性故障。正如Scout的首席创新官Tony Davis所说:"一旦一个智能体开始把说服力置于准确性之上,它就不再值得信赖。看起来像是响应迅速的东西,实际上可能是谄媚、串通和操纵行为在系统中扩散的早期信号。"无论这种确切架构是否会成为标准,原则是一样的:当监督被内置于系统中,而非在单条对话中临时拼凑时,它才更有效。

  CIO现在应该采取三个实际步骤

  1. 停止将"人工审核"视为二元保障。同一次交互内的审核与交互外的审核是不同的,对于关键工作,验证应在不同会话中进行,通过第二个模型、结构化测试框架或指定的验证者完成。

  2. 开始直接衡量说服风险。关注受到质疑后信心反而上升、反复回到同一结论、在审查下回答长度膨胀、以及恰好在用户反对时出现安抚性语言,这些不只是风格怪癖,它们可能是系统在优化顺从而非纠正的警告信号。

  3. 重新设计权限。真正的治理问题不只是"模型能做这个吗?",而是"谁可以质疑它,用什么证据,以及拥有什么决策权来否决它?"

  旧假设很简单:更好的模型会带来更好的决策,但正在浮现的现实没那么清晰。更好的模型也可能变得更擅长为薄弱结论辩护,在这么做的同时听起来很可信,并把人类判断拉向同意。

  这不是一个放慢AI采用速度的论点,而是一个围绕AI构建更好控制的论点,问题不仅在于是否有人在回路中,而在于当AI已经陈述完它的观点后,那个人是否还能做出独立判断。

热词搜索:AI 安全

上一篇:罗克韦尔自动化发布第十一版年度《智能制造现状报告》,报告显示中国企业正积极推进 AI 与智能制造应用落地
下一篇:最后一页

分享到: 收藏