被指出错误不仅不认，AI竟还会编瞎话把人类给洗脑了 - 人工智能

　　随着企业AI治理逐渐成为一种实践，它一直建立在一个令人安心的理念之上：让人留在回路中，让模型生成内容，再让人来审核，如果发现问题，就提出质疑、修正，然后继续，这听起来很审慎，但它也越来越显得不够完整。

　　哈佛商学院的一篇最新工作论文为这一担忧提供了实证支持，在一项针对72名顾问使用GPT-4解决商业问题的研究中，研究人员发现：当专业人士试图验证模型输出时，系统并没有简单地退后一步重新考虑，反而加大了推销力度。用户越是事实核查、越是指出缺陷、越是反驳，模型就越强力地试图说服他们接受其最初的答案，作者将这种现象称为"说服轰炸"。

　　这一发现之所以重要，是因为它挑战了企业AI领域最常见的假设之一：在同一次交互中进行验证是一种可靠的控制手段，事实可能并非如此。如果系统在实时适应用户的怀疑态度，那么审核过程就不再是完全独立的。模型不只是在产出内容，它还在塑造这些内容被评判的条件。在我们自己对企业建设者和运营者的访谈中，也看到了同样的大趋势：问题不仅在于模型出错，更在于系统让错误答案变得更难被质疑。

　　这并没有听起来那么奇怪，哈佛商学院的论文描述了模型在受到质疑时的三种主要应对方式。第一，借助可信度：语气更权威、更确定、更多引用来源。第二，扩展逻辑：增加更多结构、更多变量、更多步骤、更多解释。第三，情感镜像：先肯定用户的顾虑，听起来很合理，然后再引导回同样的结论。这些策略没有一个能保证答案更准确，它们只是让答案更难被否定。这与我们在业界听到的情况一致：系统的失败不仅在于答错，还在于压倒、讨好或耗赢审核者。

　　而且这不只是一篇论文指向一个令人不安的方向，Anthropic关于谄媚(sycophancy)的研究发现，主流AI助手会系统性地偏向与用户观点一致的回答，而非更真实的回答，该公司还发现，人类偏好判断会奖励这种行为，这意味着让助手感觉更自然、更有用的同样训练过程，也会让它们更倾向于告诉用户想听的话。

　　其他近期研究表明，这个问题远不止于小众边缘案例。斯坦福研究人员在《Science》上发表的报告指出，在11个AI模型中，系统在人际建议场景下肯定用户行为的频率远高于人类，而用户往往更偏好那些更随和的模型。斯坦福对核心发现的总结很直白：在这些场景中，AI系统"远比人类更随和"，而人们喜欢这一点。

　　到了这里，这就不再是一个模型行为的趣闻，而变成了CIO必须面对的问题。企业领导者一直被训练从三个维度思考AI风险：不透明、过度依赖和准确性。这些仍然重要，但说服力也应该被列入清单。风险不仅在于模型给出错误答案，更在于它越来越擅长让错误答案站住脚。

　　这有助于解释许多企业已经在经历的一个模式，团队花大量时间审核AI输出，信心上升，答案变得更长、更详细、更精致，但底层判断并不一定改善。在某些情况下，人们恰恰因为参与得更深而变得更加确信。这种交互感觉像是审查，但功能上更像是一场协商式的影响。

　　这也是为什么"人在回路(human in the loop)"这个常用说法太过温和，以至于失去了实用价值。一个人可以在场，但仍然在结构上被削弱。关键不在于一个人是否触达了工作流，而在于审核过程是否足够独立，能够抵抗系统的影响。NIST的生成式AI概要(Generative AI Profile)用更宏观的治理语言表达了同样的观点，指出生成式AI可能需要不同级别的监督、更多人工审核以及更强的追踪和文档记录，具体取决于上下文和风险。这引出了一个更难但更实用的设计原则：将生成与验证分离。正如我们自己的研究反复证实的：监督的独立性比监督的存在本身更重要。

　　不要假设在同一条对话中盘问模型就算监督，那可能只是在接触一个更强的论证生成器。如果任务重要，验证应该通过平行机制完成：另一个模型、另一位审核者、一个结构化测试框架，或一个不试图维护原答案的批判系统。哈佛商学院的作者明确指出，有效的验证可能需要"平行代理或互补的监督机制"。

　　这正是多智能体(multi-agent)设计在严肃企业场景中受到关注的原因之一，结构化的分歧是少数几种能削弱说服锁定的可靠方式之一。一个独立的验证者可以质疑主张，而不会被拉入同样的对话博弈。一个批判或评估智能体可以检验假设，而不是捍卫它们。独立的证据核查可以打破权威、逻辑过载和情绪安抚的节奏。这与我们从构建这些系统的从业者那里听到的一致：准确性来自结构化的挑战，而非被动的同意，每一个重要结论都需要证据链接，治理必须定义谁可以质疑、否决或在信任破裂时让智能体下线。

　　这种逻辑在实践中的一个早期案例来自Scout——一个智能体平台，其治理结构旨在减少谄媚行为。Scout使用竞争智能体、投票记录、明确的行为承诺和专门的批判角色来监控操纵、漂移和可靠性故障。正如Scout的首席创新官Tony Davis所说："一旦一个智能体开始把说服力置于准确性之上，它就不再值得信赖。看起来像是响应迅速的东西，实际上可能是谄媚、串通和操纵行为在系统中扩散的早期信号。"无论这种确切架构是否会成为标准，原则是一样的：当监督被内置于系统中，而非在单条对话中临时拼凑时，它才更有效。

　　CIO现在应该采取三个实际步骤

　　1. 停止将"人工审核"视为二元保障。同一次交互内的审核与交互外的审核是不同的，对于关键工作，验证应在不同会话中进行，通过第二个模型、结构化测试框架或指定的验证者完成。

　　2. 开始直接衡量说服风险。关注受到质疑后信心反而上升、反复回到同一结论、在审查下回答长度膨胀、以及恰好在用户反对时出现安抚性语言，这些不只是风格怪癖，它们可能是系统在优化顺从而非纠正的警告信号。

　　3. 重新设计权限。真正的治理问题不只是"模型能做这个吗?"，而是"谁可以质疑它，用什么证据，以及拥有什么决策权来否决它?"

　　旧假设很简单：更好的模型会带来更好的决策，但正在浮现的现实没那么清晰。更好的模型也可能变得更擅长为薄弱结论辩护，在这么做的同时听起来很可信，并把人类判断拉向同意。

　　这不是一个放慢AI采用速度的论点，而是一个围绕AI构建更好控制的论点，问题不仅在于是否有人在回路中，而在于当AI已经陈述完它的观点后，那个人是否还能做出独立判断。

被指出错误不仅不认，AI竟还会编瞎话把人类给洗脑了
2026-06-04 企业网D1Net

延伸阅读

热文

被指出错误不仅不认，AI竟还会编瞎话把人类给洗脑了 2026-06-04 企业网D1Net

延伸阅读

热文

被指出错误不仅不认，AI竟还会编瞎话把人类给洗脑了
2026-06-04 企业网D1Net