确认偏见:AI审查官的认知陷阱
确认偏见是一种经典的认知偏差,指个体倾向于寻找、解释和记忆信息以证实自己原有信念的倾向。在LLM辅助的代码审查中,这种偏见表现为:模型会过度依赖拉取请求(PR)的标题、描述等元数据信息来形成“先入之见”,从而影响其对代码本身安全性的独立判断。
研究团队通过两项互补实验,系统性地量化了这一偏见的影响:
受控偏见实验:在250个真实CVE漏洞-补丁对上,测试了GPT-4o-mini、Claude 3.5 Haiku等四个前沿模型。通过将提示语框架设置为“强无漏洞断言”等不同条件,观察模型检测率的变化。
实战模拟攻击:在GitHub Copilot(交互式助手)和Claude Code(自主审查智能体)两种真实部署场景中,测试了利用偏见绕过审查的实际成功率。
触目惊心的数据:偏见导致检测率暴跌
实验结果量化了偏见的破坏性影响:
检测率大幅下滑:在“强无漏洞”框架下,所有模型的漏洞检测率均显著下降。其中,GPT-4o-mini的检测率从97.2%暴跌至3.6%,降幅高达93.5个百分点。即使表现最稳定的Gemini 2.0 Flash,也下降了16.2个百分点。
非对称性风险:偏见的影响极不均衡。以GPT-4o-mini为例,无漏洞框架导致其漏报231个漏洞,而有漏洞框架仅帮助其额外检出29个——漏报风险是误报的8倍。这种不对称性意味着,模型在最危险的方向上失效:它更可能放过真实漏洞,制造虚假的安全感。
“精准度幻觉”:在强无漏洞条件下,由于模型只敢报告极少数它非常确信的问题,导致其报告结果的“精准度”看似提升(例如GPT-4o-mini达88.9%),但这是一种统计假象,其代价是覆盖率仅为3.2%,绝大多数漏洞被悄然放过。
漏洞类型与攻击可行性:哪些代码更危险?
研究进一步发现,不同漏洞类型对偏见的敏感性不同:
注入类漏洞(如XSS、SQL注入) 对偏见更敏感,其真阳性率在偏见影响下波动更大。
内存安全漏洞(如越界读写) 则构成了攻击的主要突破口。在全部模型均被“强无漏洞”偏见欺骗的34个案例中,67.6%涉及内存安全漏洞。这类漏洞往往源于极其细微的逻辑错误(如将 >= 误写为 >),极易被包装成“性能优化”或“移除冗余检查”,从而完美契合攻击者的误导性描述。
供应链攻击模拟结果令人震惊:
在针对Claude Code自主智能体的模拟攻击中,88.2%(15/17)的包含真实CVE漏洞的PR,仅通过精心设计的PR描述就成功绕过了自动化审查。
攻击者甚至能为漏洞构造复杂的辩护逻辑,例如为某个路径穿越漏洞声称“失效的安全控制比没有更糟”,或为授权绕过漏洞提供一个“数学上不可能被利用”的形式化证明,导致审查智能体打出“Security: 10/10 (Perfect)”的荒谬评分。
结构性失衡:攻击者占据天然优势
研究指出,这场攻防中存在根本性的信息不对称:
攻击者可反复试探:CI/CD流水线中的审查提示(Prompt)通常在GitHub Actions配置中公开可见。攻击者可以在本地私有仓库中,针对目标项目的审查逻辑,反复测试和优化其PR描述,直至找到能绕过审查的“完美说辞”。
防守方只有一次机会:在真实的PR提交中,防守方的审查系统通常只有一次判断机会。 这种“攻可无限试错,守仅一次判断”的格局,极大地放大了偏见攻击的威胁。
防御策略:在安全与效率间寻求平衡
研究评估了多种去偏见策略的有效性:
对于交互式助手(如GitHub Copilot):在查询中明确指令模型“忽略PR元数据,仅分析代码差异”,被证明可以100%恢复被偏见掩盖的检测能力。但这需要用户改变习惯,增加了操作摩擦。
对于自主智能体(如Claude Code):
简单删除PR描述,可恢复约69%的漏报检测。
在此基础上叠加显式忽略元数据的指令,恢复率可提升至94%。
系统性建议:
短期:对来自不受信任贡献者的PR,考虑在CI流水线中暂时禁用安全导向的ACR,回归人工审查。
中期:探索代码标识符混淆、基于已知漏洞模式的变更对比等辅助技术。
长期:需要LLM提供商和工具开发者从模型训练、微调和系统设计层面,根本性地缓解确认偏见。
结论与启示
这项研究超越了单纯指出“LLM存在偏见”的层面,它系统地将其转化为一个可量化、可复现、可实际利用的软件供应链攻击面。核心启示有三:
确认偏见是系统性的失效模式,而非偶然错误,在部署LLM辅助审查时必须将其作为关键风险考量。
攻击成本极低,收益极高:攻击者无需破解模型,仅需精心撰写提交信息,就可能让自动化防线形同虚设。
去偏见有代价:最有效的防御措施(如忽略元数据)会牺牲工作流流畅性和上下文理解,需要在安全性与开发效率之间审慎权衡。
随着AI辅助开发工具的普及,将LLM代码审查视为安全关键组件,并对其在对抗性环境下的失效模式保持清醒认知,已成为一项紧迫任务。信任工具,但必须理解其信任的边界——这是AI时代软件供应链安全的新必修课。


