谷歌云服务大规模中断事件溯源，API 管理系统故障引发全球瘫痪 - 网络安全

2025年6月12日，谷歌云（Google Cloud）遭遇近年来最严重的服务中断事件，其API管理系统出现关键故障，导致全球数十项服务瘫痪长达七小时。此次事故源于服务控制（Service Control）二进制文件中出现的空指针异常，该组件负责管理API授权和配额策略，影响范围覆盖谷歌云平台（GCP）和Google Workspace产品的数百万用户。

二进制文件崩溃引发全球故障

故障根源在于谷歌的服务控制系统——这个区域性服务负责在基础设施中授权API请求并执行配额策略。2025年5月29日，工程师部署了新增配额策略检查功能，但相关代码既缺乏完善的错误处理机制，也未启用功能标志（feature flag）保护。

危机爆发的直接原因是：包含意外空白字段的策略变更被写入服务控制系统依赖的区域性Spanner数据库表。由于配额管理具有全球同步特性，这些损坏的元数据在几秒内就完成了全球复制。当服务控制系统尝试处理这些空白字段时，触发了未受保护的代码路径，导致空指针异常，最终引发所有区域二进制文件同时进入崩溃循环状态。

"本次变更的根本问题在于既没有配置适当的错误处理机制，也没有启用功能标志保护。由于缺乏错误处理，空指针直接导致二进制文件崩溃。"谷歌在事故报告中解释道。

网站可靠性工程（SRE）团队在10分钟内定位到根本原因，并在40分钟内部署了"红色按钮"紧急终止开关，关闭问题服务路径。虽然大部分区域在两小时内恢复，但us-central1区域却遭遇持续性问题——当服务控制任务在这个主要区域重启时，对底层Spanner基础设施形成"羊群效应"，海量并发请求导致数据库不堪重负。

工程师发现服务控制系统缺乏预防级联故障的随机指数退避机制。谷歌不得不限制任务创建，并将流量路由至多区域数据库以减轻过载基础设施的压力。这一延长恢复过程影响了包括谷歌计算引擎（Compute Engine）、BigQuery、云存储（Cloud Storage）在内的核心服务，这些产品构成众多企业数字业务的基石。