1.44E算力全球首个生产级GB300 NVL72超算集群正式上线 - 数据中心

微软Azure宣布全球首个生产级NVIDIA GB300 NVL72超算集群正式上线。该集群专为OpenAI的工作负载量身定制，将加速多万亿参数模型的开发和部署。

超级集群

该GB300 NVL72集群规模宏大，集成了超过4600个NVIDIA Blackwell Ultra GPU（换算下来应该是64台GB300 NVL72），通过NVIDIA Quantum-X800 InfiniBand网络平台实现互联，形成一个统一的加速器系统。

集群每个机架级系统（NVL72）包含72个Blackwell Ultra GPU和36个NVIDIA Grace CPU，总计37TB快速内存，提供1.44 exaflops（每秒1.44亿亿次浮点运算）的FP4 Tensor Core性能。

在机架内部，第五代NVIDIA NVLink Switch实现了130 TB/s的全对全带宽，确保高效的数据传输。在网络方面，该集群采用全胖树（fat-tree）非阻塞架构，每GPU提供800 Gb/s的跨机架带宽，支持数万个GPU的无缝扩展。

此外，NVIDIA引入了自定义协议、集体库和SHARP v4（Scalable Hierarchical Aggregation and Reduction Protocol），进一步加速集体操作并提升有效带宽一倍。

超级能效

该系统还优化了功耗管理，通过集成电解电容器的电源供应单元（PSU）实现功率平滑，减少电网波动。在稳态运行中，能量存储系统可在峰值时放电、在低谷时充电，降低峰值电网需求高达30%，并避免电压尖峰或骤降等问题。

性能基准测试显示，该集群在MLPerf Inference v5.1中创下纪录，例如在6710亿参数的DeepSeek-R1推理模型上，每GPU吞吐量比NVIDIA Hopper架构高出5倍。它支持训练周期从数月缩短至数周，并处理数百万亿参数的模型，特别适用于推理模型、代理AI系统和多模态生成AI。

GB300 NVL72采用全技术和独立热交换器，显著降低冷却能耗，同时最小化水资源消耗。这对构建绿色、高效设施时具有启发意义。未来，微软计划将Blackwell Ultra GPU扩展至数十万个，覆盖全球AI数据中心。

“超算”？

微软并没有明确该集群部署的具体地点，只是声称该集群部署在微软Azure的全球AI数据中心网络中，并强调了“全球部署”（worldwide deployments），且计划在多个地区扩展。

微软Azure与NVIDIA的深度合作由来已久。虽然微软没有直接参与“星际之门”计划，但Azure一直持续的为OpenAI提供算力支撑服务。此次部署也是双方在硬件、系统、供应链和设施等多领域的共同成果。

微软自身与多家行业媒体，均称呼该集群为“超级计算集群（Supercomputing Cluster）”，但有别于传统的超级计算机。

传统超算，如“天河二号”或美国“Frontier”等，计算精度通常为常以FP64或FP32，这是因为科学计算（如气候模拟、分子动力学、流体力学）需要高精度以确保结果的准确性。如TOP500榜单的标准测试HPL（High Performance Linpack）基于FP64，强调数值稳定性。

而GB300 NVL72集群的主打精度为FP4，单机架提供1.44 exaflops的FP4 Tensor Core性能，专为AI训练和推理优化。AI负载对精度要求低，而降低精度又能显著提升计算效率，因此新的AI芯片精度普遍采用低精度模式。

不过，精度低并不意味着技术含量低。微软Azure的NVIDIA GB300 NVL72集群因其exaflops级性能、高并行架构、AI优化设计和先进能效管理，毫无疑问称得起是一台超级计算机，也是当前AI超算的新标杆。

1.44E算力全球首个生产级GB300 NVL72超算集群正式上线
2025-10-16 网络安全和运维

延伸阅读

热文

1.44E算力 全球首个生产级GB300 NVL72超算集群正式上线 2025-10-16 网络安全和运维

延伸阅读

热文

1.44E算力全球首个生产级GB300 NVL72超算集群正式上线
2025-10-16 网络安全和运维