扫一扫
关注微信公众号

1.44E算力 全球首个生产级GB300 NVL72超算集群正式上线
2025-10-16   网络安全和运维

微软Azure宣布全球首个生产级NVIDIA GB300 NVL72超算集群正式上线。该集群专为OpenAI的工作负载量身定制,将加速多万亿参数模型的开发和部署。

超级集群

该GB300 NVL72集群规模宏大,集成了超过4600个NVIDIA Blackwell Ultra GPU(换算下来应该是64台GB300 NVL72),通过NVIDIA Quantum-X800 InfiniBand网络平台实现互联,形成一个统一的加速器系统。

1

集群每个机架级系统(NVL72)包含72个Blackwell Ultra GPU和36个NVIDIA Grace CPU,总计37TB快速内存,提供1.44 exaflops(每秒1.44亿亿次浮点运算)的FP4 Tensor Core性能

在机架内部,第五代NVIDIA NVLink Switch实现了130 TB/s的全对全带宽,确保高效的数据传输。在网络方面,该集群采用全胖树(fat-tree)非阻塞架构,每GPU提供800 Gb/s的跨机架带宽,支持数万个GPU的无缝扩展。

2

此外,NVIDIA引入了自定义协议、集体库和SHARP v4(Scalable Hierarchical Aggregation and Reduction Protocol),进一步加速集体操作并提升有效带宽一倍。

超级能效

该系统还优化了功耗管理,通过集成电解电容器的电源供应单元(PSU)实现功率平滑,减少电网波动。 在稳态运行中,能量存储系统可在峰值时放电、在低谷时充电,降低峰值电网需求高达30%,并避免电压尖峰或骤降等问题。

3

性能基准测试显示,该集群在MLPerf Inference v5.1中创下纪录,例如在6710亿参数的DeepSeek-R1推理模型上,每GPU吞吐量比NVIDIA Hopper架构高出5倍。它支持训练周期从数月缩短至数周,并处理数百万亿参数的模型,特别适用于推理模型、代理AI系统和多模态生成AI。

4

GB300 NVL72采用全技术和独立热交换器,显著降低冷却能耗,同时最小化水资源消耗。这对构建绿色、高效设施时具有启发意义。未来,微软计划将Blackwell Ultra GPU扩展至数十万个,覆盖全球AI数据中心

“超算”?

微软并没有明确该集群部署的具体地点,只是声称该集群部署在微软Azure的全球AI数据中心网络中,并强调了“全球部署”(worldwide deployments),且计划在多个地区扩展。

微软Azure与NVIDIA的深度合作由来已久。虽然微软没有直接参与“星际之门”计划,但Azure一直持续的为OpenAI提供算力支撑服务。此次部署也是双方在硬件、系统、供应链和设施等多领域的共同成果。

微软自身与多家行业媒体,均称呼该集群为“超级计算集群(Supercomputing Cluster)”,但有别于传统的超级计算机。

传统超算,如“天河二号”或美国“Frontier”等,计算精度通常为常以FP64或FP32,这是因为科学计算(如气候模拟、分子动力学、流体力学)需要高精度以确保结果的准确性。如TOP500榜单的标准测试HPL(High Performance Linpack)基于FP64,强调数值稳定性。

而GB300 NVL72集群的主打精度为FP4,单机架提供1.44 exaflops的FP4 Tensor Core性能,专为AI训练和推理优化。AI负载对精度要求低,而降低精度又能显著提升计算效率,因此新的AI芯片精度普遍采用低精度模式。

不过,精度低并不意味着技术含量低。微软Azure的NVIDIA GB300 NVL72集群因其exaflops级性能、高并行架构、AI优化设计和先进能效管理,毫无疑问称得起是一台超级计算机,也是当前AI超算的新标杆。

热词搜索:算力 超算

上一篇:数据港总裁王信菁:算力的价值,在“绿色”中见真章
下一篇:最后一页

分享到: 收藏