2023年度液冷基础设施市场份额达到61.3%,连续3年蝉联行业榜首,根据《液冷数据中心白皮书》,曙光数创再次交出亮眼成绩单。
智算快速发展环境下,其实不止曙光数创,整个行业的液冷正呈现高速发展态势。曙光数创副总裁兼CTO张鹏博士在接受采访时预测:“液冷整体渗透率目前并不高,不超过10%,但未来3到5年这个比例将快速提高,有望达到30%甚至40%。”《中国液冷数据中心市场深度研究报告》也显示,目前中国液冷数据中心市场快速发展,预计到2027年,液冷市场将以60%的复合增长率,突破千亿规模。
液冷的两种主要技术路线——冷板式与浸没式的发展趋势如何,目前挑战是什么,如何应对等成为行业热议话题。
液冷是高效散热必需,
大模型等人工智能快速发展下,智算产业迅速拓展,据中国信通院统计,截至2023年底,我国智算规模约69 EFLOPS,相较于2023年6月的50EFLOPS,半年时间规模增加38%,但在推动数据中心产业的同时,也给数据中心散热带来巨大挑战。
GPU芯片功率不断提升,高密度成为发展趋势。风冷有其制冷极限,无法满足服务器及数据中心的散热要求,而同体积液体带走的热量是同体积空气的3000倍以上,能够高效降温,保证芯片的安全运行。因此,液冷被公认为是算力基础设施的标配与必然选择。
在此基础上,液冷应用的成本不断降低。张鹏表示,经过测算,当数据中心机架部署密度超过10kW后,冷板式液冷系统的初始投资已经低于风冷,并且随着运行时间的增长,TCO(总体拥有成本)优势会更为明显。液冷还能够促进节能减碳,其高效率制冷的能力可大幅度减少散热的电能消耗,让数据中心实现低PUE,符合政策要求与绿色化发展趋势。
尤为值得注意的是,液冷能够激活计算的潜能,这也是其真正价值所在。张鹏指出,GPU频率是可变的,如果制冷能力不足,为了安全稳定的运行,GPU就需要降频,而这就影响了计算能力。换句话说,散热能力差束缚了芯片算力的输出。液冷可高效地解决这一问题,确保芯片计算能力的全火力输出。“以某国产CPU芯片为例,风冷条件下2.4GHz的CPU在相变浸没液冷环境下主频可达到3.2GHz,处理速度提升超过30%!”张鹏说。
这些均推动了液冷应用的快速发展,行业客户逐步增多,包括互联网、运营商、金融等,同时,相较于改造,目前液冷的使用主要以新增的数据中心为主。张鹏表示,改造面临很多现实问题,如维保需要结合数据中心现有情况提供更完善的方案,可靠性需进行综合考量;如服务器有着一定的使用年限,改造投入后,企业收益能否覆盖成本、满足商业需要也存在一定疑虑。
冷板式是当前主流,
面向大模型的智算需求,为释放芯片算力,液冷已经成为大趋势。从目前应用情况来看,冷板式是液冷主流。张鹏指出,目前冷板式在液冷市场约占大概80%到90%,这是因为冷板式的成本更低,产业链也更为成熟,同时,冷板式与风冷在运维上差异较小,使用习惯一致,市场接受程度更高。
与之相对应的,浸没式的运维逻辑不同,比如风冷中没有换液等运维步骤,考虑到浸没式的成本与后续运维,张鹏直言,目前小型数据中心不推荐上浸没式,大型数据中心可以承担较多的成本压力,还可配置专门的液冷运维操作间,更适宜使用浸没式。
不过这并不代表浸没式“止步于此”,伴随着芯片功率的提升,冷却效率还要进一步提升,这将推动浸没式,准确地说是加快相变浸没式的广泛应用。
据了解,国内CPU芯片功率已经达到400W,而英伟达2024年3月最新推出的B200芯片相比H100虽然算力能源效率提升了约25倍,但芯片功耗也将超过1000W。张鹏表示,相变浸没式的冷却效率要高于冷板式与单相浸没式,更适合高功率的芯片散热需求,或是终极液冷出路。
不仅如此,相较于冷板式,浸没式还有多项优势。如浸没式是一站式解决方案,可靠性高,对环境的依赖性小,能够很好的防潮防尘。同时,在服务器更新的时候,强耦合的冷板式也会被替换,浸没式则只需要替换冷媒,这使得在成本方面浸没式也会逐步显示出优势。
浸没式应用推广面临多项挑战,
技术的大规模应用转化需要成熟的技术与产业链的支撑,液冷同样如此。
具体来看,冷板式在技术上已经实现了多项突破,目前面临的挑战主要是产业链方面的,包括如何推动产品的成熟,更好的降本增效,提升可靠性等,这意味着整个行业的发展,也是挑战。浸没式则处于技术创新突破的时期,其技术门槛极高,目前依旧有多项技术问题没有解决,且并非短时间内就可以解决。
这点从曙光数创的发展便能体现出来,自2011年提出液冷技术路线并启动相关技术研究,到2017年浸没式液冷才对外应用,曙光数创历经6年才实现了浸没技术的商用化,这其中有多项关键技术的突破。
以浸没冷媒为例,经过长期自主研发,曙光浸没相变液冷计算机所使用的冷媒——电子氟化液已经迭代到第三代,实现了诸多创新,具有高绝缘、低沸点、大潜热、稳定性高、低粘度、安全性、以及环境友好(无臭氧破坏、温室效应低)等特性,可支持浸没相变液冷系统生命周期内可靠稳定运行。
也正是依托技术上的长期研发突破,曙光数创的相变浸没液冷才能够不断应用推广,成为目前国内唯一实现全浸式液体相变冷却大规模商业化部署的企业,在重庆和多个东部一二线城市均有相变浸没式数据中心的建设实践。
面对未来更高功率的散热要求,针对不同产业的差异化需求,浸没式技术还要进行更深入的发展,需要企业从多方面来进行优化。
首先,需要大量的研发投入。以曙光数创为例,其以技术为导向,持续研发投入,根据财报来看,2023年研发投入共计6825.33万元,2024年第一季度研发费用总额超1440万元,相较于2023年第一季度同比增长超过4%。通过大量的研发投入,曙光数创有效优化了液冷散热技术,实现了高效可靠的全栈基础设施解决方案全场景覆盖。截至2023年末,曙光数创拥有已授权相关专利135项,包含发明专利38项,软著45项,其中与液冷相关的专利104项,软著27项,在审发明专利31项。
其次,需要为生产做好准备。如曙光数创在山东青岛建设了目前我国规模最大的液冷数据中心全链条产业创新基地,且已正式投产。该基地囊括研发、生产和保障三大功能区,拥有七大研发创新实验室和四条先进生产线,实现专业的全链条、一站式系统解决方案的创新研发和生产,能够有效降本增效,提升交付能力,提高保密性,推动生产发展。
最后,需要时刻跟随客户需求。不同的企业在应用液冷的过程中有差异化需求,如金融业对安全性的高要求,要求液冷厂商能够依托自身技术与产品持续优化发展,以更契合客户的发展需要,促进算力的有效供给。
综合来看,液冷是智算快速发展趋势下散热的标配与必需品,能够有效释放芯片的计算能力,并且伴随芯片功率的持续提升,液冷未来的发展方向是浸没式,但浸没式目前在技术与产业发展上依旧存在诸多挑战,需要围绕客户需求,加大研发投入,完善产业链做好生产准备,最终满足不同客户对液冷的差异化需求,推动算力建设,加快智能化、数字化发展。