现在搞AI的人都清楚,芯片越厉害发热就越严重,英伟达最新的GB300一张卡就能达到1500瓦,整个柜子堆起来差不多200千瓦,以前靠风扇吹风散热的老办法最多支持到40千瓦就到头了,再往上机房的温度就会直接超标根本没法用,这是关系到系统能不能继续运行的问题。

谷歌的做法更彻底,他们自己研发的TPU V7芯片,每颗功耗超过1000瓦,没有采用最先进的制造工艺,性能赶不上英伟达的产品,只好依靠散热系统硬撑过去,结果整个数据中心都改用液冷方案,一点余地都没留,这个策略其实很巧妙——既然芯片比不过别人,就从整体系统上想办法弥补,反正省下来的电费比买新芯片还划算。
说到省钱,PUE这个数字现在比芯片参数更重要,风冷的PUE一般在1.5以上,液冷可以压到1.1以下,一座100兆瓦的智算中心每年能省下一亿多度电,这不是个小数目,省下的电费足够再建一个小数据中心,空间利用率也更高,同样面积能放更多服务器,投资成本自然就降了,说白了,谁先掌握液冷技术,谁就能在成本上领先。
国内供应链这两年动作很快,永杰新材给英伟达供应液冷板材料,用的是铝合金,已经批量出货,新宙邦和东阳光合作开发氟化液,耐高温还绝缘,连ASML都认可,中芯国际也在使用,这种技术还能跨界用在新能源电池上,宁德时代已经在应用,技术复用这件事,真不是谁都能轻松做好的。
汉钟精机的磁悬浮压缩机,开始进入秦淮数据和世纪互联这些大厂的机房,预计到2025年这块业务的增长能超过30%,科华数据去年交付了15亿元的运营商项目,他们的模块化液冷方案让整体成本降低了20%,英维克从冷板到冷却液再到监控系统,提供一条龙服务,支持单芯片1500瓦以上的散热,漏液率几乎可以忽略不计,客户包括英伟达、腾讯和阿里。
很多人觉得液冷就是加个水冷管,实际上事情要复杂得多,CDU这种设备每台能卖到几万元,一个万卡集群得配上几百台,冷却液需要定期更换,泵和阀门也得做维护,再加上智能监控系统,每年都能带来稳定收入,这样就把一次性工程转成了长期服务,厂家赚的不只是设备费用,更是运维服务的钱。
这一轮变化不是靠补贴推动的,也没有人喊口号,完全是被功耗问题逼出来的,风冷技术已经不够用了,液冷就成了必须采用的选择,如果不更换技术方案,就没办法实现大规模算力,现在还在用风冷的数据中心基本等于在烧钱,液冷已经不是锦上添花的事,而是进入这个领域的基本条件,没有液冷技术的话,参与AI竞争连门槛都够不到。
说实话,我很佩服那些提前做规划的企业,他们没等到政策出来才开始行动,也没在市场热闹起来后才动手,而是看到趋势就马上投入,哪怕前期需要很多投入,但后面的回报却很稳定,现在回头看,那些犹豫的人早就被甩开很远了。
科力达15年专注于工业冷水机研发、生产与服务,根据各种工业生产加工设备特点研制精密冷水机,性能稳定,操作简单,高效节能。广泛应用于以半导体,CO2 ,YAG,光纤等为工作介质的激光加工设备。以及应用于其它工业方面:如医药、生物、化工、食品、饮料、塑胶、电子、纺织、化纤、电镀、超声波、机械加工、特种铸造、焊接、造纸、复合材料、水处理、印刷等行业。咨询冷水机>>>www.kldjm.com