文|杨俊、真梓
(资料图片)
数据中心作为数字经济的基础产业,承载着大量的计算、存储等需求。
但随着云计算、AI 的发展,传统数据中心出现了资源利用率低、无法满足用户需求等情况。
河南联通枢纽局就曾面临这样的问题。
河南联通郑州第二长途枢纽局建设于 2002 年,是国家通信干线重要的网络组成部分。随着业务增长,传统小规模老旧机房由于机房空间有限,供配电、暖通等系统陈旧且能耗高,逐步难以承接大规模计算、存储和传输业务。同时,在国家碳达峰、碳中和战略的背景下,数据中心作为能耗大户,还要顾及节能减排的重要任务。
痛点在前,从 2021 年开始,中国联通河南分公司联合中兴通讯等多方合作,进行数据中心的改造计划。改造计划包括采用 VRM 智能双循环氟泵多联空调、iDCIM 系统和智能母线等方案,使老旧数据中心机房空间利用率得到提高的同时,也大幅降低能耗。
数据中心的 PUE 值,也就是电能利用效率反映了数据中心的能效水平。这个值大于 1,越接近 1 表明非 IT 设备耗能越少,即机房的能效水平越好。经过此次改造,二长数据中心的 PUE 值从原来的 1.6X 下降到 1.3X,能效水平得到提升。此外,部署 iDCIM 管理系统,帮助二长数据中心提升 20% 资源利用率,增强运维能力,减少 50% 运维工时,实现高效低成本运维。
" 目前我们的综合 PUE 下降了 15%。" 河南联通高级工程师雷宇介绍," 采用 VRM 智能双循环氟泵多联空调以后,也解决了我们室外机没有地方放的问题。解决高落差机房空调的问题,节能效率提升 50%。"
近期,河南联通高级工程师雷宇、中兴通讯数据中心国内市场总监马涛以及中兴通讯数据中心中国运营商市场总监张伟和 36 氪等多家机构分享了河南联通郑州第二长途枢纽局的改造情况和经验。
以下内容经编辑整理:
Q:河南联通郑州第二长途枢纽局为什么会进行此次改造?具体有哪些方面的提升?
雷宇:郑州第二长途枢纽局现在已经 20 年。这个数据中心有几个特点,一是楼层非常高,另外设备也都比较旧。这栋楼在最初设计的时候,一些承重以及中间的隔断都不太符合新型数据中心的部分标准,只适用于此前的低功率机柜,另外在管理方面相对比较分散。
从节能减排方面的提升来看,此前二长数据中心最大的功耗只能到 1、2KW。室外机都在北边的钢梁上,因为室外机的密度太大,所以很容易造成热导效应。当室外温度高于 25 度到 35 度以上,室外机基本上都会进行热保护导致空调停机。而经过改造后,采用 VRM 空调,首先它的 V 字型室外机造型,整体空间比较小,可以集中放置。其次通过目前的空调以及风力热通道,整体的 PUE 达到近 1.3。相比于此前的 1.6 左右,效果提升了不少。另外通过目前的 iDCIM 系统,可以实现 AI 调节能耗,通过一些自动的温控调节,避免了一些因为人为误操作造成的不必要损失,温控调节变得更加的智能,也达到节能的效果。
而且经过改造升级之后,目前无论是用电还是空调使用都是达到了国 A 标准。现在采用的精确送风,在机柜功率密度可以达到六千瓦,是原来的几倍。因此我们可以承接一些新的更高算力的业务。通过采用智能母线方案,模块化设计与装配,省去传统的列头柜。项目当前建设机柜总计 1420 个,部署智能母线方案后机房的出柜率提高约 6% 以上。
此前我们的机柜是两米左右,可能放不下一台服务器,但现在可以放两到三台,空间上的整体效益得到了成倍的增长。
下一步将继续在效率提升方面发力,从以前的普通算力向智算方面融合。
Q:目前 AI 迅速发展,对于算力的需求越来越高,二长数据中心对于未来算力需求的加速有什么考量?
雷宇:算力除了计算能力,带宽也是非常重要的。带宽方面,我们采用了业界最先进的 400G 以上的高性能的路由器,在数据传输方面提供超宽通道。
在计算能力方面,目前经过改造之后,业务承接得到提升,我们也在逐步引进智算需求服务,包括前一段洽谈的字节跳动的需求,还有联通自用的部分公有云的智算。而且目前和华为、百度、小米的合作洽谈都在跟进中,我们未来会将智算业务进一步提升。
Q:目前越来越多的企业在开发大模型或利用大模型做项目,二长数据中心经过改造后,可以对这些企业提供哪些帮助?
雷宇:此前运营商的业务主要集中于代理商卖带宽,卖机架等,相当于卖资源。而目前经过提升智算能力之后,可以改变算力服务的商业模式,我们也可以通过承接 AI 训练等需求开展一些新的业务。比如一些做大模型或通过大模型做应用的 AI 公司可以把这些训练量承包给我们这种智算企业,这样我们就可以从卖资源向卖算力,承接训练量来开展新的业务。而且这可以避免业内重复建设数据中心,这些企业只需要专注于 AI 应用就可以。而我们既有 " 云 " 的能力也有 " 网 " 的能力,在这方面有独特的优势。
Q:在改造过程中有遇到哪些难点?又是如何解决的?
马涛:对于老旧机房改造相比新建数据中心会面临一些挑战,新建的数据中心一般会提前做好基建,规划设计。而老旧机房的机房是已经按照原来的基建做好的,现在需要对老旧机房做新的技术应用,这就会受到限制,比如楼层高度以及单层的净高。另外内部布局、室外空间以及一些楼层之间的管线对于数据中心的改造都带来极大的挑战。
其实我们在改造的项目当中,一般从几个方面去解决相关的问题。第一,在进行前期的方案设计。前期需要结合项目的实际情况,充分做好项目的场地工勘,充分做好相关方案的认证,包括客户侧、外部的一些资源的联合的评审。在设计阶段,项目的方案最优化,尽量能够提前识别出可能存在的一些问题。
第二,在重要的项目施工前,需要保障部分参数的实际性落地,会借助一些相应的手段进行相关的论证。包括采用 BIM 仿真后,再在项目中进行实施。另外通过建立模型,通过模型识别可能出现的一些故障问题。比如说管线是否可以从这里布局,会不会有什么影响,尽可能减少项目中施工的问题,减少故障率,这也可以缩短项目执行的周期。
第三,项目改造过程中可能会产生相关的供应工序问题。数据中心改造需要的人员、物料很多,如何安排物料的顺序、协调供应商供货的时间,这些都是常见的问题。我们会依托于强大的供应链资源,包括人员驻场,货物的及时达到,以及对现场设定合理的施工工序,避免出现问题。
最后是项目的管理,中兴通讯的管理系统,在一些项目当中,会采用 AI 技术实现智慧工地,对施工过程做一个最大化的管理,减少风险。
这些是一些常见的问题和解决办法。一些典型的问题,比如吊装的时候预见一些暴雨,或者是一些比较恶劣的天气,对室外施工带来很大挑战,对这种情况我们肯定会结合项目情况进行相关调整。
Q:如何看待当下很多数据中心都在采用液冷服务器?如何看待目前的液冷技术?
马涛:首先液冷方面是大势所趋,目前相关的智算,大模型,AI 等所需的算力要求单机的功率密度很大,在此后的大模型训练中,机柜的功耗需求可能在 20 千瓦近 30 千瓦,甚至 50 千瓦以上,针对这种高密度需求,机柜采用传统的风冷技术是没法实现的。
针对液冷来说,目前在业界主流的散热技术,一个是冷板式,一个是浸没式,第三个就是喷淋式。
这三种技术,目前产业链最成熟、使用案例最多的是冷板式液冷。冷板式液冷能够适配于 20 千瓦到 60 千瓦的单机柜的功率密度范围。中兴通讯目前主要集中在冷板式液冷研发上。针对冷板式液冷,我们已经推出了自研的 300 千瓦 CDU。
针对不同场景下的智算、超算比较好的解决方案也是冷板式液冷。所以中兴通讯也会继续关注液冷技术的发展,也会和客户一起探索、研究,推动全域的发展。
张伟:关于液冷我补充一个数据。今年北京通信展上,三大运营商发布了液冷白皮书。其指出在 2023 年要进行液冷技术验证,2024 年进行规模测试,且针对明年新增的算力里的 10% 要采用液冷技术。在 2025 年使用比例要达到 50% 以上。所以液冷的趋势以及产业链完善程度是不断向前推进的。
关键词: