0引言

当前,全球数字经济高速发展,数字化转型加速推进。在线办公、智能驾驶等智能化数字应用不断涌现,极大地推动了生产力向前发展,提升了社会总体生产效率。数字应用场景的落地离不开算力的支撑,数据中心是融合计算、存储和网络能力,对外提供高性能算力的核心载体,也是承载各类信息技术应用,推动数字经济发展的重要底座[1]。美日欧等世界主要国家和地区均在加速推动数据中心建设,通过政策引领、资金扶持等手段促进算力产业发展。如图1所示,截至2021年年底,全球算力总规模达到521 EFLOPS(FP32),美、中、日、德、英算力规模位居世界前列,分别占比31%、27%、5%、4%、3%[2]。笔者重点对数据中心算力布局、算力类型、算力网络、算力运维、算力调度、绿色低碳和算力赋能等方面进行分析和研究,以期为算力技术与产业发展提供借鉴。

图1 2021年全球算力规模情况


(资料图片)

1 发展现状

1.1 我国整体情况

近年来,我国数据中心机架规模快速增长。中国信息通信研究院统计数据显示,截至2022年年底,我国在用数据中心机架总规模超过650 万标准机架,算力总规模为180 EFLOPS(FP32),近五年年均增速超过30%,算力规模排名全球第二。

长期以来,我国数据中心呈现东密西疏、东多西少的布局特点。我国东部地区数字化转型进程较快,数字经济发展水平较高;而西部地区数字化转型进程相对缓慢,算力需求相对较低。从省市数据来看,江苏、上海、广东、河北算力规模较高,均超过10 EFLOPS(FP32)。北京、浙江、贵州、山东、内蒙古算力规模处于第二梯队,均超过5 EFLOPS(FP32)[3]。在数据中心总体规模增长的同时,我国数据中心行业市场收入也在不断提升。2022年,我国数据中心行业市场收入近2 000 亿元,近三年年均复合增长率达到30.69%[4]。未来,随着我国各地区、各行业数字化转型的深入推进,数据中心市场有望持续保持增长态势。

1.2 各枢纽情况

“东数西算”工程通过设立八大枢纽节点和十大数据中心集群引导我国数据中心产业均衡布局、协同一体发展。枢纽节点的选取过程充分考察了各地区资源、能源、气候等地理自然因素以及各地区算力需求状况,在此基础上确立了京津冀、长三角、粤港澳大湾区、成渝、贵州、内蒙古、甘肃、宁夏八大枢纽节点。其中,京津冀、长三角、粤港澳大湾区、成渝枢纽节点的数字化转型程度较高,算力需求旺盛,数据中心可重点支撑工业互联网、金融证券、灾害预警等高频实时交互的业务需求;贵州、内蒙古、甘肃、宁夏等西部节点自然资源充沛、气候适宜,适合开展数据中心的绿色低碳化建设,可重点承接全国范围的渲染加工、离线分析、存储备份等非实时算力需求。

目前,八大枢纽均在积极推动数据中心相关项目落地,并构建完善的算力产业生态,全面提升本地区算力服务水平。具体来看,长三角枢纽芜湖集群已签约投建多个算力项目,如推动中国电信全国一体化算力网络长三角国家枢纽节点芜湖数据中心集群建设运营,依托珑腾数据打造围绕无人驾驶、人工智能、云计算的高新算力服务产业园,依托安恒信息投资建设“数盾”产线长三角总部基地,保障算力服务可靠安全等;粤港澳大湾区枢纽韶关集群开展《韶关数据中心集群产业发展规划》等编制工作,积极培育上下游产业;宁夏枢纽重视集群高质量发展,2022年8月,北京市通信管理局、宁夏回族自治区通信管理局、中国信息通信研究院等单位联合主办“全国一体化算力网络国家枢纽节点(北京·宁夏)高质量发展研讨会”,研究探讨全国一体化算力网络国家枢纽节点建设的新问题、新趋势,推动信息通信行业数字化转型。

1.3 非枢纽情况

《全国一体化大数据中心协同创新体系算力枢纽实施方案》对枢纽节点以外地区数据中心建设的发展方向也给出了相应指引:对国家枢纽节点以外地区,要重点建设面向本地区业务需求的数据中心;根据发展需要,适时增加国家枢纽节点。随着我国数字化转型的深入推进,越来越多的非枢纽节点地区认识到了发展数字经济、加强数据中心算力基础设施建设的重要性,纷纷强化本地区算力产业的政策引领和产业扶持,打造具有地方特色、辐射周边区域的数据中心产业集群,成为“东数西算”工程下非枢纽节点全国一体化算力网络建设的重要补充。

2 发展特点与趋势

2.1 多类算力并驾齐驱

2.1.1 通用算力

通用算力是以中央处理器(Central Processing Unit,CPU)为基础构成,以通用数据中心为承载主体,通过CPU提供强大的业务流程逻辑处理能力。同时,通用算力可实现计算、存储、网络、安全等功能的高效协同,面向电子商务、即时通信、远程办公等互联网应用提供算力服务,是一种应用最为普遍的算力服务形态。在我国总体算力构成中,通用算力规模占比最高,超过70%。随着数字化转型的深入推进和数字经济的快速发展,通用算力规模总量仍将进一步提升。但通用数据中心增速预期将低于智算算力,整体占比或有所下降。

2.1.2 智算算力

智算算力是以图形处理器(Graphics Processing Unit,GPU)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)、专用集成电路(Application Specific Integrated Circuit,ASIC)等异构计算芯片为基础构成,以智算中心为承载主体,通过GPU等异构芯片提供高并发、大规模的并行计算和矩阵运算能力,具备渲染、推理和模拟能力,可面向智能驾驶、人脸识别等人工智能应用提供智算服务的一种算力服务形态。我国智算算力发展起步较晚,但随着人工智能应用的兴起,智算算力发展非常迅速。未来,智算算力将成为全球算力竞争的关键赛道。相对欧美国家,我国在GPU等异构芯片研发生产方面处于劣势,智算算力发展存在潜在风险,亟需强化智算算力技术和产业投入,提升智算能力。

2.1.3 边缘算力

边缘算力是指靠近用户侧,实时性较高的算力服务形态,以边缘数据中心或边缘机房为主要承载主体,可部署于工厂厂房、楼顶、车间等位置,由于厂房、楼顶等位置相对狭小,且空间环境相对复杂,因此边缘服务器规格通常较小[5]。随着工业互联网、智慧城市等智能应用场景的不断扩展,以及智能终端传感设备、移动通信设备的快速发展,边缘算力需求也在不断提升,进一步激发了边缘算力市场的发展。

尽管边缘计算具有敏捷性、便捷性等特征,能够就近提供算力支持,但是其算力规模通常较小,难以满足算力需求较高的应用,因此在实际的算力应用中通常采用云边协同的算力供给方案。云边协同是一种协同利用云端算力和边缘算力,为用户提供算力服务的形式,同时兼具云端算力规模大、可靠性强、边缘算力靠近用户、敏捷性高等特点,可更好地满足高实时性、大数据量的算力需求场景。

2.2 算力网络日渐重要

2.2.1 数据中心网络

数据中心网络(Data Center Networking,DCN)通常是指数据中心内部网络,主要用于实现数据中心内计算、存储设备间的数据传输,以及数据中心内外部数据交互。随着计算和存储资源的池化和虚拟化发展,数据中心承载业务需求快速提升,计算设备、存储设备间的数据交互变得更加频繁,东西向流量快速增长,DCN性能要求不断提升。在网络架构上,大二层胖树结构在数据中心内得到了广泛应用,蜻蜓(Gragonfly)、偶图(BiGraph)等架构也有一些部署。

高性能DCN成为重要研究方向。在传统DCN网络中,服务器间主要采用无限带宽(InfiniBand,IB)网络连接,服务器与存储设备间主要采用光纤通道(Fibre Channel,FC)网络连接,前端网络则以网际互连协议(Internet Protocol,IP)网络为主,这种差异化的网络连接形式不利于提升数据中心内的数据传输效率。同时,IB和FC具有较高的网络建设与运维成本以及受限的供应情况,一定程度上影响了数据中心网络的高效部署。为了进一步提升计算设备间、算存设备间的数据传输和交互能力,中国信息通信研究院、中国电信集团有限公司、中国移动通信集团有限公司、深圳市腾讯计算机系统有限公司(简称腾讯)、百度在线网络技术(北京)有限公司(简称百度)和华为技术有限公司(简称华为)等单位积极推动数据中心高性能网络研究,在IEEE 802面向下一个十年工业连接活动的网络增强(Network Enhancements for the Next Decade Industry Connections Activity,Nendica)工作组发布了《IEEE 802 Nendica报告:数据中心无损网络》(IEEE 802 Nendica Report: The Lossless Network for Data Centers)和《IEEE 802 Nendica报告:智能无损数据中心网络》(IEEE 802 Nendica Report: Intelligent Lossless Data Center Networks)两份白皮书,在国内发布了YD/T 4026-2022《基于远程直接内存访问的数据中心网络技术要求和测试方法》等一系列国家通信行业标准。

2.2.2 数据中心互联

数据中心互联(Data Center Interconnect,DCI)是指实现数据中心间的网络互联互通。DCI的部署主要与用户访问需求的高速增长,以及业务连续性需求的提升等因素有关。从业务访问量角度来看,在不同的时间段,数据中心云资源使用情况存在差异,以电子商务为例,在特定的促销期间,其用户访问需求激增,原有的数据中心云资源无法满足这种激增的算力需求,就需要通过DCI将本地应用请求传送到其他数据中心,缓解本地云资源压力。从业务连续性角度来看,随着数字化转型的逐步深化,越来越多的业务向云上迁移,对于一些安全性、连续性要求较高的业务,如金融交易、企业资源计划(Enterprise Resource Planning,ERP)、移动办公等,一旦发生信息系统崩溃或数据丢失,将可能对企业造成巨大的损失。为了确保业务的连续性和数据的安全性,往往需要通过异地灾备来实现数据级或应用级灾备,异地灾备的实现同样离不开数据中心间网络互联的支持。随着各类资源池的增大,DCI必然会发挥更重要的作用。

2.3 算力运维智能发展

数据中心是资源密集型、技术密集型产业,随着数据量的高速增长,新建数据中心以大规模、超大规模为主,在应对物理基础设施局部故障或突发故障时,因海量“风火水电”设备的技术较为繁杂,需要专业的技术人员进行服务和支持,由此孕育出智能运维的市场机会。开放数据中心委员会调研数据显示,2022年,我国数据中心基础设施运维市场超过100 亿元,且近5年的市场增长率都超过20%。

2.3.1 智能监控

为应对数据中心向绿色化、集约化、智能化建设发展演进过程中的新需求,数据中心运维管理由人力驱动的被动体系逐步向智能化技术驱动的主动体系演进,运维管理生命周期的起点是将监控信息进行标准化收集和管理。早在2015年,百度、腾讯、阿里巴巴集团控股有限公司(简称阿里)等互联网企业已经开始研究“风火水电”设备应向监控系统提供的监控点位信息,完成了点位数量、名称、精度、单位、取值定义等方面的标准化工作,定义了数据中心配电类、环境类、弱电类基础设施应满足的监控指标,在开放数据中心委员会发布了《互联网数据中心基础设施监控指标规范》等技术规范,缩短了数字化管理系统的建设工期并且降低了难度,提升了运维工作与管理效率。

2.3.2 智能管理

数据中心基础设施管理等数字化管理系统的建设与应用也经历了近10年的发展期,早期的信息技术无法满足数据中心智能化监控与管理的需求,倒逼数据中心企业不断融合新技术并应用到运维过程中,运维软件层逐渐走深向实。腾讯、华为等公司探索采用数字孪生技术实现对基础设施的配电、暖通进行图形建模,可视化表征实时运行工况。万国数据通过引入智能技术、可编程逻辑控制器自动控制技术进行设施层的智能化建设,可实现电气、暖通、安防等设施的自动化预测性排障和应急处置。数据中心智能化运维是一项系统性工程,需要打通从建造到运营、硬件到软件各个环节,除了培养观念与习惯之外,还需要结合业务需求,搭建精细化运维体系。

2.4 算力调度研发深入

2.4.1 算力对接

我国算力基础设施建设规模不断加快,初步形成了多样异构算力协同发展的局面。但是,我国算力供需矛盾依然存在。从地域上来看,我国东部地区算力需求旺盛,算力供不应求;西部地区算力需求相对较低,算力供过于求。东西部算力资源难以实现有效对接,西部地区的部分算力资源无法得到有效利用。从企业角度来看,随着算力需求的不断提升,传统单一、孤立的算力资源在服务过程中的瓶颈逐渐显现出来。因此,需要实现多种算力资源的连接,实现算力需求的迁移,更好地应对用户算力需求的增长。我国算力资源在区域上以及企业内部均需要进行有效的对接。通过跨地域、跨主体的算力资源的统一接入,打造更加泛在的算力资源互联环境。

2.4.2 算力调度

算力调度是实现算力供需高效对接的一种重要技术手段,通过算力调度可以有效地将算力需求调度到合适的算力设施,实现弹性泛在、高效敏捷的算力供给。算力调度的实现离不开算网资源感知、度量、编排和路由等关键技术的支撑。其中,算网资源感知主要对当前全网各节点算力资源、网络资源的状态进行感知,明确当前算力资源、网络资源的空余量;算力度量是指使用统一量纲对计算、存储、通信和安全等资源进行度量,通过算力度量能够更加全面客观地评价算网资源调度和使用的代价;算力编排是指根据用户算网资源需求快速分配算力和网络资源,并且在算网资源使用完成后快速收回相应的资源,更新算网资源信息,为下次资源分配做好准备,算力资源分配通常是借助相应的调度策略、算法来完成;算力路由是指对算力资源需求和算力资源部署的实时状态进行感知,并在此基础上将算力需求引入到路由域,使应用需求能够沿着最佳路由路径到达相应的算力节点。整体来看,算力一体化调度是算力基础设施发展的大势所趋,但仍需要时间进行技术的突破与商业的探索。

2.4.3 算力交易

算力交易是算力调度进一步市场化、形成成熟的商业模式的阶段。在算力交易平台的支持下,用户可以将闲置的算力资源接入到交易平台,进行共享或售卖,使算力资源在市场机制中得到高效的配置,满足各类用户的算力使用需求。算力交易的参与方包括运营商、云厂商、行业用户和个人用户,其中运营商是算力资源和网络资源的主要提供者,行业用户和个人用户是算力资源的主要消费者。算力交易平台提供算网资源的一站式交易,行业用户和个人用户能够在算力交易平台上选择购买供给方的资源。与此同时,行业用户和个人用户也可以作为算力资源的供给方,将自己闲置的算力资源对接到算力交易平台进行售卖。上海市于2023年2月,基于超算中心发布了人工智能公共算力服务平台,探索算力调度新模式,以更好地满足科研机构和广大中小微企业实际算力需求。

2.5 绿色低碳全面强化

2.5.1 概况

当前,我国各行业均在大力推进节能减排工作。数据中心作为耗能大户,其耗电量和碳排量不容忽视。从政策角度来看,近年来,我国持续强化数据中心绿色低碳引领,工业和信息化部发布《新型数据中心发展三年行动计划(2021—2023年)》,将绿色低碳作为新型数据中心发展的重要目标,并提出通过加快先进绿色技术产品应用、提升能源高效清洁利用水平、优化绿色管理能力等举措,全面提升数据中心绿色低碳水平。

从产业发展角度来看,提升数据中心能效水平能够促使数据中心将更多电能供给到互联网技术(Internet Technology,IT)设备上,以服务更多的算力需求,并产生经济效益。中国信息通信研究院云计算与大数据研究所数据中心团队长期致力于数据中心绿色低碳领域研究,并联合开放数据中心委员会推出了数据中心绿色等级测试、数据中心低碳等级测试,通过测试评估手段促进数据中心绿色低碳水平提升。

2.5.2 ICT产品

数据中心能耗主要由服务器、存储、网络等信息与通信技术(Information and Communications Technology,ICT)设备能耗及供配电、制冷等配套设施能耗共同构成。在数据中心发展早期,数据中心ICT设备耐热、散热能力较差,需要依靠大量制冷保障ICT设备正常运行。近年来,数据中心ICT设备电能利用效率不断提升,在相同能耗下可以提供更多计算、存储和数据传输服务。与此同时,ICT设备耐热、散热能力也得到进一步改善。由于ICT设备耐热、散热性能得到提升,数据中心ICT设备的能效优化空间更大。从数据中心整体的碳排放深入到IT设备的碳效指标,2022年底,开放数据中心委员会发布的《数据中心算力碳效白皮书》提出了一种服务器的算力碳效模型,定义如下:CEPS=C/S,其中C是碳排放量;S是服务器算力性能。由于IT设备特别是服务器在数据中心能耗中占比极大,数据中心的碳排放将在很大程度上取决于服务器和芯片,这逐渐成为数据中心绿色低碳发展的关键。

2.5.3 供配电、制冷产品

供配电和制冷产品是保障数据中心内ICT设备稳定运行的辅助性基础设施,降低供配电、制冷环节能耗有助于提升数据中心能效水平。随着数据中心绿色低碳发展要求的不断强化,数据中心供配电、制冷环节的绿色低碳技术也日益活跃。在供配电方面,高效率、低损耗的供配电创新技术不断涌现并逐渐成熟应用,如高压直流、不间断电源(Uninterruptible Power Supply,UPS)智能休眠、绝缘栅双极型晶体管(Insulated Gate Bipolar Transistor,IGBT)整流、3N架构等。与传统UPS配电相比,高压直流配电取消了UPS交流逆变环节和服务器电源端的整流环节,极大地提升了电流转换效率,同时也提升了供电系统的稳定性和可维护性。UPS智能休眠主要是根据IT负载情况进行模块化智能休眠,当负载量低于某一设定值时,进入休眠模式,降低UPS电能损耗。除了现有供配电设备的创新外,“新能源+储能”的供电方案也逐步应用于数据中心,“新能源+储能”的技术方案可有效避免新能源发电稳定性差的问题,通过与储能技术配合,提升了数据中心对新能源的利用率。

制冷环节的绿色低碳技术创新体现在多个方面:一是空调送风方案逐步优化,部分数据中心机房通过软件模拟气流组织制定更加高效的制冷送风方案;二是冷水机组、末端空调等制冷设备的电能利用效率逐步提升,可用更少的电能提供更多制冷;三是液冷技术从技术概念逐步走向落地实施,有效解决了机房高密部署和局部过热的问题。阿里、OPPO广东移动通信有限公司等已经规模部署浸没式液冷技术,获得了优异的电源使用效率收益。

2.6 算力赋能千行百业

2.6.1 产业发展需要算力支撑

在数字经济时代,算力已经成为推动经济发展的重要生产力,广泛服务于各行业的数字化转型。企业大力推动信息系统建设,并对业务处理环节、生产环节进行信息化改造。其中,通信、互联网、金融等行业的企业信息化程度较高,初步具备了利用算力全方位服务业务的能力。同时,随着智能传感终端的广泛应用以及云边端算力服务模式的发展成熟,工业、农业、交通、能源等传统行业也在加快数字化转型,通过云边端协同的算力服务模式实现终端数据的自动采集,并基于云端和边缘侧的算力资源对终端数据进行分析、存储,通过人工智能、建模分析及控制响应机制对终端设备进行控制,实现各类智能化操作。

2.6.2 算力推动社会智能发展

算力应用不仅能够促进产业数字化发展,为产业转型升级提供支撑。同时,数字技术的应用,也为人们的日常生活带来了极大的便利,并进一步在科研、办公、娱乐等领域发挥重要的辅助作用,全面推动社会智能化发展。在科研方面,研究机构正在积极利用数据中心开展大规模的数据分析计算,为新药品研发、地质探测、航空航天等研究提供了重要支撑。在办公方面,视频会议已经成为人们日常办公沟通交流的重要形式,极大地提升了远距离办公效率。在娱乐方面,虚拟现实、增强现实等技术的应用能够进一步强化用户的场景体验,各类电影也需要大量的算力进行渲染以呈现更加精致的画面,带来更好的观影效果。

3 结束语

近年来,我国数据中心产业面临全新挑战。“国家新型数据中心”“东数西算”工程等重要政策的实施落地,通用、智能和超级算力的多样性算力供给,调度、交易等算力应用全过程的研究和落地,ICT、供配电、制冷设备等全链条的绿色低碳发展等共同驱动数据中心创新演进。数据中心已经从简单的建筑转变成为复杂的融合了设施、ICT产品、智能运维、数字化应用等要素的综合性算力基础设施。未来,随着数字中国、数字经济和数字社会规划和建设的进一步深入,数据中心等算力基础设施的作用会更强,对产业技术等各方面的要求会更高,迎来的发展机遇也会更大。

推荐内容