(CWW)提升承载网络的可靠性,已成为运营商在网络规划建设中需重点考虑的要素之一。网络容灾保护旨在提高网络的可靠性,即降低网络中断时间、保证业务质量、提升用户体验。高可靠性技术主要涉及系统和硬件可靠性、软件可靠性、可靠性测试和IP网络可靠性等一系列保护技术。本文着重从IP网络可靠性方面分析广电5G承载网中相关容灾保护技术的应用。
IP网络可靠性技术概述
IP网络可靠性技术按作用可分为故障检测和容灾倒换两大类技术。
【资料图】
在TCP/IP网络参考模型中,各层面都有故障检测机制,如链路层Eth-OAM、STP/RSTP/MSTP,各种网络层协议HELLO机制、GR等,以及各种应用层协议本身的心跳、重传机制。其中BFD作为目前广泛应用的一种故障检测技术,可以实现快速检测并监控网络链路、IP路由的转发连通状态,改善网络性能。相邻系统之间通过快速检测发现通信故障,可以快速建立备份通道以便恢复通信,保证网络可靠性。
在网络故障发生后,IP网络容灾倒换技术可利用网络冗余资源自动恢复业务,按故障点类型可分为链路保护、节点保护和端到端网络保护。目前网络容灾倒换技术很多,如各种路由协议FRR、VRRP、NSF、NSR、GR、误码倒换、双机热备等。其中最常用的是FRR技术,即Fast Reroute(快速重路由),当物理层或链路层检测到故障时,将故障消息上报路由系统,并立即启用一条备份链路转发报文,达到业务保护的目的。当链路发生故障时,应用FRR特性可降低对承载业务的影响。
BFD故障检查技术
尽管在TCP/IP网络参考模型中,各层协议已具备故障检测机制,但大多数协议的故障收敛时间较长,如常用OSPF、BGP等网络协议通过自身的Hello探测机制,能实现秒级的故障收敛速度,随着网络发展,其自治域中网元数量和业务量不断增加,网络协议的故障收敛时间还将延长。在运营商网络中,秒级故障恢复时间意味着大量公众用户业务将出现中断或重传,这是运营商不能接受的网络故障,而BFD故障检查技术能实现毫秒级网络故障的快速感知,联动网络保护技术,达到网络快速切换、业务影响几乎无感知的效果。
BFD用于检测转发引擎之间的通信故障。具体来说,BFD对系统间同一路径某种数据协议的连通性进行检测,这条路径可以是物理链路、逻辑链路或VPN隧道。上层应用向BFD提供检测地址、检测时间等参数,BFD根据这些信息创建、删除或修改BFD会话,并把会话状态通告给上层应用。BFD的检测机制是两个系统建立BFD会话,并沿它们之间的路径周期性发送BFD控制报文,如果一方在既定的时间内没有收到BFD控制报文,则认为路径发生故障。BFD控制报文封装在UDP报文中传送。会话开始阶段,双方系统对控制报文中携带的参数(会话标识符、期望的收发报文最小时间间隔、本端BFD会话状态等)进行协商。协商成功后,以协商的报文收发时间在彼此之间的路径上定时发送BFD控制报文。
FRR快速重路由技术
在传统IP网络中,转发链路出现底层故障后,最为直观的表现是设备上的物理接口状态变为“Down”。设备检测到此故障后,会通知上层路由系统进行相应更新,并重新计算路由。通常从链路故障发生到路由系统完成路由收敛(重新选择了一条可用的路由),要经历秒级时延。对于网络中某些对延时、丢包等非常敏感的业务(如VoIP业务)来说,是无法容忍网络中断时间为秒级的。
FRR特性能够保证转发系统快速地对故障进行检测并采取措施,尽快让业务流恢复正常。当进行协议间路由优选时,FRR按照协议优先级给每一条被优选的主链路再选择一条备份链路,并将两条链路的转发信息同时提供给转发引擎。
防火墙双机热备技术
随着网络的快速发展,网络安全备受关注。在IP承载网中,防火墙作为网络安全的重要网元得到广泛应用。防火墙部署在网络出口位置时,若发生故障会影响到全网业务。为提升网络可靠性,需要部署两台防火墙并组成双机热备。双机热备需要两台硬件和软件配置均相同的防火墙。两台防火墙之间通过一条独立的链路连接,这条链路通常被称为“心跳线”。两台防火墙通过“心跳线”了解对端状况,向对端备份配置和表项(如会话表、IPSec SA等)。当一台防火墙出现故障时,业务流量能平滑地切换到另一台设备上处理,使业务不中断。
防火墙支持主备备份和负载分担两种运行模式。主备备份模式,即两台设备在正常情况下,业务流量由主用设备处理,当主用设备发生故障时,备用设备接替主用设备处理业务流量,保证业务不中断;负载分担模式,即在正常情况下两台设备共同分担业务流量,当其中一台设备发生故障时,另外一台设备会承担其业务,保证原本应通过故障设备转发的业务不中断。防火墙有3种工作模式:路由模式、透明模式和混合模式,结合两台防火墙的上下行组网设备支持情况,可以基于VRRP、VLAN、动态路由等实现双机热备功能。
5G承载网容灾技术应用介绍
作为广电5G业务骨干IP承载网,广电5G IP专网覆盖全国各省、自治区及直辖市,按“核心—接入”两层架构双平面组网,其中核心层省市各部署一对核心P节点,接入层在各省市节点各部署一对接入PE节点;5G专网业务由“SRv6 Policy+EVPN”承载,同时部署iFIT检测业务质量,异地部署两套控制器实现主备容灾。
广电5GC承载网可分为大区C面承载、省内U面承载、移动互通3个部分,通过上述5G专网实现全国广电5G业务通信。省内U面承载网采用双DC组网,实现DC级的主备容灾保护,单DC内采用双平面容灾组网。省内U面承载网组网如图1所示,由省内U面核心网配套网络、专网出口网络、IMS互联互通网络及互联网出口网络等部分组成。本文重点分析省内U面承载网中相关容灾保护技术的应用。
图1 中国广电5G省内U面承载网架构
省内U面核心网配套网络
5G省内U面核心网主要部署UPF、PSBC、ISBC及IBCF等网元设备,通过U面承载网专网CE接入5G专网,VRF隔离数据语音信令、语音媒体、网管、安全等不同业务,实现省内5G U面到大区资源池5GC核心网网元的通信。
在网络容灾设计方面,U面核心网采用双DC互备实现站点的异地容灾保护,站点内承载网采用双平面接入实现节点的网络链路容灾保护。根据核心网网元基于不同业务的具体网规划设计,U面承载网可通过多样的容灾保护技术实现核心网双平面主备或负载分担的业务需求。
1.基于VRRP技术实现双平面保护方案
如图2所示,核心网网元服务器通过双归属方式直接接入两套专网CE路由器,其服务器的两个网络端口工作在三层主备模式,当主用端口处于收发双向转发工作状态时,备用端口保持静默状态,专网CE部署VRRP为其提供虚拟网关;当服务器的主用端口或主用链路发生故障时,服务器启用备用端口作为主用,向外发送免费ARP及业务报文,承载网侧根据VRRP的故障检查情况,可继续对接入服务器提供虚拟网关容灾保护。
图2 采用VRRP接入5G核心网网元
采用基于VRRP技术的容灾方案,需考虑以下几点网络规划。
•VRRP“心跳线”规划。由于VRRP心跳报文属于二层报文,需为其规划一条二层心跳报文通道。
•VRRP优先级规划。合理规划主备接口的VRRP优先级数值,确保故障发生时协议能实现正常切换。
•VRRP接口模式。VRRP路由器接口可以通过Vlanif或三层子接口方式实现VRRP,结合网络实际情况进行选择规划,确保VRRP“心跳线”通畅及无二层环路。
•BFD联动VRRP。由于VRRP是一个秒级倒换协议,对于故障倒换时延要求较高的业务,可部署BFD快速故障检测技术联动VRRP,实现VRRP的快速切换。
•VRRP抢占功能。在抢占模式下,合理配置主用VRRP的抢占时延,避免主用链路闪断场景下业务的频繁切换,影响业务转发。
•管理VRRP。当VRRP路由器上需要部署的VRRP备份组较多时,可以考虑部署管理VRRP,减少每个VRRP备份组产生的协议报文对路由器CPU与带宽资源的消耗。
•VRRP负载分担场景。默认VRRP技术方案只支持实现主备平面保护,若在有负载分担的组网需求场景下,可通过配置双VRRP备份组,实现网络的负载分担功能。
2.基于跨设备聚合技术实现双平面保护方案
在核心网网元服务器采用多网卡bond网络模式下,多张网卡虚拟成一张,实现冗余。这种网络配置模式支持主备和负载均衡两种工作模式。
工作在主备模式下,主网卡工作,备份网卡不工作,当一个网络接口失效时(例如主交换机掉电等),为了不出现网络中断,系统会按照配置指定的网卡顺序启动工作,保证机器仍能对外服务,起到了失效保护的作用;在负载均衡模式下,由于两张网卡都正常工作,能提供两倍的带宽,在这种情况下出现一张网卡失效,仅仅是服务器出口带宽下降,不会影响网络使用。
如图3所示,对于bond模式的服务器容灾保护,承载网交换机需采用堆叠、集群或者M-LAG等跨设备聚合技术接入服务器。
图3 采用跨设备聚合技术接入5G核心网网元
集群交换系统CSS(Cluster Switch System)又称“堆叠”,是指将两台交换机通过堆叠线缆连接在一起,从逻辑上变成一台交换设备,作为一个整体参与数据转发。在图3中,网络中的两台设备组成堆叠,虚拟成单一的逻辑设备。简化后的组网不再使用MSTP、VRRP等协议,简化了网络配置,同时依靠跨设备的链路聚合,实现快速收敛,提高了可靠性。M-LAG(Multichassis Link Aggregation Group)即跨设备链路聚合组,是一种实现跨设备链路聚合的机制,如图3所示,将SW01和SW02通过peer-link链路连接并以同一个状态与服务器进行链路聚合协商,从而把链路可靠性从单板级提高到设备级。M-LAG作为一种跨设备链路聚合技术,具备增加带宽、提高链路可靠性、支持主备与负载分担承载、简化组网、聚合设备可独立升级等技术特点。
3.基于路由协议技术实现双平面保护方案
随着全网IP化的趋势演进,部分核心网网元可支持IGP及BGP等动态路由协议方案承载业务,如3G核心网网元GGSN、SGSN,4G核心网网元SAEGW、MME,以及5G核心网网元AMF、SMF、UPF等。在核心网网络设备中,这类设备通常规划部署OSPF等动态路由协议以实现网络容灾保护。
如图4所示,核心网网元按双归属组网接入承载网两套CE路由器,之间部署静态路由或者动态路由协议,通过动态路由协议收敛实现故障时业务切换。
图4 采用路由协议接入5G核心网网元
基于路由协议的容灾方案,可考虑以下几点网络规划。
•通过部署BFD故障检查,联动静态路由或动态路由,加速协议收敛速度,实现业务的快速倒换。
•在全动态路由协议场景下,通过人工规划动态路由协议的开销值(IGP COST、BGP MED等)实现网络的主备或负载分担。
省内U面专网出口网络
省内U面承载网专网出口网络采用两套专网CE路由器和两台防火墙组成。专网CE上行采用“口”字型组网与5G专网PE相连,采用网状组网旁挂两台专网防火墙,下行双归属组网接入U面各个核心网网元、安全业务平台及网管网络等。
在承载网的容灾保护方面,重点考虑以下几点规划。
•专网CE上行出口,采用动态路由协议eBGP与专网PE对接,通过BGP团体属性实现双平面的负载分担承载,同时部署BFD for BGP加快故障时BGP协议的收敛速度。
•专网CE互联之间部署动态路由协议iBGP,作为专网CE到专网PE间故障时的逃生路径。
•专网FW防火墙采用网状组网旁挂方式接入专网CE,两台防火墙按基于路由协议的双机热备负载分担工作模式部署,同时部署BFD for OSPF加快故障时OSPF协议的收敛速度。
•根据各业务VPN的大区互通需求,专网FW防火墙上按每业务每VPN实例分别与专网CE的内外网VPN实例进行OSPF协议对接,为专网CE上需访问大区的内网VPN业务提供专网出口路由。
•专网CE下行到U面各个核心网网元、安全业务平台及网管网络等采用静态路由方式接入,同时部署BFD for静态路由触发故障时业务的快速倒换。
省内U面IMS互联互通网络
省内5G IMS互联互通网络,负责与其他3家运营商间的短信和语音业务互通承载。广电短信网关通过5G专网到各省IMS互联互通出口,实现与各省3家运营商短信网关互通,各省U面IBCF通过互联互通出口与省内3家运营商的语音网关互通。
在承载网容灾保护方面,重点考虑以下几点规划。
•短信与语音出口均采用“口”字型双平面组网,实现网间短信BG和语音BG的主备链路容灾保护;网间通过静态路由协议完成网关路由的交换,同时部署BFD for静态路由触发故障时业务的快速倒换。
•广电短信网关部署在大区,短信BG采用“口”字型双平面组网接入5G专网PE,部署eBGP协议完成省内与大区间短信网关路由交换,同时部署BFD for BGP加快故障时BGP协议的收敛速度。
•短信FW防火墙采用网状组网旁挂方式接入短信BG,短信防火墙上部署分别对3家运营商的短信网关进行双向NAT转换,保障网间短信网关通信的安全性。两套防火墙按基于路由协议的双机热备主备工作模式部署,同时部署BFD for OSPF加快故障时OSPF协议的收敛速度。
省内U面互联网出口网络
省内U面承载互联网出口网络采用“口”字型双平面组网。两台公网出口防火墙FW采用双机热备负载分担工作方式,实现互联网出口的双平面负载均衡。U面的用户IP地址(IPv4私网地址及IPv6地址)在UPF上通过OSPF发布到公网CE及公网FW上,其中用户的IPv4私网地址在公网FW上转换为公网地址后发布到互联网。
在互联网出口路由交换协议规划中,临时方案采用静态路由方式部署,互联网出口SR配置到目的地址为U面用户IPv4公网/IPv6的静态路由,并通过动态路由协议发布到互联网,公网FW配置默认路由到SR,并通过OSPF发布默认路由到U面公网CE。后期互联网出口最终方案中,公网FW将按最终设计以BGP动态路由方式发布U面用户路由到互联网,更好地满足5G互联网流量的动态控制及QoS调度等需求。
在承载网的容灾保护方面,重点考虑以下几点规划。
•在互联网出口网络中,公网FW采用双机热备负载分担工作模式,需对称规划OSPF开销值,确保UPF可动态学习两条等价的出口默认路由。
•在临时出口方案中,公网FW手工配置默认路由并在OSPF中发布默认路由,同时部署BFD for静态路由,实现故障快速检测及容灾切换。此方案中,在公网FW上需配置Link-Group功能,联动防火墙上下行端口状态,确保单边故障时上下行流量均能成功切换到另一平面。
•在最终方案中,公网FW通过eBGP从SR上动态获取出口默认路由并在OSPF中发布,同时部署BFD for BGP,实现故障快速检测及容灾切换。此方案中,公网FW需注意调整eBGP的协议优先级,确保公网FW收到来自SR的eBGP出口路由(默认路由及特定业务的明细路由等)被优选,而不被其他协议发布的路由覆盖。
省内U面安全业务平台网络
省内U面安全业务平台系统(如手机恶意软件、安全运营平台、IMS防诈骗平台、4A堡垒机及码流回传等系统)网元,通过安全业务路由器和日志防火墙上各业务使VPN实例隔离接入到U面承载网专网CE。
在承载网的容灾保护方面,与上文几种场景类似,不再赘述。
结语
2022年广电5G一期工程已顺利完工,本文结合省内分公司的部分建设内容,就省内U面承载网的容灾保护技术进行浅略总结和分析。
随着未来5G to C及to B业务的发展,5G专网及省内U面承载网也面临新的技术要求,如SRv6、随流检测、网络切片、BIERv6、APN6等“IPv6+”承载技术的应用。伴随未来5G业务及应用的多样化,5G承载网容灾保护技术的重要性亦将凸显,运营商在网络规划中需要重点考虑。
本文刊载于《通信世界》
总第918期 2023年4月25日 第8期