(CWW)中国移动副总经理李慧镝在中国移动2021年网络工作会议上提出:“‘十四五’期间,以构建‘高效、智能、简洁、协同’的新型网络运营体系为目标,全力推动数智化转型,充分利用大数据、人工智能等技术提升网络自动化、智能化运营水平,到2025年实现L4级‘自动驾驶网络’;全面实现高质量发展,网络质量、运营效益、响应效率持续保持行业领先,达到世界一流水平。”
比照中国移动集团发展方向,广西移动立足广西省内Diameter信令网维护现状,借助大数据及智能算法技术,着力提升网络维护的数智化能力,从而实现向主动运维的转型。
Diameter信令网数智化维护工具的搭建
(资料图片)
经过分析,广西移动发现Diameter信令网维护工作中的“痛点”主要集中在以下几个方面。第一,故障定位迟缓,在现有维护模式下,告警信息数量巨大,容易造成人工甄别费时费力,导致从告警发生到故障定位的过程迟缓。第二,处理决策迟缓,信令网涉及网元众多,目前缺乏对复杂问题的交叉关联自动智能分析,以致对重大网络隐患的预防能力不足。在隐患出现时,较难快速作出对策选择。第三,故障处理迟缓,网络中设备众多,95%的运维流程和作业节点都需要人为干预,“故障驱动”的被动运维影响业务体验,且运维成本居高不下。
围绕维护环节数智化能力的提升,广西移动从两个方面入手推动Diameter信令网维护的数智化转型,即数据可视化、大数据及AI智能算法,并将Diameter信令网可视化智能分析工具作为本次实践的重要依托。
可视化的信令拓扑
广西移动信令网可视化分析工具主要包括广西移动Diameter信令链路实时告警监控及查询、广西省内DRA网元及链路实时运行监控、告警及业务异常查询3个部分。
Diameter信令链路实时告警监控及查询主要包括以下内容:第一,信令链路拓扑图可依据维护需要,按照地市、网元、厂家的不同维度进行展示,以便在出现信令链路告警时,以最便捷的方式,从不同维度找到与出现信令链路告警相关的对端网元及信令链路;第二,信令链路告警可细化至信令链路组及其中的信令链路告警,并用不同颜色标记当前告警级别;第三,目前覆盖的高技能及业务异常场景,包括单链路告警定位、链路组告警定位、信令网元退服板卡定位、故障CE定位、业务流量突增预警、Diameter接口负荷预警;第四,信令链路拓扑图自动生成,可自动感知网元的增减,并在拓扑图中实时更新。
广西省内DRA网元及链路实时运行监控、告警及业务异常查询,包括总体设备监控指数、设备资源使用率、4G信令转发成功率、5G EPSFB(网络侧语音回落)会话查询成功率。
告警及业务异常查询区内容可配置,维护人员可选择运维工作中需要重点关注的告警项。
广西移动信令网可视化分析工具可以极大地提高对信令告警的识别及定位速度,简化故障定位的查询工作。基于微服务架构的智能化工具广西移动信令网可视化分析工具主要采用微服务分层架构,系统整体上分为5层,具体如图1所示。
图1广西移动信令网可视化分析工具的系统分层
微服务架构的特点是针对特定服务发布,影响小、风险小、成本低;方便频繁发布版本,快速交付需求;可实现低成本扩容、弹性伸缩,适应云环境。广西移动信令网智能化维护之所以采用该微服务架构,就是考虑到应对维护需求和网络 结构的持续优化要求,可以对该智能化工具持续进行扩展。
借助AI模型,提升告警预警能力
通过对Diameter信令网运行及告警数据的实时收集,形成了大量的维护数据信息,如何从中挖掘有价值的信息,对网络运行状态进行预警,成 为有效降低网络运行风险的关键。为此,广西移动借鉴小波变换(wavelet transform,WT)模型,根据历史数据,实现对未来数据的趋势预测,将无形的业务趋势实时、可视化地呈现于保障指挥室。在重要会议、重大活动、重要节日和应急保障中,实现业务变化与趋势预测的实时比较,为决策分析提供参考,有助于管理层观察、评估、决策和调度网络业务, 提升业务保障能力。
小波变换是一种新的变换分析方法,继承和发展了短 时傅立叶变换局部化的思想,同时又克服了窗口大小不随频 率变化等缺点,能够提供一个随频率改变的“时间-频率”窗口,是进行信号时频分析和处理的理想工具。它的主要特点是通过变换充分突出问题某些方面的特征,能对时间(空间)频率进行局部化分析,通过伸缩平移运算对信号(函数)逐步进行多尺度细化,最终达到高频处时间细分、低频处频 率细分,能自动适应时频信号分析的要求,从而聚焦至信号 的任意细节,解决了傅立叶变换困难问题,成为继傅立叶变换以来在科学方法上的重大突破。
借助AI模型,结合专家知识库,可以有效解决处置决策迟缓的问题。通过大数据技术完成对原始数据特征的自动检 测,可强化数据聚合;综合运用大数据技术中的批处理、实时计算和交互式计算的能力,可有效挖掘数据的价值;结合专家经验完善并优化AI算法,可持续迭代升级,不断沉淀经验,始终保持告警的精确性。
设计符合自身维护要求的网络健康度评估方法
设备健康度评估是指对设备运行状态进行评估,以确定设备当前的工作状态、性能和可靠性水平。通过设备健康度评估,维护人员可以快速识别潜在的故障和问题,并采取相应措施,提高设备的可靠性和效率。同时,通过可配置的规则,维护人员也可以及时发现重点关注的性能指标对网络的影响。
设备健康度评估量化是指通过对设备运行数据和状态的监测、分析,结合设备设计参数和使用寿命等因素,采用数学模型和方法,对设备的健康状况进行评估,并给出定量的 健康指标或评分。
广西Diameter信令网智能维护工具主要从健康指标的紧急性和重要性两个维度进行设置,以便及时、全面地反映设备运行状况。
系统建议满分为100分,不设加分项。每个检查项的得分需要考虑该检查项的紧急度和重要性,紧急度按高中低分别对应3、2、1;扣分按照紧急度与重要性的乘积计算,比如某项指标的紧急度为3、重要性为15,那么该项指标不合格时将扣除45分。如果某些检查项的不合格结果是因为健康检查程序没有执行造成的,则可调整为合格。
综合上述检查项的总分,形成当前设备健康度得分。为使设备健康度一目了然,对不同的健康度分数段用不同颜色 进行标记,评估综合得分与健康度的对应关系如下。第一, ≥90,标记绿色,表示健康:设备正常运转,未出现任何故障或异常情况,性能表现优异。第二,75~90,标记黄色,表示亚健康:设备出现一些故障或异常情况,但仍可正常运转,性能表现稍有下降。第三,60~75,标记红色,表示故障状态:设备出现多次故障或异常情况,需要频繁维修或更换部件, 性能表现明显下降。第四,<60,不再显示得分,表示严重故障:设备常常出现故障或异常情况,无法正常运转,需要大量时间和费用进行修理或更换,性能表现严重下降。
为了便于采用大数据对大量的信令维护数据进行处理,需要对现有信令数据格式中的节点信息进行规范,以满足后续处理需要。根据广西移动的信令网结构特点、信令点命名 规范,所有链路命名均按照统一长度、统一关键信息排序,采用统一命名规则,以方便后续的数据处理。
智能化维护实践的意义
在引入信令网智能维护工具后,广西移动Diameter信令网维护的故障识别、定位、预测能力有了明显改善,推动服务质量持续提升,主要体现在如下方面:可视化分析提升了告警识别能力,实现了多维度监控,可快速全面掌控网络运行状 况;借助大数据可提升故障分析能力,通过多维度交叉智能分析实现了对CE设备重大故障的分析定位;借助AI模型提升预测预警能力,实现了从被动运维向主动运维的转型。
同时,引入智能化维护理念还助力广西移动积极融入中国移动集团的“自动驾驶网络”演进战略,增强自身创新能力,提升运维效率,充分挖掘现有网络能力,助力实现可持续发展。