(CWW)与数据中心一样,云计算涵盖计算、存储、网络三大件。
在云计算发展的上半场,整个行业关注的焦点在计算和存储的虚拟化,网络发展则相对滞后。从2015年开始,随着各大云服务商数据中心和网络能力的需求快速变化,网络虚拟化开始不断跟进。SDN/NFV、SD-WAN、云网融合、算力网络、智能云网络等一系列和云网相关的产品和服务,成为云服务商交付客户的一项重要内容。
今天,智能云网络的行业发展和现状如何,存在怎样的挑战?它又将如何定义下一代云网融合?它的未来又是怎样的一幅画面?带着这样的疑问,近日记者对阿里云智能云网络产品线产品总监孙成浩进行了专访。
(资料图)
从连接、组网、运维,看智能云网络的价值
孙成浩表示,从全球化视角看,越来越多的企业开始在海外寻求发展。在全球化场景下,跨域组网能力、大规模海量VPC(即云上虚拟网络组网)能力成为企业发展的一大诉求。加之近年来,疫情对在线办公、新零售尤其是出海的B2M、C2M的零售方式的影响,各个产业发展对网络智能化运维和运营提出更高的要求。
孙成浩认为,随着企业数字化的深入,越来越多的传统企业开始上云,并从原本的部分上云发展到今天的全量上云,甚至触发了全产业上云的趋势。云网络逐渐转向解决企业内部或者是企业间的深度连接问题为重心。
当然,云网络发展也需要投入非常大的能力去满足云原生相关应用的一些需求,从原本的云网络去解决OSI二三层连接的能力,到现在深度解决应用连接的能力,以及更多的感知应用的能力。
孙成浩分析,从整个行业的趋势,云网络开始从原本的连接方式向更多的边和端的连接方式去演进,从过去的连接公共云为中心的云网络,向着从应用到云到边到端一体的分布式网络转变。
孙成浩称,如果把云网络理解成网络的数字化转型,智能云网络就是数字化转型的一个关键的技术。其价值表现在:
一,云网络是云的网络,一定是依靠着整个分布式云的概念存在的。因此它的价值在于对整个全球化分布式云的智能组网能力。算力网络里的关键的技术,就是如何对网络做全局化的、自动化的调度,以及算力感知的编排和适配。
二,对于云下网络管理能力的覆盖,并支持云上云下网络设备一体化的管理,自动化的配置等需求。
三,从运维和使用的视角看,云网络配置的智能运维,故障的自动诊断、自动恢复、定位等,是智能云网络的第三个重要的价值点。例如,对于整张网络健康度的检查管理,网络联通性的验证,预先的配置检查、模拟,故障提前发现、排除,通过云网络的API使用方式,降低用户运维成本,降低OPEX。
孙成浩指出,云网络其实就是租户的网络,用户感知到的OSI的架构没有本质的区别,用户使用云网络是通过API形式,以更易用、更可视化的方式来使用这张网络。
阿里云智能云网络的产品和技术进阶实践
作为全球第三、国内第一的公有云服务商,阿里云一直不断的开放和发布的智能化云网产品和能力来满足用户的要求。
早在2018年,阿里云就发布了第一款SD-WAN产品——智能接入网关,其主要卖点就是线下网关一键上云能力。2021阿里云对该产品进行升级,把单一的智能接入网关设备升级到了整个分支网络(如电子价签、AP、交换级网关等设备),不仅具备了对于线下分支各种不同设备的管理能力,同时继承了原本一键连接阿里云,连接其他云的能力。
为了解决更大规模的网络组网问题,阿里云在2017年发布了一款全球各区域虚拟网络组网产品——云企业网,主打功能是让用户可以快速的自动构建一张连接全球的网络。
2022年,阿里云对云企业网进行全新的升级,首先是对于规模复杂的组网升级,满足用户组网要求下的一些细粒度、精细化的网络调度的诉求,同时还支持基于意图的Network Policy以及安全服务链等相应的能力提升。同时,云企业网2.0在配置的基础上基于全网链路的分析优化网络,提升利用率,降低用户成本。同时,基于整个网络各地域的性能大盘、Top流量分析,用户可以清晰get到某一个网络管道上流量多少,帮助用户提升网络连通性、可靠性。
另一个值得一提是的,阿里云洛神云网络产品,在不同的阶段,给用户提供了不同的产品能力,满足用户的网络需求。该产品于2010年推出针对数据中心网络;2016到2020年的洛神2.0提升到云广域网络;再到2021发布的洛神3.0,聚焦应用-云-边-端一体的智能网络。
孙成浩表示,从技术的角度,云网络分成SDN层、NFV层和智能运营层三个层次。
其中,SDN软件定义网络层,主要解决的是连接、连接带宽、性能等相关的问题;NFV网络功能虚拟化层,主要是基于云的计算资源、算力,然后去构建提供给用户网络的功能和能力;智能运营层会实时的收集网络数据(包括SDN层和NFV层相应的数据),然后进行分析,故障的诊断和故障的恢复。
孙成浩表示,从技术发展上看,智能云网络的发展导致技术架构的升级演进,主要表现在4个方面。
第一,从数据采集、分析到故障发现、处理、恢复,都是基于大数据的一套整体的链路。
第二,控制面和数据面的改变。数据面的基础架构,会落到区域网关之间的网络协议,基于区域网关的路由同步协议,实现全球路由的同步;在控制面,会有全球路由管理器,来管理全局的路由,会涉及到网络子网路由收敛相应的一些动作。
第三,线下设备的管理,需要在抽象层去适配线下各种不同的设备类型,然后在云上去提供统一管理和配置的控制器,然后去做相应的控制。某些设备上面需要有Agent做一些翻译和转译的动作。
第四,在诊断相应的能力方面,需要确保整个网络系统可靠运行的能力。目前该方面对技术的挑战较小,主要是故障模型和故障判断的逻辑,无论是静态配置的还是自动学习生成故障的判断,然后来生成诊断的结果。
智能云网络的四大挑战和未来
问及智能云网络当前处于怎样的发展阶段?孙成浩表示,目前智能化产品处在相应比较初级的阶段。我们希望智能化去解决网络里众多的问题,但一旦回到了故障预测、故障发现这样的场景里面,想要100%的去发现问题,其实还是非常难的,尤其是靠智能、靠自动化去发现问题。
在孙成浩看来,智能云网络本质上还是一张云网,核心要为整个云计算来服务,所以从落地上来看,会受到整个云计算技术发展大趋势的影响。当下智能云网络的发展也存在4大挑战:
一是,规模挑战。因为数以百万计用户的流量做拟合和测定,带来的挑战巨大,同时测定故障的定位和发现速度要求高,很多业务对网络非常敏感,一个几秒的抖动可能对业务影响巨大。
二是,网络链路挑战。网络链路长,尤其是涉及到在云场景里面的某些互联网链路,会有跨地域、跨区域访问,在链路里面找到出现问题的节点,并且尽快把流量切走,这是一个端到端的链路复杂度问题,这个问题也是一个非常大的挑战。
三是,故障模型的挑战。如何发现单客户的问题还是批量客户的问题,故障的影响面,如何快速恢复。孙成浩称,对于传统的大数据技术,需要去做适配与网络相应特征的变化和调优是一大挑战。
四是,如何用更低的成本解决网络可靠性问题挑战。整个产业的链路数据量大,如何更高效且更低成本提升网络的可靠性、可用性,也是一个巨大的挑战。
不可否认,从目前的云网融合进程看,在产业的发展中,存在挑战是不可避免的。对于智能云网络的未来发展,作为产业的参与者,阿里云有着长远的眼光。孙正浩表示,阿里云期望面向未来的智能社会,打造一张满足万物智联、万物上云的智能云网络。
“比如,算力网络对于端到端云边端算力的调度、协同,然后云网络的感知算力,云网络的意图化和智能化,甚至是跨云的、跨厂商的算力的抽象和调度,这都是智能云网络未来趋势。”孙正浩说到。
作为客户,所期待的未来云网络,是在没有感知到网络的变化的时候,它却在提供更高效的、可靠的、更智能的云服务体验。正如阿里云Slogan里讲的,一定是一张万物智联,同时是万物上云的智能云网络。