(CWW)2023年7月4日至5日,由中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)主办的2023可信数据库发展大会在北京国际会议中心召开。中国移动信息技术中心副总经理陶涛受邀参加大会主论坛,发表了题为《构建大数据湖仓一体生态,促进数据要素价值发挥》的演讲,围绕数据要素流通新形态、数据处理面临的新问题、数据处理平台的新愿景等议题深入交流探讨。

拥抱新变化,构建新平台


【资料图】

陶涛表示,随着数字经济的发展,全球数据量已经进入YB时代(1YB,即1千万亿GB,约为4万亿台256GB手机的存储容量)。在数据规模的爆发式增长下,中国移动的数据形态呈现出“多模态”特点,即各类数据广泛应用于政府、企业,并逐步发展为全局、跨域、规模化应用。

同时,随着数据量的发展和数据融合的逐步加深,传统的数据库、数据仓库、大数据平台技术逐渐显露出“瓶颈”。在数据分散、重复存储、难于管理等多重困难挑战下,中国移动紧紧围绕YB时代生态、高效处理海量非结构化数据、全面提升数据韧性等数据治理演进方向,打造湖仓一体新型开放式架构。这既是中国移动直面数据孤岛挑战的态度,也可以看作是协同各界力量对建设未来新型大数据平台的尝试。

湖仓一体架构充分结合了数据湖和数据仓库的优势,在低成本的数据湖存储架构之上,继承了数据仓库的数据处理和管理功能,形成了一个完整且高效的数据处理体系,实现一份数据和一套任务在湖、仓之上的无缝调度和管理。

YB时代,从“存”到“仓”的蝶变

陶涛详细介绍了湖仓一体技术架构的两个关键,即存算分离与湖仓融合。

存算分离,即存储和计算使用单独的集群,按需分别扩展存储或计算资源,保证整体系统能够支持更多用户并发和更大数据量。

湖仓融合,形成了逻辑统一的一体化数据服务,开发者只需要提交标准SQL(数据库语言),即可计算出想要的结果。

湖仓一体作为一种新型开放式架构,能够充分结合数据湖和数据仓库的优势,在数据湖低成本的存储架构之上,继承数据仓库的数据处理和管理功能,存储、转换、集成结构化和非结构化数据,将不同种类数据融合在一起,并从中提取出有用价值。

陶涛认为,“绿色、集约、智能”是湖仓一体技术架构上的核心优势。面对新的应用需求,一方面湖仓一体产品可从用户的核心诉求出发更好地支撑数据存储与分析;另一方面,湖仓一体架构可支持企业优化自身底层数据治理架构,从而帮助企业提升“人效”和“能效”,更精准地抓住商业机会,创造发展优势。湖仓一体技术所具备的高效的数据处理优势以及经济、节能优势,使之在实时数仓、支撑云原生的融合数据底座、降本增效等场景中具有广泛的应用前景。

基于湖仓一体的架构规划,中国移动打造了分布式协同计算平台。集群分布在全国九大区域中心,有机融合了数据湖(Hadoop)和数据仓库(OLAP)能力,实现物理分散、逻辑统一的一体化数据服务。

湖仓一体技术架构为大数据产业提供了未来路径和方法。陶涛强调,对于不同的企业来说,数据情况、业务需求各不相同,但对于统一数据存储、统一数据计算、统一数据管理,实现企业数据资产应用效能最大化的诉求是一致的。在联合产业合作伙伴发布技术标准、技术白皮书之后,陶涛代表中国移动呼吁产业合作伙伴共迎变革,共同构建湖仓一体创新生态,推进大数据下一代技术架构广泛应用。

推荐内容