【世界时快讯】元宇宙的数字化身

（CWW）在元宇宙概念推动下，虚拟数字人市场迅速升温。从虚拟歌手洛天依，到数字虚拟偶像柳夜熙，再到虚拟偶像组合A-SOUL，各种虚拟数字人频繁出现在公众视野。什么是虚拟数字人？虚拟数字人有什么能力？应用场景有哪些？

(资料图片)

元宇宙数字化身——虚拟数字人

2021年被称为元宇宙元年，随着Facebook更名为Meta，正式转型为元宇宙公司，元宇宙已经彻底出圈，成为人们茶余饭后的谈论热点。那元宇宙是什么呢？《头号玩家》就是对元宇宙概念的终极想象。在元宇宙的宏大构想中，每个人都能在虚拟世界中拥有自己的专属身份，成为个人在元宇宙中的数字化身，而虚拟数字人技术有助于打造真实的数字形象，使元宇宙中各种类型的沉浸式互动体验成为可能。

图1 元宇宙沉浸体验

虚拟数字人是通过聚合多种技术手段，创造出具有数字化外形的虚拟人物。它具有三个特点：①虚拟：存在于非物理世界；②数字：依托于多种数字技术的综合产物；③人：在外观、行为以及交互等方面具有高度拟人化。

虚拟数字人成功地打开了人类进入虚拟世界的通道，是与元宇宙连接和互动的重要媒介，通过对数字形象的专属化设定，并凭借其完美与多元场景结合的能力，能够实现从现实社会到虚拟世界的有效投射，使每个用户都能感受极具沉浸性和互动性的体验，最终形成数字社会的生态化反映。

2022年作为元宇宙发展的黄金时代的开端，各大厂商针对虚拟数字人产业的精准布局，是推动元宇宙进一步发展的重要利器，这也预示着虚拟数字人技术已经逐步成为元宇宙不断完善和突破的着力点。

虚拟数字人通用系统框架

虚拟数字人通用系统框架包含五个部分：人物形象、语音生成模块、动画生成模块、音视频合成显示模块以及可拓展的交互模块。根据数字人外形风格的差异可以将人物形象划分为卡通、写实等，这是数字人的基础载体，语音和动画生成的主体，展现为数字人3D模型。其中交互模块为可拓展项，若具备该模块，则数字人能够智能识别用户意图，进而通过智能决策系统对数字人后续的语音与动作进行指导，从而使数字人具备交互能力。

图2 虚拟数字人通用系统框架

驱动能力——让虚拟数字人动起来

虚拟数字人是如何做到与真人一样动起来的呢？首先简单了解一下虚拟数字人制作的关键流程：首先需要建立并绑定虚拟数字人的标准三维人物模型；然后利用驱动技术对标准三维模型的语音表达、面部表情、身体动作等进行合成；最后通过渲染形成最终效果。

因此，通过驱动技术能够生成虚拟数字人的拟人化行为，使虚拟数字人生动地动起来。按照驱动技术的差异可以将其分为计算驱动型和真人驱动型[1]。

➤ 计算驱动型

也被称为TTSA（Text To Speech & Animation）人物模型：主要通过深度学习技术、卷积神经网络等新型计算能力对虚拟数字人的语音、表情及动作等进行预测，根据计算结果驱动数字人模型，以生成相应的动画。由于虚拟数字人天生需要具有高度拟人化的特征，除了外观要求高度拟人化以外，在行为互动上也需要具备高度拟人化，具体来说包括：①在发音流畅度、韵律以及情感等方面需要符合真人发声习惯，②能准确识别用户需求，③能正确高效地理解用户的需求。因此，其驱动最终效果受到语音合成、语音识别以及自然语言处理等多种技术的共同影响。

计算驱动型数字人技术流程如下：设计形象—>建模及绑定—>训练驱动模型—>内容制作—>渲染生成

1. 形象设计：每个数字人都是独特的数字形象，而非千篇一律的模板。通常利用多方位摄像头对特定模特进行扫描，并采集其说话、动作时的唇部、表情、肌肉变化、姿态等数据，用于模型的特质化训练。

2. 形象建模及绑定：建立虚拟数字人的三维模型，并根据不同驱动标准分别对各部分进行绑定，后续可以通过相应的规则对各部分进行驱动。

3. 训练驱动模型：利用深度学习技术对采集的模特动作数据进行训练，建立语音、唇形、表情、动作参数间的映射关系，形成各自的驱动模型与驱动方式。驱动模型的性能直接影响数字人的驱动效果，因此训练驱动模型是整个计算驱动型数字人的核心部分。

4. 内容制作：基于输入的语音或文本形态信息，通过训练好的驱动模型输出对应的各类映射参数，利用映射参数驱动虚拟数字人响应相应的动作，实现智能驱动的效果。

5. 渲染生成：在特定场景下进行渲染，生成具有真实感的三维场景效果。

数字人计算驱动方式具有多样化的特点，例如根据语音驱动口型的算法所使用模型的差异，可以将其分为两种类型：①Audio2Mesh：通过语音直接预测三维模型网格序列信息，直接形成数字人动画，代表算法有英伟达的Audio2Face项目，目前已应用于英伟达虚拟协作模拟平台Omniverse的Audio2Face应用程序中。②Audio2ExpressionCoefficient：利用语音预测能够控制网格变化的相关参数序列，通过该参数可以恢复网格模型序列，从而生成数字人动画，代表算法有Facegood的Audio2Face项目，这是国内首个开源语音驱动口型的算法技术。

➤ 真人驱动型

主要是通过真人演员（二次元世界中也称为中之人）驱动数字人，在这种模式下虚拟数字人的语言、表情及动作等展现都与中之人的表现所对应，中之人通过佩戴面部捕捉、动作捕捉等设备实时获取面部、动作参数，并传递给对应的数字人进行相对应的口型、表情与动作驱动。由于真人驱动型数字人是通过真人传递操作，因此在动作灵活度和互动效果等方面有着明显的优势，被广泛应用于影视内容创作以及互动直播等领域。

真人驱动型数字人技术流程如下：形象设计—>建模及绑定—>表情动作捕捉—>实时驱动—>渲染生成

图3 真人驱动的虚拟数字人

虚拟数字人的应用场景

根据虚拟数字人应用需求的不同，目前可以将业内虚拟数字人大致划分为服务型虚拟数字人和身份型虚拟数字人两类[2]。

服务型

顾名思义，服务型虚拟数字人的能力重点在于服务，根据应用场景的不同提供具有差异化的定制化服务，主要用于代替服务行业中具有重复属性的社会角色，执行偏标准化的工作，例如数字员工、虚拟客服、定制管家、医疗顾问等。目前国内的服务型虚拟数字人主要用于代替真人进行内容生产，并进行简单问答交互等。未来发展趋势是打造更具关怀度的助手等，利用多模态技术对用户进行关心、陪伴等。

由央视网和百度携手打造的央视网虚拟小编小C是服务型虚拟数字人的成功典范。2021年全国两会期间，小C首次亮相于央视网特别策划“两会C+真探”系列直播节目，并成为其当家主持。凭借其甜美亲切的形象、自然流畅的谈吐以及生动逼真的表情动作迅速得到网友的认可，并在全国两会期间采访了多名全国人大代表，专业能力毋容置疑。数字小编小C俏皮可爱的展现形式悄然拉近了两会与普通观众之间的距离，同时在新兴技术能力的加持之下致使传统媒体焕发出新的生命力，大大提升了在年轻受众群体中的影响力。

身份型

身份型虚拟数字人则更倾向于打造全新虚拟IP形象，即强调其自身身份，关注其人设背景等方面，通常应用于文娱游戏等领域，例如虚拟偶像、数字人直播、虚拟分身等。身份型虚拟数字人强调自身身份，通常存在两种形式：一种是以独立的虚拟个体存在的虚拟IP，其在现实世界中不对应任何真人，外貌、人设、爱好、背景等都由人为主观设定；另一种是虚拟世界的数字分身，主要是为每个人创造专属的数字分身，满足个人在虚拟世界中独特的身份需求。

抖音大红人柳夜熙就是身份型数字人的现象级代表，作为一名会捉妖的虚拟美妆达人，她利用神奇的化妆笔为影片中的小男孩打开了虚拟世界的大门，文案“现在，我看到的世界，你也能看到了。”也预示着这一位神秘的美妆达人来自不同的世界，却能以虚拟人之身与真人进行互动，并共享互相眼中的世界，从而实现真实与虚拟的交织融合，这难道不正是元宇宙所畅想的终极世界吗？

结语

虚拟数字人正处于飞速发展阶段，融合了计算机图形学、图形渲染、动作捕捉等数字技术，同时拥有计算机视觉、自然语言处理、智能语音等深度学习技术的加持，虚拟数字人的前景令人无比欣喜。但目前由于智能驱动技术等方面的技术限制，还未能实现理想中生动的虚拟数字人目标，仍需广大虚拟数字人从业者、人工智能研究者等多领域工作者共同努力。