5分钟读懂什么是虚拟数字人

2022北京冬奥会期间，央视新闻总台首位AI手语主播正式上线，手语播报数字人能够全年无休为听障用户提供服务。柳夜熙、华智冰、龚俊数字人、理财专员小浦等虚拟数字人纷纷登场，应用领域不断扩展。

究竟什么是虚拟数字人？他们背后的技术有哪些？一文带你读懂。

虚拟主播/虚拟偶像什么是虚拟数字人？

虚拟数字人拥有数字化外形，存在于手机、电脑或其它显示设备。他们拥有外观、性别、性格特征，以及表达能力。除此以外，虚拟数字人还要拥有人类的思想，可以识别周遭环境，甚至可以与人交流互动。

虚拟数字人的构成

（一）人物形象1、打造人设

首先，确定使用场景。最终我们的虚拟数字人是以什么身份出现在人们眼前的？毕竟在银行工作的虚拟员工和活跃于舞台上的虚拟歌姬需要完全不同的个性和外形。

在对虚拟数字人进行整体形象设计时，性别、个性、爱好、动作、声线等都需要考虑在内。

超写实，3D写实，3D卡通，二次元

2、绘制出平面形象

依据人物设定，由专业原画师绘制出角色的外形、服饰、布景、道具等等。

3、创建模型

在原画定稿后可以开始建模，立体呈现人物的面部与身体。针对不同风格的数字人，建模技术也有所区别。完成模型创建后，就可以绑定骨骼和表情，为动捕和面捕做准备。

类型	技术	特点	成本
2D数字人	静态扫描、伪3D建模	可以做出夸张的效果，但无法转身；2D虚拟主播往往只有面部表情和头部动作	硬件配置、投入成本较低
3D数字人	3D建模	无论高写实、卡通或是二次元风格，具有更加生动的表现	对硬件要求高，前期投入成本数十万至数百万

（二）表情和动作表情和动作赋予虚拟数字人生命力，如何让静态的角色动起来？这就要借助动作捕捉设备了。

光学动作捕捉设备

首先，将反光标识点贴在面部或人体关键节点位置。动捕演员根据剧本或其他制作需求开始表演，不同表情、动作的信息会以反光标识点位置的变化体现，NOKOV度量动作捕捉系统记录下这些关键节点的位置数据，实时驱动主流3D模型软件，还原真实面部表情和人体动作，以此让虚拟数字人“活”过来。

可支持MAYA，MOBU，Unity，UE等主流三维模型软件

真人驱动技术已经广泛应用在影视、动画、游戏制作领域，行业内从业者对此并不陌生。

除了上述提到的真人驱动，由计算机驱动的人工智能也在不断涌现。由于这种驱动方式涉及语音合成、自然语言处理、语音识别等多项技术，因此目前国内开展这项业务的公司大多是AI技术比较成熟的科技型企业。

（三）环境与声音

除了丰富的面部表情和灵活的动作，和角色整体形象画风一致的“舞台”也是必不可少的。灯光影响模型最终表现，而环境也会带出一定身份信息。

前面提到动作捕捉为虚拟数字人带来生命，那么声音可谓是数字人的“灵魂”。尤其对于虚拟歌姬、虚拟主播而言，富有特点的声音可以形成鲜明的记忆点，加深用户心中虚拟数字人的印象。

在虚拟直播领域的应用

以上是我们根据行业应用，对虚拟数字人进行的整理总结。根据量子位《虚拟数字人深度产业报告》，到2030年，我国的虚拟数字人的整体市场规模将达到2700亿元。得益于CG、AI、XR等技术发展，虚拟数字人行业逐步进入加速发展期，应用领域也从文化娱乐向政务、金融、医疗、教育、通信等行业拓展。

【计算机硬件体系架构】计算机电脑基本架构