虚拟主播技术在智能问答中的应用

1. 基于虚拟人的元宇宙

1.1 元宇宙

Facebook更名Meta带火了元宇宙概念，元宇宙是一个与现实世界平行的虚拟世界，在这个虚拟世界中，人们可以像在现实世界中一样实现实时交互，通过逼真的人、物形象使用户沉浸于虚拟世界之中，身临其境地感受周遭环境并与其他用户进行交互。

1.2 虚拟人

虚拟人是使用数字技术合成的人类形象，早期虚拟人如初音未来、周杰伦和邓丽君的隔空对唱。最近，随着人工智能技术的发展，一批新一代，具有类人智能的虚拟人也应运而生。如可与真人对话的央视虚拟主播小C，清华大学虚拟学生华智冰，虚拟美妆达人柳夜熙等。此外，虚拟人也开始走入职场，如阿里巴巴的头号数字人员工AYAYI。

2. 拟人相关技术介绍

2.1 3D建模

虚拟人的3D模型一种依赖3D动画师的设计，另外一种则来自对现实世界物体的三维重建。随着虚拟人技术的不断发展，出现了越来越多的个性化需求，如将用户自己的形象只作为虚拟人等，3D建模技术也不断发展。

传统3D建模方法主要分为多目视觉、红外和激光三种。多目视觉是通过多角度拍摄的同一物体的图像，使用匹配特征点进行建模，这种建模方式受光线、遮挡影响较大，需要从很多角度拍摄照片，才能覆盖物体全貌；红外建模的代表就是微软的Kinect，使用多路红外光照射物体表面，获得物体上各点的深度信息，完成3D建模；激光建模的原理与红外类似，只不过使用的是激光，重建精度较高，但成本也较高，一版用于精度敏感的工业领域。

近年来，随着深度学习技术的发展，学界和工业界开始越来越多地使用基于“神经辐射场”技术的NeRF，该方法使用深度网络和多角度辐射数据对辐射场进行建模，进而获得未覆盖角度的图像。

2.2 NLP

虚拟人需要具有跟现实世界人物一样的语言理解、对话能力，ChatGPT等大语言模型的出现，提供了这个可能，使虚拟人可以与虚拟和现实世界的人物交流，实现类人智能。

2.3 TTS

ChatGPT等大语言模型的发布，大大提升了智能对话的质量，生成式对话模型的图灵测试逐渐接近人类水平，这种情况下，将文字转为语音，通过虚拟人“说”出来可以大大增加身临其境的感觉。将文字转为语音的TTS技术发挥了重要作用，按处理的实时性，TTS可分为流式和非流式两种，非流式TTS延迟较大，无法满足实时性要求。因此，在虚拟人应用中，一般采用流式TTS。

2.4 VR/AR

虚拟世界和现实世界的交互，除了传统的电脑、电视、手机屏幕外，还可以通过具有3D立体效果的VR头戴式设备和AR眼镜等可穿戴设备进行人机交互。

2.5 AIGC

AIGC是一种新兴的人工智能内容生成技术，既包括文字，如ChatGPT，又包括图像，如GAN和基于扩散模型的图像生成技术。在人机交互过程中，虚拟人对问题的回答的文字、语音，以及动作、口型、表情都需要使用AIGC技术生成。

3. 虚拟主播技术在智能问答中的应用

2022年8月12日，汽车之家正式宣布签约虚拟数字人IP-“宫玖羽”担任“汽车之家特邀AI体验官”。宫玖羽不仅以“机车女神”的形象满足用户的情感需求，同时也能完美支持虚拟直播、AR/VR相关应用。基于大模型的智能问答系统满足了用户的搜索、查询需求，虚拟数字人的引入增加了应用的互动属性，有助于延长用户的留存时间。

3.1 大模型问答系统

问答系统能够为用户提供快速和精准的答案，可以显著减少用户在查找信息或解决问题时所需的时间，提升用户满意度和体验，增加用户黏性，进一步提升用户留存。

大模型具备强大的自然语言理解和生成能力，但由于大模型的幻觉问题，技术团队选择使用大模型结合汽车之家搜索数据来解决用户问题。大模型主要关注两方面的能力，一方面是基于若干文档进行总结归纳出简短摘要的能力，一方面是直接生成准确答案的能力。

线上应用了基于汽车之家垂类数据训练的6B参数大模型，答案输出采用流式输出的方式，能有效减少用户等待时间，目前V100S显卡上第一个token返回时间约30ms，输出速度约25tokens/s。流程图如下图所示。

虚拟主播技术在智能问答中的应用图片

3.2 面部表情生成系统

由于智能问答系统的实时性要求，技术团队选择了推理时间较短的经典音频图像生成网络Wav2Lip，其模型结构如下图所示。

Wav2Lip模型使用了SyncNet的判别器和LipGAN的生成器，模型训练采用了两阶段的方式。在第一阶段，训练了一个用于判断嘴唇与声音是否同步的判别器；在第二阶段，采用编码-解码架构训练了一个生成器和两个判别器，其中一个判别器是第一阶段预训好的用于判断嘴唇与声音是否同步的判别器，生成器由一个身份编码器、一个语音编码器和一个人脸解码器组成，针对生成的嘴唇区域图像模糊问题，引入了另外一个图像质量判别器。

经过技术团队两个月的优化，Nvidia V100s显卡上单帧图像生成时间达到10ms，峰值显存占用3GB，综合考虑TTS及前后处理时间，最终FPS约为25，达到了实时交互的目标。此外，由于线上显卡资源有限，为了尽可能满足高并发需要，之家云部署的一个实例可以支持2个用户，线上一块Nvidia V100~16G显卡可以部署5个实例，支持10个用户并发，考虑实际并发用户量低于线上用户总量，上线之后每块显卡可支持>10个用户。

虚拟主播技术在智能问答中的应用