4.5 多情绪语音驱动数字人_腾讯游戏开发精粹2-QQ阅读女生短篇网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

4.5 多情绪语音驱动数字人

当完成了4.3节和4.4节中提出的中立表情的语音驱动高保真数字人之后，进一步提出假设，是否可以借助语音让数字人做出不同的面部表情呢？

本节提出了如图4.14所示的整体方案，方案的两部分主体仍然是多情绪数据采集和模型训练。

图4.14 多情绪语音驱动数字人方案示意图（图中人物为动作捕捉演员孙笑愚）

4.5.1 多情绪语音-动画数据集设计与采集

和前面解决数字人口型驱动问题的思路一致，首先进行训练数据的采集和制作。

如图4.15所示，在动作捕捉场地内，动作捕捉演员按照制作的台本和规定的情绪去表演内容，同时相关设备记录下演员的面部表演视频和声音，以及对应的情绪标签。具体地，一共采集了4类情绪视频和语音数据，分别是中立、高兴、悲伤和愤怒。获取到这些原始数据后，对于每种情绪的表演视频，分别单独制作了解算器，用来计算不同情绪的动画控制器数据。数据的其他处理过程与4.3节和4.4节的方法流程一致。这样就得到了一个多情绪语音-动画数据集。

图4.15 多情绪语音-动画数据集采集流程示意图（图中人物为动作捕捉演员孙笑愚）

当制作完多情绪语音-动画数据集后，需要训练语音驱动模型。

4.5.2 模型训练

多情绪语音驱动模型基本沿用了基于PPG特征的任意人、多语言驱动模型的架构，只是在输入端增加了一个输入源——情绪标签。采用一个4D向量来表示情绪标签，对于某一种情绪，在对应位置上置“1”，而其余位置上置“0”。其余仍然沿用相同的模型架构。

4.5.3 结果与分析

下面分别是在不同情绪标签下，语音驱动数字人Matt的结果（注：图片结果来自虚幻引擎4的渲染结果截屏）。

图4.16所示为“高兴”标签下的驱动结果。

图4.17所示为“难过”标签下的驱动结果。

图4.16 “高兴”标签下的驱动结果

图4.17 “难过”标签下的驱动结果

图4.18所示为“生气”标签下的驱动结果。

图4.18 “生气”标签下的驱动结果