音频与动作两种驱动说话人脸视频生成综述期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

音频与动作两种驱动说话人脸视频生成综述

作者姓名：	苏红旗黄玉李璐

作者单位：	中国矿业大学（北京）

摘要：	本文研究的说话人脸视频生成由于在虚拟代理、视频会议、艺术/电影制作中的广泛应用而引起了广泛的研究关注。针对说话人脸视频生成，在驱动方面，主要分为音频驱动和动作驱动，在技术方面，主要分为基于2D和基于3D的方法。在本次调查中，我们首先分别总结了人脸视频生成的音频和动作这两种驱动基于2D和3D两种方法的国内外最新进展和技术趋势，并对关键技术原理进行了详细的解释与分析。其次总结了该领域使用的基准数据集和评估指标。最后我们希望这项调查能够为深度人的生成的未来前景提供一些启示，并为数字人的全面应用提供有益的基础。
关键词：	说话人脸生成音频驱动动作驱动 2D 3D