期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李欣怡张志超《计算机工程与应用》2017,53(22):21-28

利用语音来驱动人脸动画,是虚拟现实（Virtual Reality）等领域重要的智能技术,近年来虚拟现实技术的飞速发展更进一步地突出了在沉浸环境下的人机自然交流的迫切需求。语音驱动的人脸动画技术能够创造出自然生动、带有情感的动画,相对于传统预设的人脸动画而言能够更好地辅助人机交互、提升用户体验。为推进该技术的智能化程度和应用,针对语音驱动人脸动画的关键问题：音视频映射,综述了逐帧分析、多帧分析和逐音素分析的映射方法,同时也梳理了多种脸部模型的思想,动画合成、情感融合、人脸动画评价的方法,及可能的研究发展方向。相似文献

2.

语音驱动人脸动画中语音参数的提取技术

下载免费PDF全文

陈新周东生张强魏小鹏《计算机工程》2007,33(6):225-227

语音特征参数的提取是语音驱动人脸动画中语音可视化的前提和基础，该文立足于语音驱动的人脸动画技术，较为系统地研究了语音参数的提取。在参数精度方面，引入了用小波变换重构原始信号的思想，对重构后的信号进行参数提取，从而为语音驱动人脸动画系统建立良好的可视化映射模型奠定了基础。相似文献

3.

基于机器学习的语音驱动人脸动画方法 总被引：19，自引：0，他引：19

陈益强高文王兆其姜大龙《软件学报》2003,14(2):215-221

语音与唇动面部表情的同步是人脸动画的难点之一.综合利用聚类和机器学习的方法学习语音信号和唇动面部表情之间的同步关系,并应用于基于MEPG-4标准的语音驱动人脸动画系统中.在大规模音视频同步数据库的基础上,利用无监督聚类发现了能有效表征人脸运动的基本模式,采用神经网络学习训练,实现了从含韵律的语音特征到人脸运动基本模式的直接映射,不仅回避了语音识别鲁棒性不高的缺陷,同时学习的结果还可以直接驱动人脸网格.最后给出对语音驱动人脸动画系统定量和定性的两种分析评价方法.实验结果表明,基于机器学习的语音驱动人脸动画不仅能有效地解决语音视频同步的难题,增强动画的真实感和逼真性,同时基于MPEG-4的学习结果独立于人脸模型,还可用来驱动各种不同的人脸模型,包括真实视频、2D卡通人物以及3维虚拟人脸. 相似文献

4.

人脸动画中语音可视化算法研究进展 总被引：1，自引：1，他引：0

下载免费PDF全文

周东生张强魏小鹏《计算机工程与应用》2007,43(9):36-39

从人脸动画合成技术的发展、特点及应用出发,介绍了五种主要的人脸动画合成技术,重点对语音驱动的人脸动画中矢量量化、高斯混合模型、神经网络、隐马尔可夫等四种语音可视化算法的特点进行了对比分析,展望了语音可视化算法的发展与应用前景。 [关键词]：人脸动画;语音可视化相似文献

5.

语音驱动人脸唇形动画的实现

下载免费PDF全文

林爱华张文俊王毅敏赵光俊《计算机工程》2007,33(18):239-241

提出了一种实现语音直接驱动人脸唇形动画的新方法。结合人脸唇部运动机理，建立了与唇部运动相关肌肉拉伸和下颌转动的唇形物理模型，对输入的语音信号进行分析和提取其与唇部运动相关的特征参数，并直接将其映射到唇形物理模型的控制参数上，驱动唇形动画变形，实现输入语音和唇形动画的实时同步。仿真实验结果表明，该方法有效实现了语音和唇形的实时同步，唇形动画效果更接近自然，真实感更强。且该唇形物理模型独立于人脸几何模型，可广泛应用于各类人脸唇形动画的语音驱动，具有良好的普适性和可扩展性。相似文献

6.

汉语语音同步的三维口型动画研究

米辉辉侯进李克豹甘凌云《计算机应用研究》2015,32(4)

针对汉语的发音习惯以及语音可视化技术中对口型动画自然、连续的要求,提出了一种基于肌肉模型与协同发音模型的与语音保持同步的口型动画的方法.首先,根据汉语发音时的口型视位特征将声、韵母音素归类,并用数据映射的方式合成与之对应的口型关键帧.通过分析输入的文本信息,合成与语音保持同步的三维人脸口型动画.为了解决汉语发音习惯的问题,设计了一种基于微分几何学描述的协同发音建模的方法,该方法通过分析相邻音子间视素的影响权重,可以产生符合汉语发音习惯的口型动画.最后,通过实验对比和分析,该方法产生的口型动画更为逼真,且符合汉语发音的习惯. 相似文献

7.

基于深度神经网络的语音驱动发音器官的运动合成 总被引：1，自引：0，他引：1

唐郅侯进《自动化学报》2016,42(6):923-930

实现一种基于深度神经网络的语音驱动发音器官运动合成的方法,并应用于语音驱动虚拟说话人动画合成. 通过深度神经网络(Deep neural networks, DNN)学习声学特征与发音器官位置信息之间的映射关系,系统根据输入的语音数据估计发音器官的运动轨迹,并将其体现在一个三维虚拟人上面. 首先,在一系列参数下对比人工神经网络(Artificial neural network, ANN)和DNN的实验结果,得到最优网络; 其次,设置不同上下文声学特征长度并调整隐层单元数,获取最佳长度; 最后,选取最优网络结构,由DNN 输出的发音器官运动轨迹信息控制发音器官运动合成,实现虚拟人动画. 实验证明,本文所实现的动画合成方法高效逼真. 相似文献

8.

虚拟人“双簧”—与语音同步的三维人脸动画的研究

《计算机应用与软件》2015,(8)

为了有效地合成人脸语音动画,提出一种与语音同步的三维人脸口型与表情动画合成的方法。首先,根据对人脸运动解剖学的研究,构建一个基于肌肉模型与微分几何学模型的三维人脸控制模型,通过数据结构的形式去控制肌肉模型和微分几何学模型实现人脸的运动,从而实现各种口型和表情运动的变化;然后,充分考虑汉语的发音特征,提出一种基于几何描述的并且符合汉语发音习惯的协同发音模型,从而产生逼真的三维人脸语音动画。仿真结果和实验对比表明,采用该方法可以得到符合汉语发音习惯的三维人脸口型动画,且合成的三维人脸表情较为自然,逼真。相似文献

9.

基于SAPI的语音驱动口型动画方法

杨茂巍郑伯川高春梅《电脑与微电子技术》2012,(7):3-7,19

语音驱动口型动画是人脸表情动画中非常关键的部分。在研究语音与口型动画同步问题的基础上．提出一种真实、自然的语音口型动画实现方法。该方法首先对输入语音进行大段分割;再通过SAPI识别出具体的汉语序列信息;然后将汉语序列转换为音节序列;最后通过音节序列到口型序列的转换得到舍有口型时间信息的口型序列。在动画模块中利用该口型序列驱动3D人脸模型口型动画。取得了真实、自然的语音动画同步效果。相似文献

10.

基于HTK的语音驱动唇形动画的实现

高春梅郑伯川《现代计算机》2011,(27):3-7

语音驱动唇形动画的同步是人脸动画的难点之一。首先以音节为识别单位,通过严格的声韵母建模方法,利用HTK工具包,识别得到语音文件中的音节序列与时间信息;然后利用基本唇形库和音节到唇形映射表,获得与音节序列对应的唇形序列;利用唇形序列的时间信息插值播放唇形序列,实现语音驱动的唇形动画。实验表明,该方法不仅大大减少了模型数目,而且能准确识别音节序列以及时间信息,可有效地实现语音与唇动的同步。相似文献

11.

Real-time speech-driven face animation with expressions using neural networks 总被引：3，自引：0，他引：3

Pengyu Hong Zhen Wen Huang T.S. 《Neural Networks, IEEE Transactions on》2002,13(4):916-927

A real-time speech-driven synthetic talking face provides an effective multimodal communication interface in distributed collaboration environments. Nonverbal gestures such as facial expressions are important to human communication and should be considered by speech-driven face animation systems. In this paper, we present a framework that systematically addresses facial deformation modeling, automatic facial motion analysis, and real-time speech-driven face animation with expression using neural networks. Based on this framework, we learn a quantitative visual representation of the facial deformations, called the motion units (MUs). A facial deformation can be approximated by a linear combination of the MUs weighted by MU parameters (MUPs). We develop an MU-based facial motion tracking algorithm which is used to collect an audio-visual training database. Then, we construct a real-time audio-to-MUP mapping by training a set of neural networks using the collected audio-visual training database. The quantitative evaluation of the mapping shows the effectiveness of the proposed approach. Using the proposed method, we develop the functionality of real-time speech-driven face animation with expressions for the iFACE system. Experimental results show that the synthetic expressive talking face of the iFACE system is comparable with a real face in terms of the effectiveness of their influences on bimodal human emotion perception. 相似文献

12.

Audio/visual mapping with cross-modal hidden Markov models 总被引：1，自引：0，他引：1

Shengli Fu Gutierrez-Osuna R. Esposito A. Kakumanu P.K. Garcia O.N. 《Multimedia, IEEE Transactions on》2005,7(2):243-252

The audio/visual mapping problem of speech-driven facial animation has intrigued researchers for years. Recent research efforts have demonstrated that hidden Markov model (HMM) techniques, which have been applied successfully to the problem of speech recognition, could achieve a similar level of success in audio/visual mapping problems. A number of HMM-based methods have been proposed and shown to be effective by the respective designers, but it is yet unclear how these techniques compare to each other on a common test bed. In this paper, we quantitatively compare three recently proposed cross-modal HMM methods, namely the remapping HMM (R-HMM), the least-mean-squared HMM (LMS-HMM), and HMM inversion (HMMI). The objective of our comparison is not only to highlight the merits and demerits of different mapping designs, but also to study the optimality of the acoustic representation and HMM structure for the purpose of speech-driven facial animation. This paper presents a brief overview of these models, followed by an analysis of their mapping capabilities on a synthetic dataset. An empirical comparison on an experimental audio-visual dataset consisting of 75 TIMIT sentences is finally presented. Our results show that HMMI provides the best performance, both on synthetic and experimental audio-visual data. 相似文献

13.

基于IOHMM的语音驱动唇动合成系统

下载免费PDF全文

马娥娥刘颖王成儒《计算机工程》2009,35(18):283-285

针对语音驱动的唇动合成系统进行基于小波包分析的语音特征提取,采用特征差分和口形帧前后关联的多帧语音表征语音的动态特性,利用主成分分析降低输入语音的特征维数。采用基于输入输出隐马尔可夫模型（IOHMM）的音视频映射模型构建语音驱动唇动合成系统,实验表明提取的语音参数比传统Mel倒谱系数鲁棒性更好,合成的口形序列更连贯、自然。相似文献

14.

基于虚拟展厅的学生作品展示系统设计与实现

孟庆轩刘洋赵海峰《计算机时代》2014,(10):41-43

在分析学生图像作品与动画作品展示方式的基础上,基于虚拟现实技术与Unity3D开发工具,设计并完成了一个基于虚拟展厅的学生作品展示系统。重点论述了利用3ds Max进行虚拟展厅的模型制作和利用Photoshop进行虚拟展厅的贴图制作,利用Unity3D平台完成虚拟展厅的第一人称自由浏览的交互式开发,并对整个开发流程与关键技术进行了探讨。相似文献

15.

具有真实感的三维人脸动画 总被引：10，自引：0，他引：10

下载免费PDF全文

张青山陈国良《软件学报》2003,14(3):643-650

具有真实感的三维人脸模型的构造和动画是计算机图形学领域中一个重要的研究课题.如何在三维人脸模型上实时地模拟人脸的运动,产生具有真实感的人脸表情和动作,是其中的一个难点.提出一种实时的三维人脸动画方法,该方法将人脸模型划分成若干个运动相对独立的功能区,然后使用提出的基于加权狄里克利自由变形DFFD(Dirichlet free-form deformation)和刚体运动模拟的混合技术模拟功能区的运动.同时,通过交叉的运动控制点模拟功能区之间运动的相互影响.在该方法中,人脸模型的运动通过移动控制点来驱动.为了简化人脸模型的驱动,提出了基于MPEG-4中脸部动画参数FAP(facial animation parameters)流和基于肌肉模型的两种高层驱动方法.这两种方法不但具有较高的真实感,而且具有良好的计算性能,能实时模拟真实人脸的表情和动作. 相似文献

16.

Three-dimensional cartoon facial animation based on art rules

Shoukuai Liu Jiajun Wang Mingmin Zhang Zhiyong Wang 《The Visual computer》2013,29(11):1135-1149

Three-dimensional (3D) cartoon facial animation is one step further than the challenging 3D caricaturing which generates 3D still caricatures only. In this paper, a 3D cartoon facial animation system is developed for a subject given only a single frontal face image of a neutral expression. The system is composed of three steps consisting of 3D cartoon face exaggeration, texture processing, and 3D cartoon facial animation. By following caricaturing rules of artists, instead of mathematical formulations, 3D cartoon face exaggeration is accomplished at both global and local levels. As a result, the final exaggeration is capable of depicting the characteristics of an input face while achieving artistic deformations. In the texture processing step, texture coordinates of the vertices of the cartoon face model are obtained by mapping the parameterized grid of the standard face model to a cartoon face template and aligning the input face to the face template. Finally, 3D cartoon facial animation is implemented in the MPEG-4 animation framework. In order to avoid time-consuming construction of a face animation table, we propose to utilize the tables of existing models through model mapping. Experimental results demonstrate the effectiveness and efficiency of our proposed system. 相似文献

17.

面向纹理特征的真实感三维人脸动画方法 总被引：2，自引：0，他引：2

姜大龙高文王兆其陈益强《计算机学报》2004,27(6):750-757

纹理变化是人脸表情的重要组成部分，传统的人脸动画方法通常只是对纹理图像做简单的拉伸变换，没有考虑人脸细微纹理特征的变化，比如皱纹、酒窝等，该文提出了一种面向纹理特征变化的真实感三维人脸动画方法．给出局部表情比率图(Partial Expression Ratio Image，PERI)的概念及其获取方法，在此基础上，进一步给出了面向MPEG-4的PERI参数化与面向三维人脸动画的多方向PERI方法，前者通过有机结合MPEG-4的人脸动画参数(Facial Anlmation Parameter，FAP)，实现人脸动画中细微表情特征的参数化表示；后者通过多方向PERI纹理特征调整方法，使得三维人脸模型在不同角度都具有较好的细微表情特征,该文提出的方法克服了传统人脸动画只考虑人脸曲面形变控制而忽略纹理变化的缺陷，实现面向纹理变化的具有细微表情特征的真实感三维人脸动画，实验表明，该文提出的方法能有效捕捉纹理变化细节，提高人脸动画的真实感。相似文献