首页 | 本学科首页   官方微博 | 高级检索  
     

视觉语音参数的自动估计
引用本文:王志明,蔡莲红,艾海舟.视觉语音参数的自动估计[J].计算机研究与发展,2005,42(7):1185-1190.
作者姓名:王志明  蔡莲红  艾海舟
作者单位:北京科技大学计算机科学与技术系,北京,100083;清华大学计算机科学与技术系,北京,100084
基金项目:高等学校博士学科点专项科研基金项目(20010003049),北京科技大学校基金项目(20040509190),高等学校博士学科点专项科研基金项目(20010003049)
摘    要:视觉语音参数估计在视觉语音的研究中占有重要的地位.从MPEG-4定义的人脸动画参数FAP中选择24个与发音有直接关系的参数来描述视觉语音,将统计学习方法和基于规则的方法结合起来,利用人脸颜色概率分布信息和先验形状及边缘知识跟踪嘴唇轮廓线和人脸特征点,取得了较为精确的跟踪效果.在滤除参考点跟踪中的高频噪声后,利用人脸上最为突出的4个参考点估计出主要的人脸运动姿态,从而消除了全局运动的影响,最后根据这些人脸特征点的运动计算出准确的视觉语音参数,并得到了实际应用.

关 键 词:视觉语音  人脸动画参数(FAP)  混合高斯模型(GMM)  变形模板

Automatic Estimation of Visual Speech Parameters
Wang Zhiming,Cai Lianhong,Ai Haizhou.Automatic Estimation of Visual Speech Parameters[J].Journal of Computer Research and Development,2005,42(7):1185-1190.
Authors:Wang Zhiming  Cai Lianhong  Ai Haizhou
Affiliation:Wang Zhiming 1,Cai Lianhong 2,and Ai Haizhou 2 1
Abstract:Visual speech parameter estimation has an important role in the study of visual speech. In this paper, 24 speech correlating parameters are selected from MPEG-4 defined facial animation parameter (FAP) to describe visual speech. Combining the statistic learning method and rule based method, precise tracking results are obtained for mouth contour and facial feature points based on facial color probability distribution and priori knowledge on shape and edge. High frequency noise in reference points tracking is eliminated by low-pass filter, and main face pose is estimated from the four most evident reference points to remove the overall movements of the face. Finally, precise visual speech parameters are computed from the movement of these facial feature points, and these parameters have already been used in some related applications.
Keywords:visual speech  facial animation parameter (FAP)  Gaussian mixture model (GMM)  deformable template
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号