首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 125 毫秒
1.
一个MPEG—4兼容的人脸动画系统   总被引:15,自引:0,他引:15  
MPEG-4是一个基于对象的多媒体压缩标准,允许将中的间频视频对象(自然的或合成的)独立编码,它能够净人脸动画和多媒体通信集成在一起并且可以在低带宽的网络上控制虚拟人脸,首先介绍MPEG-4中关于人脸动画的基本概念,然后提出一个MPEG-4兼容的有脸动画系统。  相似文献   

2.
本文讲述了在基于网络的人-人交互系统中,如何利用SAPI5来进行中文语音音素的分解,介绍了SAPI5语音识别(SR)引擎所提供的服务,在一个已经实现的MPEG-4兼容的人脸动画系统基础上,阐述了其在网络人-人交互系统应用中的设计思路和具体相关实现技术.  相似文献   

3.
杜鹏  房宁  赵群飞 《计算机工程》2012,38(13):260-262,265
为解决动画流与语音流的同步问题,设计并实现一种人脸语音同步动画系统。将所有中文音素分为16组中文可视音素,并用输入的人脸图像合成对应的关键帧,分析输入文本得到中文可视音素序列和动画的关键帧序列,将该关键帧序列与语音流对齐,在关键帧之间插入过渡帧的同时,播放语音流和动画流,以实现人脸语音同步动画。实验结果表明,该系统能产生符合人们视觉和听觉感受的人脸语音同步动画。  相似文献   

4.
利用SAPI5完成中文语音音素的分解   总被引:10,自引:6,他引:4  
宋阳  刘胜兰  张燕宏 《微计算机信息》2005,21(3):230-231,27
本文讲述了在基于网络的人-人交互系统中.如何利用SAPI5来进行中文语音音素的分解,介绍了SAPI5语音识别(SR)引擎所提供的服务,在一个已经实现的MPEG-4兼容的人脸动画系统基础上,阐述了其在网络人-人交互系统应用中的设计思路和具体相关实现技术。  相似文献   

5.
USTCFACE是一个与Mpeg-4标准兼容的人脸语音动画系统。本文介绍了构建这个系统的基本原理和关键技术。这个系统能够在低带宽的网络上完成高品质的人脸动画传输任务,可以用于改善人机界面或构造虚拟社区。  相似文献   

6.
聊天室是人们在网上交流的一种重要手段,由于硬件设备、网络带宽的限制,目前广泛使用的聊天室只能基于文本和语音,不能基于人脸形象。以已经实现的“一个基于SAPI5.0的中文语音动画系统”为基础,设计并实现了一个结合文本、语音和人脸动画的三维语音动画聊天室。聊天室由客户端和服务器两部分组成,多个用户利用客户端连接到服务器上,用户可以输入文本并且选择各种表情,由客户端混合成带有表情标签的文本传送给服务器。服务器将该用户的三维人脸模型以及带有表情标签的文本传送给接收方,由接收方的客户端合成为带有表情的语音动画。聊天室只有发送方第一次给接收方传送信息时才需要下载人脸模型,以后只传送带有表情标签的文本,具有计算方法简单、系统通信开销小的特点,在普通微机上就能够产生带有表情的高质量的语音动画。  相似文献   

7.
基于机器学习的语音驱动人脸动画方法   总被引:19,自引:0,他引:19  
语音与唇动面部表情的同步是人脸动画的难点之一.综合利用聚类和机器学习的方法学习语音信号和唇动面部表情之间的同步关系,并应用于基于MEPG-4标准的语音驱动人脸动画系统中.在大规模音视频同步数据库的基础上,利用无监督聚类发现了能有效表征人脸运动的基本模式,采用神经网络学习训练,实现了从含韵律的语音特征到人脸运动基本模式的直接映射,不仅回避了语音识别鲁棒性不高的缺陷,同时学习的结果还可以直接驱动人脸网格.最后给出对语音驱动人脸动画系统定量和定性的两种分析评价方法.实验结果表明,基于机器学习的语音驱动人脸动画不仅能有效地解决语音视频同步的难题,增强动画的真实感和逼真性,同时基于MPEG-4的学习结果独立于人脸模型,还可用来驱动各种不同的人脸模型,包括真实视频、2D卡通人物以及3维虚拟人脸.  相似文献   

8.
基于MPEG-4标准,实现了一种由彩铃语音及蕴含情感共同驱动生成人脸动画的方法和系统.选用HMM作为分类器,训练使其识别语音库中嗔怒、欣喜、可爱、无奈和兴奋5类情感,并对每类情感建立一组与之对应的表情人脸动画参数(FAP).分析语音强弱得到综合表情函数,并用此函数融合表情FAP与唇动FAP,实现人脸表情多源信息合成,得到综合FAP驱动人脸网格生成动画.实验结果表明,彩铃语音情感识别率可达94.44%,该系统生成的人脸动画也具有较高的真实感.  相似文献   

9.
MPEG—4中脸部动画参数和序列重绘的肌肉模型   总被引:2,自引:0,他引:2       下载免费PDF全文
MPEG-4中定义了“人脸对象”这样一种特殊的视频对象,并通过脸部动画参数FAP和脸部定义参数FDP来对这类对象进行编码,以实现极低码率的视频编码。通过对MPEG-4中“人脸对象”这类视频码流的句法结构和参数编码方法的详细分析。以及通过对MEPG-4解码器图象重绘(rendering)过程的研究,在Waters的以肌肉收缩强度为参数的肌肉模型基础上,提出了更适应于MPEG-4参数的位移控制肌肉模型(displacement-controlling muscle model),从而实现了通过利用MEPG-4码流中的FAP和FDP参数来重建自然表情的人脸视频序列。  相似文献   

10.
使用改进的基于图像库方法HMM方法进行人脸语音动画合成过程中,为了保证结果视频流的平滑真实,在相应音素的图像帧之间进行插值产生中间帧就成为语音动画中十分重要的部分.该文介绍了从相应语音的图像帧中提取特征区域进而对其中的特征点进行定位,从而将特征区域根据需要进行划分并在前后对应音素的图像帧中进行变形进而得到流畅自然的语音动画效果的工作模块.  相似文献   

11.
1.引言人脸建模与动画(face modeling and animation)是计算机图形学中最富有挑战性的课题之一。这是因为:首先,人脸的几何形状非常复杂,其表面不但具有无数细小的皱纹,而且呈现颜色和纹理的微妙变化,因此建立精确的人脸模型、生成真实感人脸非常困难;其次,脸部运动是骨骼、肌肉、皮下组织和皮肤共同作用的结果,其运动机理非常复杂,因此生成真实感人脸动画非常困难;另外,我们人类生来就具有一种识别和  相似文献   

12.
Viseme是在语音驱动说话人头部动画中一种常用的为口形建立的音频-视频模型。本文尝试建立viseme隐马尔可夫模型(HMM),用于驱动说话人头部的语音识别系统,称为前映射系统。为了得到更精确的模型以提高识别率,引入考虑发音口形上下文的Triseme模型。但是引入Triseme模型后,随着模型数量的急剧增加将导致训练数据的严重不足。本文使用决策树状态捆绑方法来缓解这一问题,同时引入了一种以口形相似度为基础的决策树视频问题设计方法。为了比较viseme系统的性能,本文也建立了一个以phoneme为基本HMM模型的语音识别系统。在评价准则上,使用了一种客观评价说话人头部动画的加权识别率。实验表明,以viseme为基本HMM模型的前映射系统可以为说话人头部提供更加合理的口形。  相似文献   

13.
MPEG-4 body animation parameters (BAP) are used for animation of MPEG-4 compliant virtual human-like characters. Distributed virtual reality applications and networked games on mobile computers require access to locally stored or streamed compressed BAP data. Existing MPEG-4 BAP compression techniques are inefficient for streaming, or storing, BAP data on mobile computers, because: 1) MPEG-4 compressed BAP data entails a significant number of CPU cycles, hence significant, unacceptable power consumption, for the purpose of decompression, 2) the lossy MPEG-4 technique of frame dropping to reduce network throughput during streaming leads to unacceptable animation degradation, and 3) lossy MPEG-4 compression does not exploit structural information in the virtual human model. In this article, we propose two novel algorithms for lossy compression of BAP data, termed as BAP-Indexing and BAP-Sparsing. We demonstrate how an efficient combination of the two algorithms results in a lower network bandwidth requirement and reduced power for data decompression at the client end when compared to MPEG-4 compression. The algorithm exploits the structural information in the virtual human model, thus maintaining visually acceptable quality of the resulting animation upon decompression. Consequently, the hybrid algorithm for BAP data compression is ideal for streaming of motion animation data to power- and network-constrained mobile computers  相似文献   

14.
We propose a coupled hidden Markov model (CHMM) approach to video-realistic speech animation, which realizes realistic facial animations driven by speaker independent continuous speech. Different from hidden Markov model (HMM)-based animation approaches that use a single-state chain, we use CHMMs to explicitly model the subtle characteristics of audio-visual speech, e.g., the asynchrony, temporal dependency (synchrony), and different speech classes between the two modalities. We derive an expectation maximization (EM)-based A/V conversion algorithm for the CHMMs, which converts acoustic speech into decent facial animation parameters. We also present a video-realistic speech animation system. The system transforms the facial animation parameters to a mouth animation sequence, refines the animation with a performance refinement process, and finally stitches the animated mouth with a background facial sequence seamlessly. We have compared the animation performance of the CHMM with the HMMs, the multi-stream HMMs and the factorial HMMs both objectively and subjectively. Results show that the CHMMs achieve superior animation performance. The ph-vi-CHMM system, which adopts different state variables (phoneme states and viseme states) in the audio and visual modalities, performs the best. The proposed approach indicates that explicitly modelling audio-visual speech is promising for speech animation.  相似文献   

15.
We present a novel method for transferring speech animation recorded in low quality videos to high resolution 3D face models. The basic idea is to synthesize the animated faces by an interpolation based on a small set of 3D key face shapes which span a 3D face space. The 3D key shapes are extracted by an unsupervised learning process in 2D video space to form a set of 2D visemes which are then mapped to the 3D face space. The learning process consists of two main phases: 1) isomap-based nonlinear dimensionality reduction to embed the video speech movements into a low-dimensional manifold and 2) k-means clustering in the low-dimensional space to extract 2D key viseme frames. Our main contribution is that we use the isomap-based learning method to extract intrinsic geometry of the speech video space and thus to make it possible to define the 3D key viseme shapes. To do so, we need only to capture a limited number of 3D key face models by using a general 3D scanner. Moreover, we also develop a skull movement recovery method based on simple anatomical structures to enhance 3D realism in local mouth movements. Experimental results show that our method can achieve realistic 3D animation effects with a small number of 3D key face models  相似文献   

16.
构建一种基于文本和朗读语音共同驱动的双模态语音与口型匹配控制模型,充分利用文本拼音提供正确的口型视位,利用朗读语音为口型视位提供正确的时序,在此基础上对口型几何参数和时间参数进行离散化,根据汉语语音发音机理,合理控制语音的口型动作过程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号