期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杨茂巍郑伯川高春梅《电脑与微电子技术》2012,(7):3-7,19

语音驱动口型动画是人脸表情动画中非常关键的部分。在研究语音与口型动画同步问题的基础上．提出一种真实、自然的语音口型动画实现方法。该方法首先对输入语音进行大段分割;再通过SAPI识别出具体的汉语序列信息;然后将汉语序列转换为音节序列;最后通过音节序列到口型序列的转换得到舍有口型时间信息的口型序列。在动画模块中利用该口型序列驱动3D人脸模型口型动画。取得了真实、自然的语音动画同步效果。相似文献

2.

语音驱动人脸唇形动画的实现

下载免费PDF全文

林爱华张文俊王毅敏赵光俊《计算机工程》2007,33(18):239-241

提出了一种实现语音直接驱动人脸唇形动画的新方法。结合人脸唇部运动机理，建立了与唇部运动相关肌肉拉伸和下颌转动的唇形物理模型，对输入的语音信号进行分析和提取其与唇部运动相关的特征参数，并直接将其映射到唇形物理模型的控制参数上，驱动唇形动画变形，实现输入语音和唇形动画的实时同步。仿真实验结果表明，该方法有效实现了语音和唇形的实时同步，唇形动画效果更接近自然，真实感更强。且该唇形物理模型独立于人脸几何模型，可广泛应用于各类人脸唇形动画的语音驱动，具有良好的普适性和可扩展性。相似文献

3.

基于机器学习的语音驱动人脸动画方法 总被引：19，自引：0，他引：19

陈益强高文王兆其姜大龙《软件学报》2003,14(2):215-221

语音与唇动面部表情的同步是人脸动画的难点之一.综合利用聚类和机器学习的方法学习语音信号和唇动面部表情之间的同步关系,并应用于基于MEPG-4标准的语音驱动人脸动画系统中.在大规模音视频同步数据库的基础上,利用无监督聚类发现了能有效表征人脸运动的基本模式,采用神经网络学习训练,实现了从含韵律的语音特征到人脸运动基本模式的直接映射,不仅回避了语音识别鲁棒性不高的缺陷,同时学习的结果还可以直接驱动人脸网格.最后给出对语音驱动人脸动画系统定量和定性的两种分析评价方法.实验结果表明,基于机器学习的语音驱动人脸动画不仅能有效地解决语音视频同步的难题,增强动画的真实感和逼真性,同时基于MPEG-4的学习结果独立于人脸模型,还可用来驱动各种不同的人脸模型,包括真实视频、2D卡通人物以及3维虚拟人脸. 相似文献

4.

基于汉语文本驱动的人脸语音同步动画系统

下载免费PDF全文

杜鹏房宁赵群飞《计算机工程》2012,38(13):260-262,265

为解决动画流与语音流的同步问题,设计并实现一种人脸语音同步动画系统。将所有中文音素分为16组中文可视音素,并用输入的人脸图像合成对应的关键帧,分析输入文本得到中文可视音素序列和动画的关键帧序列,将该关键帧序列与语音流对齐,在关键帧之间插入过渡帧的同时,播放语音流和动画流,以实现人脸语音同步动画。实验结果表明,该系统能产生符合人们视觉和听觉感受的人脸语音同步动画。相似文献

5.

基于BTSM和DBN模型的唇读和视素切分研究

下载免费PDF全文

吕国云赵荣椿蒋冬梅蒋晓悦侯云舒H.Sahli 《计算机工程与应用》2007,43(14):21-24

为实现文本/语音驱动的说话人头部动画,本文提出基于贝叶斯切线形状模型的口形轮廓特征提取方法和基于动态贝叶斯网络（Dynamic Bayesian Network, DBN）模型的唇读系统。在描述词与它的组成视素关系的基础上,得到视素时间切分序列。为比较性能,音素DBN模型和HMM的音素识别结果被影射成视素序列。在评价准则上,提出绝对视素切分正确性和基于图像与嘴唇几何特征两种相对视素切分正确性的评价标准。实验表明,DBN模型识别性能优于HMM,而基于视素的DBN模型能为说话人头部动画提供最好的口形。相似文献

6.

校园网语音浏览系统的设计与开发

下载免费PDF全文

李红莲潘建军范京《计算机工程与应用》2010,46(27):80-82

语音识别的精度不够高始终是限制其广泛应用的瓶颈。针对具体应用中关键词汇和短语有限的特点,提出了音节相似度的概念,通过计算语音识别结果与应用域关键短语集合的音节相似度,找出最匹配结果,可有效提高语音识别应用的成功率。提出音节相似度的概念,给出利用音节相似度设计开发校园网语音浏览系统的过程。相似文献

7.

基于语音情感识别的多表情人脸动画方法

谢金晶陈益强刘军发《计算机辅助设计与图形学学报》2008,20(4):520-525

基于MPEG-4标准,实现了一种由彩铃语音及蕴含情感共同驱动生成人脸动画的方法和系统．选用HMM作为分类器,训练使其识别语音库中嗔怒、欣喜、可爱、无奈和兴奋5类情感,并对每类情感建立一组与之对应的表情人脸动画参数（FAP）．分析语音强弱得到综合表情函数,并用此函数融合表情FAP与唇动FAP,实现人脸表情多源信息合成,得到综合FAP驱动人脸网格生成动画．实验结果表明,彩铃语音情感识别率可达94．44％,该系统生成的人脸动画也具有较高的真实感．相似文献

8.

基于分形维的语音去噪与音节分割

下载免费PDF全文

潘峰丁娜娜吕鹏申军伟《计算机工程与应用》2011,47(14):131-133

为提高现有小波去噪法的处理效果,准确有效判断出连续语音中各个音节的起止点,提出了基于分形理论的算法。该算法首先利用分形维与小波变换相结合的动态阈值算法进行语音去噪,从而提取出尽可能纯净的语音信号;在此基础上,计算分形维轨线,根据其均值对音节分割点进行判定。实验结果表明,该算法较好地实现了语音去噪和音节分割,鲁棒性较好,使得系统在低信噪比情况下仍保持较高准确率,在语音识别方面有较好应用前景。相似文献

9.

一种语音和文本联合驱动的卡通人脸动画方法

涂欢周经野刘军发崔国勤谢晨《小型微型计算机系统》2007,28(12):2238-2241

提出了一种由语音和文本共同驱动的卡通人脸动画方法.建立了卡通人脸音节-视位参数库,并对音节-视位参数进行非监督聚类分析,获得32个人脸视位基本类型,基于文本信息进行音节切分,获得准确的时长参数.结合视位的基本类型和语音时长参数,可以对输入的语音/文本进行连续动画拼接.对从影视作品中收集的100条具有娱乐效果的语音/文本进行的实验表明,本文提出的方法可以克服单独的语音驱动或文本驱动的不足,取得较好的卡通人脸动画效果. 相似文献

10.

藏语口语语音语料库的设计与研究

下载免费PDF全文

黄晓辉李京马睿《计算机工程与应用》2018,54(13):231-235

基于对普通语音语料库构建方法的研究与分析,结合自然口语语音识别研究相关需求以及藏语自然口语语音的基本特点,研究设计了适用于藏语语音识别的口语语音语料库建设方案以及相应的标注规范,并据此构建了时长50小时,包含音素、半音节、音节、藏文字以及语句共5层标注信息的藏语拉萨话口语语音语料库。统计结果显示,该语料库在保留口语语音自然属性的同时,对音素、半音节等常用语音建模单元也有均衡的覆盖,为基于藏语口语语音数据的语音识别技术研究提供了可靠的数据支撑。相似文献

11.

Animating expressive faces across languages 总被引：2，自引：0，他引：2

Verma A. Subramaniam L.V. Rajput N. Neti C. Faruquie T.A. 《Multimedia, IEEE Transactions on》2004,6(6):791-800

This paper describes a morphing-based audio driven facial animation system. Based on an incoming audio stream, a face image is animated with full lip synchronization and synthesized expressions. A novel scheme to implement a language independent system for audio-driven facial animation given a speech recognition system for just one language, in our case, English, is presented. The method presented here can also be used for text to audio-visual speech synthesis. Visemes in new expressions are synthesized to be able to generate animations with different facial expressions. An animation sequence using optical flow between visemes is constructed, given an incoming audio stream and still pictures of a face representing different visemes. The presented techniques give improved lip synchronization and naturalness to the animated video. 相似文献

12.

语音驱动人脸动画中语音参数的提取技术

下载免费PDF全文

陈新周东生张强魏小鹏《计算机工程》2007,33(6):225-227

语音特征参数的提取是语音驱动人脸动画中语音可视化的前提和基础，该文立足于语音驱动的人脸动画技术，较为系统地研究了语音参数的提取。在参数精度方面，引入了用小波变换重构原始信号的思想，对重构后的信号进行参数提取，从而为语音驱动人脸动画系统建立良好的可视化映射模型奠定了基础。相似文献

13.

基于关键点表示的语音驱动说话人脸视频生成

年福东王文涛王妍张晶晶胡贵恒李腾《模式识别与人工智能》2021,34(6):572-580

针对现有语音生成说话人脸视频方法忽略说话人头部运动的问题,提出基于关键点表示的语音驱动说话人脸视频生成方法.分别利用人脸的面部轮廓关键点和唇部关键点表示说话人的头部运动信息和唇部运动信息,通过并行多分支网络将输入语音转换到人脸关键点,通过连续的唇部关键点和头部关键点序列及模板图像最终生成面部人脸视频.定量和定性实验表明,文中方法能合成清晰、自然、带有头部动作的说话人脸视频,性能指标较优. 相似文献

14.

三维语音动画聊天室的设计与实现

王洵张道义董兰芳万寿红《计算机工程与应用》2004,40(1):106-108

聊天室是人们在网上交流的一种重要手段,由于硬件设备、网络带宽的限制,目前广泛使用的聊天室只能基于文本和语音,不能基于人脸形象。以已经实现的“一个基于SAPI5.0的中文语音动画系统”为基础,设计并实现了一个结合文本、语音和人脸动画的三维语音动画聊天室。聊天室由客户端和服务器两部分组成,多个用户利用客户端连接到服务器上,用户可以输入文本并且选择各种表情,由客户端混合成带有表情标签的文本传送给服务器。服务器将该用户的三维人脸模型以及带有表情标签的文本传送给接收方,由接收方的客户端合成为带有表情的语音动画。聊天室只有发送方第一次给接收方传送信息时才需要下载人脸模型,以后只传送带有表情标签的文本,具有计算方法简单、系统通信开销小的特点,在普通微机上就能够产生带有表情的高质量的语音动画。相似文献

15.

改进Wav2Lip的文本音频驱动人脸动画生成

孙瑜朱欣娟《计算机系统应用》2024,33(2):276-283

为了提高中文唇音同步人脸动画视频的真实性, 本文提出一种基于改进Wav2Lip模型的文本音频驱动人脸动画生成技术. 首先, 构建了一个中文唇音同步数据集, 使用该数据集来预训练唇部判别器, 使其判别中文唇音同步人脸动画更加准确. 然后, 在Wav2Lip模型中, 引入文本特征, 提升唇音时间同步性从而提高人脸动画视频的真实性. 本文模型综合提取到的文本信息、音频信息和说话人面部信息, 在预训练的唇部判别器和视频质量判别器的监督下, 生成高真实感的唇音同步人脸动画视频. 与ATVGnet模型和Wav2Lip模型的对比实验表明, 本文模型生成的唇音同步人脸动画视频提升了唇形和音频之间的同步性, 提高了人脸动画视频整体的真实感. 本文成果为当前人脸动画生成需求提供一种解决方案. 相似文献

16.

一种快速鲁棒的唇部建模方法研究与实现 总被引：1，自引：2，他引：1

万里红董兰芳陈意云《计算机仿真》2006,23(9):207-210

快速提取完整的嘴唇外形是计算机人脸动画和语音动画的首要任务之一，模仿真实感的嘴唇，建立逼真的唇部模型是该文的主要目的。文中主要采用Red Exclusion与Cr色调分离相结合的唇部检测方法。该方法首先利用肤色模型快速准确确定出人脸区域及嘴唇检测区域，然后在RGB空间采用红色排除法，在已有的唇部区域中只考虑绿色和蓝色光谱将唇部从背景图像中分割出来。最后利用此法得到的唇部信息与变形模板方法相结合建立唇部模型。该算法对近百幅人脸图片进行嘴部提取实验，结果令人满意。该方法能够快速检测出完整的嘴唇外形，建立较好的唇部模型，为人脸动画提供唇部素材及唇部模型。相似文献

17.

A coupled HMM approach to video-realistic speech animation

Lei Xie^{Author Vitae} Zhi-Qiang Liu Author Vitae 《Pattern recognition》2007,40(8):2325-2340

We propose a coupled hidden Markov model (CHMM) approach to video-realistic speech animation, which realizes realistic facial animations driven by speaker independent continuous speech. Different from hidden Markov model (HMM)-based animation approaches that use a single-state chain, we use CHMMs to explicitly model the subtle characteristics of audio-visual speech, e.g., the asynchrony, temporal dependency (synchrony), and different speech classes between the two modalities. We derive an expectation maximization (EM)-based A/V conversion algorithm for the CHMMs, which converts acoustic speech into decent facial animation parameters. We also present a video-realistic speech animation system. The system transforms the facial animation parameters to a mouth animation sequence, refines the animation with a performance refinement process, and finally stitches the animated mouth with a background facial sequence seamlessly. We have compared the animation performance of the CHMM with the HMMs, the multi-stream HMMs and the factorial HMMs both objectively and subjectively. Results show that the CHMMs achieve superior animation performance. The ph-vi-CHMM system, which adopts different state variables (phoneme states and viseme states) in the audio and visual modalities, performs the best. The proposed approach indicates that explicitly modelling audio-visual speech is promising for speech animation. 相似文献