共查询到18条相似文献,搜索用时 46 毫秒
1.
2.
针对汉语的发音习惯以及语音可视化技术中对口型动画自然、连续的要求,提出了一种基于肌肉模型与协同发音模型的与语音保持同步的口型动画的方法.首先,根据汉语发音时的口型视位特征将声、韵母音素归类,并用数据映射的方式合成与之对应的口型关键帧.通过分析输入的文本信息,合成与语音保持同步的三维人脸口型动画.为了解决汉语发音习惯的问题,设计了一种基于微分几何学描述的协同发音建模的方法,该方法通过分析相邻音子间视素的影响权重,可以产生符合汉语发音习惯的口型动画.最后,通过实验对比和分析,该方法产生的口型动画更为逼真,且符合汉语发音的习惯. 相似文献
3.
基于机器学习的语音驱动人脸动画方法 总被引:19,自引:0,他引:19
语音与唇动面部表情的同步是人脸动画的难点之一.综合利用聚类和机器学习的方法学习语音信号和唇动面部表情之间的同步关系,并应用于基于MEPG-4标准的语音驱动人脸动画系统中.在大规模音视频同步数据库的基础上,利用无监督聚类发现了能有效表征人脸运动的基本模式,采用神经网络学习训练,实现了从含韵律的语音特征到人脸运动基本模式的直接映射,不仅回避了语音识别鲁棒性不高的缺陷,同时学习的结果还可以直接驱动人脸网格.最后给出对语音驱动人脸动画系统定量和定性的两种分析评价方法.实验结果表明,基于机器学习的语音驱动人脸动画不仅能有效地解决语音视频同步的难题,增强动画的真实感和逼真性,同时基于MPEG-4的学习结果独立于人脸模型,还可用来驱动各种不同的人脸模型,包括真实视频、2D卡通人物以及3维虚拟人脸. 相似文献
4.
5.
语音驱动唇形动画的同步是人脸动画的难点之一。首先以音节为识别单位,通过严格的声韵母建模方法,利用HTK工具包,识别得到语音文件中的音节序列与时间信息;然后利用基本唇形库和音节到唇形映射表,获得与音节序列对应的唇形序列;利用唇形序列的时间信息插值播放唇形序列,实现语音驱动的唇形动画。实验表明,该方法不仅大大减少了模型数目,而且能准确识别音节序列以及时间信息,可有效地实现语音与唇动的同步。 相似文献
6.
7.
构建一种基于文本和朗读语音共同驱动的双模态语音与口型匹配控制模型,充分利用文本拼音提供正确的口型视位,利用朗读语音为口型视位提供正确的时序,在此基础上对口型几何参数和时间参数进行离散化,根据汉语语音发音机理,合理控制语音的口型动作过程。 相似文献
8.
本文主要研究利用改进的HMM模型从非特定人的连续语音中识别出声母、韵母,以及每个音的持续时间,提出了这些语音信息与嘴巴的扩张程度、嘴型和持续时间等口型信息的关系,以便把它们传送给步进电机,(以驱动实物模型。 相似文献
9.
利用语音来驱动人脸动画,是虚拟现实(Virtual Reality)等领域重要的智能技术,近年来虚拟现实技术的飞速发展更进一步地突出了在沉浸环境下的人机自然交流的迫切需求。语音驱动的人脸动画技术能够创造出自然生动、带有情感的动画,相对于传统预设的人脸动画而言能够更好地辅助人机交互、提升用户体验。为推进该技术的智能化程度和应用,针对语音驱动人脸动画的关键问题:音视频映射,综述了逐帧分析、多帧分析和逐音素分析的映射方法,同时也梳理了多种脸部模型的思想,动画合成、情感融合、人脸动画评价的方法,及可能的研究发展方向。 相似文献
10.
11.
用Delphi实现基于SAPI的电脑语音控制应用程序 总被引:10,自引:2,他引:10
介绍了语音功能的基本概念,讨论了开发具有语音控制功能应用程序的条件和步骤。并用Delphi实现了一个基于微软SAPI的语音控制应用程序,此程序可以用方便的扩展以实现更多语音控制功能。 相似文献
12.
13.
基于语音的计算机应用辅助系统的研究 总被引:2,自引:2,他引:2
本文首先描述了微软语音技术以及如何利用WindowsAPI函数实现屏幕取词和屏幕放大的功能,并结合这些技术提出了一种有效简化计算机使用的应用辅助系统的设计方案,最后分析了系统的结构和操作流程,从而给出了可行的解决方法。 相似文献
14.
非监督、多级嘴唇区域分割方法 总被引:2,自引:1,他引:2
该文介绍了一个非监督、多级嘴唇区域分割检测方法。首先提出利用fisher变换增强嘴唇区域,然后利用嘴唇在人脸区域的分布面积比,提出利用统计阈值完成嘴唇的初步分割,最后利用嘴唇对称性和轮廓光滑性的先验知识,提出了基于局部阈值调整完成嘴唇的精细分割。实验证明该方法在不同光照条件下、对不同人、各种表情都能自动地、鲁棒地、精确地检测出嘴唇区域,并较准确提取初步的嘴唇几何参数。利用这些几何参数作为轮廓定位的初始化条件,可以大大提高变形模板和ASM模型等嘴唇轮廓定位算法的速度和准确度。 相似文献
15.
为了提高中文唇音同步人脸动画视频的真实性, 本文提出一种基于改进Wav2Lip模型的文本音频驱动人脸动画生成技术. 首先, 构建了一个中文唇音同步数据集, 使用该数据集来预训练唇部判别器, 使其判别中文唇音同步人脸动画更加准确. 然后, 在Wav2Lip模型中, 引入文本特征, 提升唇音时间同步性从而提高人脸动画视频的真实性. 本文模型综合提取到的文本信息、音频信息和说话人面部信息, 在预训练的唇部判别器和视频质量判别器的监督下, 生成高真实感的唇音同步人脸动画视频. 与ATVGnet模型和Wav2Lip模型的对比实验表明, 本文模型生成的唇音同步人脸动画视频提升了唇形和音频之间的同步性, 提高了人脸动画视频整体的真实感. 本文成果为当前人脸动画生成需求提供一种解决方案. 相似文献
16.
Animation of a B-Spline figure 总被引:4,自引:1,他引:4
Summary In this paper we describe how the use of B-Spline surfaces allows lissom movements of body and face. Our method is empirical, based on a parametrical animation. It can be combined with a muscles model for facial animation as we illustrated for the speech. 相似文献
17.
随着移动设备的快速发展,使得语音识别系统大量地从实验室的PC平台转移到嵌入式设备中。将嵌入式语音识别与现有的嵌入式平台的各种应用软件相结合,能够使现有的各种应用软件(包括操作系统)增添便利的人机交互的语音界面。论文在基于Intel PXA270嵌入式微处理器开发平台上实现了WinCE操作系统的定制和移植;并结合WINCE5.0语音接口Speech Application Programming Interface(SAPI5.0),使用Embedded Visual C++4.0(EVC)成功开发嵌入式语音识别系统。 相似文献
18.
随着移动设备的快速发展,使得语音识别系统大量地从实验室的PC平台转移到嵌入式设备中。将嵌入式语音识别与现有的嵌入式平台的各种应用软件相结合,能够使现有的各种应用软件(包括操作系统)增添便利的人机交互的语音界面。论文在基于Intel PXA270嵌入式微处理器开发平台上实现了WinCE操作系统的定制和移植:并结合WINCE5.0语音接口Speech Application Programming Interface(SAPI5.0),使用Embedded Visual C++4.0(EVC)成功开发嵌入式语音识别系统。 相似文献