期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Trainable Articulatory Control Models for Visual Speech Synthesis

Jonas Beskow 《International Journal of Speech Technology》2004,7(4):335-349

This paper deals with the problem of modelling the dynamics of articulation for a parameterised talking head based on phonetic input. Four different models are implemented and trained to reproduce the articulatory patterns of a real speaker, based on a corpus of optical measurements. Two of the models, (Cohen-Massaro and Öhman) are based on coarticulation models from speech production theory and two are based on artificial neural networks, one of which is specially intended for streaming real-time applications. The different models are evaluated through comparison between predicted and measured trajectories, which shows that the Cohen-Massaro model produces trajectories that best matches the measurements. A perceptual intelligibility experiment is also carried out, where the four data-driven models are compared against a rule-based model as well as an audio-alone condition. Results show that all models give significantly increased speech intelligibility over the audio-alone case, with the rule-based model yielding highest intelligibility score. 相似文献

2.

基于机器学习的语音驱动人脸动画方法 总被引：19，自引：0，他引：19

陈益强高文王兆其姜大龙《软件学报》2003,14(2):215-221

语音与唇动面部表情的同步是人脸动画的难点之一.综合利用聚类和机器学习的方法学习语音信号和唇动面部表情之间的同步关系,并应用于基于MEPG-4标准的语音驱动人脸动画系统中.在大规模音视频同步数据库的基础上,利用无监督聚类发现了能有效表征人脸运动的基本模式,采用神经网络学习训练,实现了从含韵律的语音特征到人脸运动基本模式的直接映射,不仅回避了语音识别鲁棒性不高的缺陷,同时学习的结果还可以直接驱动人脸网格.最后给出对语音驱动人脸动画系统定量和定性的两种分析评价方法.实验结果表明,基于机器学习的语音驱动人脸动画不仅能有效地解决语音视频同步的难题,增强动画的真实感和逼真性,同时基于MPEG-4的学习结果独立于人脸模型,还可用来驱动各种不同的人脸模型,包括真实视频、2D卡通人物以及3维虚拟人脸. 相似文献

3.

Audiovisual Speech Synthesis

G. Bailly M. Bérar F. Elisei M. Odisio 《International Journal of Speech Technology》2003,6(4):331-346

相似文献

4.

小波变换在人脸语音动画合成中的应用

万寿红董兰芳王洵《计算机工程与应用》2005,41(28):49-51

提出了一种基于小波变换的人脸语音动画合成的平滑方法:将小波变换与数学形态学相结合,从相应音素的图像帧中提取出特征区域的边缘,实现特征点的精确定位。在此基础上进一步对相应区域进行三角剖分,通过前后两帧图像之间的变形产生中间帧,最终合成较为平滑、真实的人脸语音动画效果。相似文献

5.

视觉语音参数的自动估计

王志明蔡莲红艾海舟《计算机研究与发展》2005,42(7):1185-1190

视觉语音参数估计在视觉语音的研究中占有重要的地位.从MPEG-4定义的人脸动画参数FAP中选择24个与发音有直接关系的参数来描述视觉语音,将统计学习方法和基于规则的方法结合起来,利用人脸颜色概率分布信息和先验形状及边缘知识跟踪嘴唇轮廓线和人脸特征点,取得了较为精确的跟踪效果.在滤除参考点跟踪中的高频噪声后,利用人脸上最为突出的4个参考点估计出主要的人脸运动姿态,从而消除了全局运动的影响,最后根据这些人脸特征点的运动计算出准确的视觉语音参数,并得到了实际应用. 相似文献

6.

汉语文本-可视语音转换的研究 总被引：9，自引：1，他引：9

王志明蔡莲红吴志勇陶建华《小型微型计算机系统》2002,23(4):474-477

本文通过对发音者可见器官动作的研究 ,从视觉方面抽取汉语发音的 2 6个基本口形 ,并利用 MPEG- 4所规定的面部动画参数 (FAP)来描述这些口形 ,从而获得了符合国际标准的描述汉语发音的视觉参数 .另外 ,我们研究了这些参数在连续语流中的变化及协同发音对口形的影响 ,基于已有的汉语文语转换系统 (Sonic)和二维网格人脸模型(Plane Face)实现了一个汉语文本 -可视语音转换系统 (TTVS) 相似文献

7.

文本－视觉语音合成综述 总被引：3，自引：1，他引：2

王志明陶建华《计算机研究与发展》2006,43(1):145-152

视觉信息对于理解语音的内容非常重要.不只是听力有障碍的人,普通人在交谈过程中也存在着一定程度的唇读,尤其是在语音质量受损的噪声环境下.正如文语转换系统可以使计算机像人一样讲话,文本－视觉语音合成系统可以使计算机模拟人类语音的双模态性,让计算机界面变得更为友好.回顾了文本－视觉语音合成的发展.文本驱动的视觉语音合成的实现方法可以分为两类：基于参数控制的方法和基于数据驱动的方法.详细介绍了参数控制类中的几个关键问题和数据驱动类中的几种不同实现方法,比较了这两类方法的优缺点及不同的适用环境. 相似文献

8.

英语语音合成中基于DFGA的字音转换算法 总被引：1，自引：1，他引：0

王永生柴佩琪宣国荣《计算机工程与应用》2006,42(13):158-161,190

在英语语音合成中,由于英语有着几乎无限多的词汇,我们不可能创建包含所有词汇的词库。因而对于未包含在词库中的英语单词,通过“字素转换成音素(G2P)”算法自动生成其音标是一个最好的解决办法。为此,论文提出了一种动态有限泛化法(DFGA)的机器学习算法,用于进行字素/音素转换规则的学习。用于学习的词典库有27040个单词,其中90%的词用于规则学习,剩下的10%用于测试。经过10轮交叉验证,学习集和测试集的平均字素转换正确率为99.78%和93.14%,平均单词转换正确率为99.56%和73.51%。相似文献

9.

视觉可供性研究综述

下载免费PDF全文

李云龙卿粼波韩龙玫王昱晨《计算机工程与应用》2022,58(18):1-15

可供性是指在环境内物体所提供的一系列交互可能,描述环境属性与个体之间的连接过程。其中,视觉可供性研究即通过使用图像、视频等视觉数据,探究视觉主体与环境或物体交互的可能性,涉及到场景识别、动作识别、物体检测等相关领域。视觉可供性可广泛应用于机器人、场景理解等领域。根据目前已有的相关研究,按功能可供性、行为可供性、社交可供性三方面对视觉可供性进行分类,并针对每一类可供性检测方法按照传统机器学习方法和深度学习方法进行详细论述。对当前典型的视觉可供性数据集进行归纳与分析,对视觉可供性的应用方向及未来可能的研究方向进行讨论。相似文献

10.

用VC#编程实现语音合成

郑竞华《自动化技术与应用》2006,25(12):80-82

语音合成技术是一门应用十分广泛的技术,用于将给定的文本数据转换为语音信号输出.简要介绍了微软语音合成引擎(Microsoft speech synthesis engine)和微软语音对象库(Microsoft speech object library)的运行机制,探讨了在Visual C#平台上,使用微软语音合成引擎和微软语音对象库实现语音合成的编程方法,并设计了具体的示例对这种编程方法进行了演示. 相似文献

11.

基于汉语节律特征描述的语音合成模型

下载免费PDF全文

吴禀雅琚春华《计算机工程与科学》2007,29(10):128-131

汉语节律的合理使用能使合成语音表现出语篇的正确内涵和感情色彩。本文介绍了一种基于汉语节律特征描述的语音合成模型。本文首先介绍了汉语节律的停延、词重音、句重音、变调、调模等节律特征的分析和提取,详细描述了节律特征的各类情形,并阐述了基于汉语节律的语音合成算法模型,包括切词、标注、分析、定模、修正、输出的处理流程和合成语音声学参数序列{（h,l,s）}的生成。最后,给出了语音合成模型的实验结果与分析。相似文献

12.

Kinect驱动的人脸动画合成技术研究 总被引：1，自引：0，他引：1

李俊龙章登义黄珺《计算机工程》2015,(3):237-241

三维人脸动画合成技术可以应用于虚拟现实、角色控制等多个领域。为此,提出一种基于Kinect的人脸动画合成方法。人脸跟踪客户端利用Kinect对用户的脸部表情进行跟踪识别,得到人脸表情动画参数,通过socket发送给人脸动画合成服务器,由人脸动画合成服务器查找基于MPEG-4标准的人脸动画定义表,控制人脸模型的变形,从而实时合成与用户表情相对应的三维人脸动画。实验结果表明,该方法能够在满足实时性要求的条件下合成高质量的三维人脸动画,同现有技术相比,结构简单、容易部署且具有较好的可扩展性。相似文献

13.

Morphable Models for the Analysis and Synthesis of Complex Motion Patterns

Giese Martin A. Poggio Tomaso 《International Journal of Computer Vision》2000,38(1):59-73

The linear combination of prototypical views provides a powerful approach for the recognition and the synthesis of images of stationary three-dimensional objects. In this article, we present initial results that demonstrate that similar ideas can be developed for the recognition and synthesis of complex motion patterns. We present a technique that permits to represent complex motion or action patterns by linear combinations of a small number of prototypical image sequences. We demonstrate the applicability of this new approach for the synthesis and analysis of biological motion using simulated and real video data from different locomotion patterns. Our results show that complex motion patterns are embedded in pattern spaces with a defined topological structure, which can be uncovered with our methods. The underlying pattern space seems to have locally, but not globally, the properties of a linear vector space. We show how the knowledge about the topology of the pattern space can be exploited during pattern recognition. Our method may provide a new interesting approach for the analysis and synthesis of video sequences and complex movements. 相似文献

14.

基于HMM的可训练中文语音合成 总被引：1，自引：0，他引：1

吴义坚王仁华《中文信息学报》2006,20(4):77-83

本文将基于HMM的可训练语音合成方法应用到中文语音合成。通过对HMM建模参数的合理选择和优化,并基于中文语音特性设计上下文属性集以及用于模型聚类的问题集,提高其建模和训练效果。从对比评测实验结果来看, 98.5%的合成语音在改进后其音质得到改善。此外,针对合成语音节奏感不强的问题,提出了一种基于状态和声韵母单元的两层模型用于时长建模和预测,集外时长预测RMSE由29,56ms降为27.01ms。从最终的合成系统效果来看,合成语音整体稳定流畅,而且节奏感也比较强。由于合成系统所需的存贮量非常小,特别适合嵌入式应用。相似文献

15.

支持重音合成的汉语语音合成系统 总被引：1，自引：1，他引：1

朱维彬《中文信息学报》2007,21(3):122-128

针对基于单元挑选的汉语语音合成系统中重音预测及实现,本文采用了知识指导下的数据驱动建模策略。首先,采用经过感知结果优化的重音检测器,实现了语音数据库的自动标注;其次,利用重音标注数据库,训练得到支持重音预测的韵律预测模型;用重音韵律预测模型替代原语音合成系统中的相应模型,从而构成了支持重音合成的语音合成系统。实验结果分析表明,基于感知结果优化的重音检测器的标注结果是可靠的;支持重音的韵律声学预测模型是合理的;新的合成系统能够合成出带有轻重变化的语音。相似文献

16.

跨模态信息融合的端到端语音翻译

刘宇宸宗成庆《软件学报》2023,34(4):1837-1849

语音翻译旨在将一种语言的语音翻译成另一种语言的语音或文本. 相比于级联式翻译系统, 端到端的语音翻译方法具有时间延迟低、错误累积少和存储空间小等优势, 因此越来越多地受到研究者们的关注. 但是, 端到端的语音翻译方法不仅需要处理较长的语音序列, 提取其中的声学信息, 而且需要学习源语言语音和目标语言文本之间的对齐关系, 从而导致建模困难, 且性能欠佳. 提出一种跨模态信息融合的端到端的语音翻译方法, 该方法将文本机器翻译与语音翻译模型深度结合, 针对语音序列长度与文本序列长度不一致的问题, 通过过滤声学表示中的冗余信息, 使过滤后的声学状态序列长度与对应的文本序列尽可能一致; 针对对齐关系难学习的问题, 采用基于参数共享的方法将文本机器翻译模型嵌入到语音翻译模型中, 并通过多任务训练方法学习源语言语音与目标语言文本之间的对齐关系. 在公开的语音翻译数据集上进行的实验表明, 所提方法可以显著提升语音翻译的性能. 相似文献

17.

Comparison Between Deep Learning Models and Traditional Machine Learning Approaches for Facial Expression Recognition in Ageing Adults

下载免费PDF全文

Caroppo Andrea Leone Alessandro Siciliano Pietro 《计算机科学技术学报》2020,35(5):1127-1146

Journal of Computer Science and Technology - Facial expression recognition is one of the most active areas of research in computer vision since one of the non-verbal communication methods by which... 相似文献

18.

基于多元激励的高质量语音合成声学模型

陶建华康永国《中文信息学报》2004,18(3):74-81

传统的参数语音合成系统,多采用单纯的源滤波模型,缺少变化,通常导致在韵律变化较大或生成特定语气时,音质损伤较大。本文则在语音逆滤波过程的基础上,对声源在不同韵律特征和音色条件下的变化进行了仔细的比较分析,通过声源的重构、分类,进而形成了适用于多种韵律特征和音色特征的多元激励(Multi - Source , MS)模型。在此基础构建了基于多元激励的语音合成的声学模型,在一定意义上较大的提高了语音合成在大范围语气变化中的合成质量,对个性化语音合成,以及超小型语音合成系统的建立起到了较好的推动作用。相似文献

19.

基于音素及其特征参数的维吾尔语音合成技术 总被引：4，自引：0，他引：4

姑丽加玛丽·麦麦提艾力艾斯卡尔·艾木都拉《中文信息学报》2008,22(4):100-104

首先建立了由维吾尔语中的单音素、双音素所构成的小规模语音语料库,设计了相应的拼接单元挑选算法,利用参数调整算法对拼接单元语音信号的时长、基频和短时能量等特征参数进行调整,并利用时域平滑算法对拼接点处的语音参数进行调整,从而进一步提高了合成语音的自然度。用C Sharp 编程语言实现了上述算法,试验结果表明研究思路和技术方案的可行性。该系统具有语料库小,合成语音的可懂度和自然度较高等优势。相似文献

20.

自闭症干预中无监督自编码的语音情感识别

葛磊强彦赵涓涓《软件学报》2016,27(S2):130-136

语音情感识别是人机交互中重要的研究内容,儿童自闭症干预治疗中的语音情感识别系统有助于自闭症儿童的康复,但是由于目前语音信号中的情感特征多而杂,特征提取本身就是一项具有挑战性的工作,这样不利于整个系统的识别性能.针对这一问题,提出了一种语音情感特征提取算法,利用无监督自编码网络自动学习语音信号中的情感特征,通过构建一个3层的自编码网络提取语音情感特征,把多层编码网络学习完的高层特征作为极限学习机分类器的输入进行分类,其识别率为84.14%,比传统的基于提取人为定义特征的识别方法有所提高. 相似文献