首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
基于数据驱动方法的汉语文本-可视语音合成   总被引:7,自引:0,他引:7  
王志明  蔡莲红  艾海舟 《软件学报》2005,16(6):1054-1063
计算机文本-可视语音合成系统(TTVS)可以增强语音的可懂度,并使人机交互界面变得更为友好.给出一个基于数据驱动方法(基于样本方法)的汉语文本-可视语音合成系统,通过将小段视频拼接生成新的可视语音.给出一种构造汉语声韵母视觉混淆树的有效方法,并提出了一个基于视觉混淆树和硬度因子的协同发音模型,模型可用于分析阶段的语料库选取和合成阶段的基元选取.对于拼接边界处两帧图像的明显差别,采用图像变形技术进行平滑并.结合已有的文本-语音合成系统(TTS),实现了一个中文文本视觉语音合成系统.  相似文献   

2.
为了提高语音合成自然度和稳定性,提出HMM与深度神经网络相融合的,以维吾尔语作为实验语言的语音合成方法.基于深度学习的端到端语音合成方法存在生成速度慢、稳定性及可控性不够好,但是合成语音自然度高,而基于HMM的方法系统稳定性好,合成语音自然度不如端到端的方法.因此,系统前端部分利用HMM(马尔科夫模型)获取维吾尔语固有的语言特征,后端合成部分利用深度神经网络框架建立自回归模型.前端文本分析用HMM模型获取语言特征,后端合成用不同的神经网路模型,并进行了对比试验.最后对于实验结果进行了评测.实验结果验证了基于HMM+BiLSTM的语音合成方法的效果最好.  相似文献   

3.
针对藏语的语音合成问题,根据藏语的规律和特点,提出一套完整的基于HMM模型的藏语拉萨语语音合成技术解决方案。并对其中的关键技术进行阐述,包括合成前端的语料选择、拉丁转写、分词处理、文本分析,以及后端的韵律标注、声码器技术、语音建模、问题集设计等。实验结果表明,基于该方案搭建的藏语语音合成测试系统有较好的综合得分。  相似文献   

4.
屏幕文本的语音合成   总被引:2,自引:0,他引:2  
介绍了计算机语音合成系统的原理和Win32API截获技术的实现方法,并利用Win32API截获技术和清华大学SinoSonic系统实现了一个桌面文本的语音输出系统,用它可以语音合成桌面上鼠标指针下的任意文本。  相似文献   

5.
文本分析、特殊符号处理、韵律短语划分是语音合成系统前端处理模块的核心内容。根据维吾尔语的语言和语音特征,提出一套准确可行的前端文本处理策略,很好地分析与描述了维语语言层的信息,并将之映射到语音层上。研究的完成为进一步实现维吾尔语语音合成系统打下坚实的基础。  相似文献   

6.
针对手工输入查询要求的传统检索系统的不便,该文提出利用语音检索技术,设计开发了Voice Hotel宾馆信息查询系统,基本实现了人机语音对话的查询方式。该系统采用的语音处理技术有:1)基于HMM模型的语音识别,用以现实语音到文本的转换;2)PSOLA的语音合成技术,用以实现文本到语音的转换,完成对检索结果进行语音播报的功能。该系统的语音检索正确率达到85%。  相似文献   

7.
语音合成技术是一门应用十分广泛的技术,用于将给定的文本数据转换为语音信号输出.简要介绍了微软语音合成引擎(Microsoft speech synthesis engine)和微软语音对象库(Microsoft speech object library)的运行机制,探讨了在Visual C#平台上,使用微软语音合成引擎和微软语音对象库实现语音合成的编程方法,并设计了具体的示例对这种编程方法进行了演示.  相似文献   

8.
情感语音合成作为一个新兴的语音合成方向,糅合生理学、心理学、语言学和信息科学等各学科知识,可以应用于文本阅读、信息查询发布和计算机辅助教学等领域,能够很好地将语音的口语分析、情感分析与计算机技术有机融合,为实现以人为本,具有个性化特征的语音合成系统奠定基础。目前的情感语音合成工作可分为基于规则合成和基于波形拼接合成两类。情感语音合成研究分为情感分析和语音合成两个部分。其中.情感分析的主要工作是收集不同情感的语音数据、提取声学特征,分析声学特征与情感联系;语音合成的主要工作是建立情感转换模型,利用情感转换模型实现合成。  相似文献   

9.
汉语语音合成技术综述   总被引:1,自引:1,他引:0  
汉语语音合成技术经历了三十几年的发展,涌现出许多新技术、新模式.首先介绍了汉语语音合成系统的原理,在综合对比目前所有语音合成技术的基础上,以效果较好的合成技术为重点,对汉语语音合成系统的文本分析、韵律控制、语音合成、语料库的建立4个关键性模块的实现技术进行了详细论述.并针对嵌入式与PC下汉语语音合成系统的开发提出了通用的方案,为汉语语音合成系统的后续研究提供参考借鉴作用.  相似文献   

10.
利用流媒体技术实现了一个在线语音合成系统.能在Internet/Intranet上提供实时的在线语音合成服务.系统采用了自适应技术适应网络状况的变化,并利用动态带宽分配技术管理客户端连接.保证了客户端连接的合成语音质量.系统可应用于语音邮件、语音校对、远程教学等领域.  相似文献   

11.
探讨了如何根据维吾尔语的语言、语音特征,对维语文语转换系统的文本进行分析和研究。通过对维吾尔语的音节、词等语音要素的了解,分析音节的组成结构(基本满足规则:Usyl=C+V+C+C)和词语结构。在此基础上总结出了音节划分规则、词根词缀的划分规则以及重音、停顿和语调变化规则,为进一步实现维吾尔语语音合成系统打下坚实的基础。  相似文献   

12.
文语转换系统语音库中不同长度协同发音单元的选择   总被引:1,自引:0,他引:1  
本文以我们自行开发的文语转换系统为背景,根据汉语普通话的特点,从解决协同发音角度研究了文语转换系统语音库中双音节词和三音节词的选取,以及与协同发音相关的单音的选择,我们把实验的结果应用到系统中,取得了提高合成语音自然度的效果。  相似文献   

13.
盲人用计算机软件系统中的语音和自然语言处理技术   总被引:3,自引:0,他引:3  
本文介绍了智能技术与系统国家重点实验室开发的“北极光”盲人用计算机软件系统中涉及的语音和语言处理技术。该系统能够获取和分析需要反馈的屏幕信息,通过语音合成平台将其内容朗读出来,对用户进行语音提示;与汉语自动分词、语言模型等自然语言处理技术的结合,使系统能够进行汉字和盲文的转换,反馈信息可以通过盲文点显器输出,使用户能够摸读盲文点字来获取所需要的信息,用户也可以采用盲文输入法进行输入,输入结果可转换为汉字文本形式。  相似文献   

14.
讨论了语音合成系统,在输入文档中加入注释标记的重要性和必要性;以及说明迷了实现合成器之间的兼容,便于它们与其它系统集成,而制定一个统一的文本民注释方案的重要性。  相似文献   

15.
Text-to-speech system (TTS), known also as speech synthesizer, is one of the important technology in the last years due to the expanding field of applications. Several works on speech synthesizer have been made on English and French, whereas many other languages, including Arabic, have been recently taken into consideration. The area of Arabic speech synthesis has not sufficient progress and it is still in its first stage with a low speech quality. In fact, speech synthesis systems face several problems (e.g. speech quality, articulatory effect, etc.). Different methods were proposed to solve these issues, such as the use of large and different unit sizes. This method is mainly implemented with the concatenative approach to improve the speech quality and several works have proved its effectiveness. This paper presents an efficient Arabic TTS system based on statistical parametric approach and non-uniform units speech synthesis. Our system includes a diacritization engine. Modern Arabic text is written without mention the vowels, called also diacritic marks. Unfortunately, these marks are very important to define the right pronunciation of the text which explains the incorporation of the diacritization engine to our system. In this work, we propose a simple approach based on deep neural networks. Deep neural networks are trained to directly predict the diacritic marks and to predict the spectral and prosodic parameters. Furthermore, we propose a new simple stacked neural network approach to improve the accuracy of the acoustic models. Experimental results show that our diacritization system allows the generation of full diacritized text with high precision and our synthesis system produces high-quality speech.  相似文献   

16.
将文语转换技术与语音修改技术相结合,实现了一个歌词到歌曲的转换系统。首先利用一个文语转换系统将输入的歌词转换为语音,同时从歌曲的MIDI文件中提取歌曲的旋律参数,最后通过旋律控制模型对语音信号的声学特征进行修改,实现由歌词到歌曲的转换。实验结果表明,系统合成的歌曲达到了3.29的平均MOS得分。  相似文献   

17.
基于语料库的语音合成是国内外应用广泛的语音合成方法.在这种合成方法中,单元选择是语音合成的关键.通过分析藏语言文字的属性特征,设计了藏语语音合成系统模型,提出以构件、组合构件、字、词及句单元相融合的藏语语音合成方法,有效地保留了语音合成中大单元的完整性和小单元的灵活性与鲁棒性.同时,给出语音合成的单元选择策略与算法.实验数据表明:该策略与算法是有效和合理的,所选择的单元在封闭语料和开放语料上的覆盖率均达到预期目标.  相似文献   

18.
本文介绍了一个基于语音参数规则合成的汉语文语转换系统。本系统采用汉语音节和词汇作为合成单元,保留了音节构词时音节与音节之间以及音节内部的超音段信息,保证了合成语音的自然度;采用目前较成功的CELP语音编码方法对合成单元进行压缩,在20多倍的情况下仍能保证合成语音的高清晰度。作者在构建系统时对系统软件的完善考虑以及对用户编程接口的设计,使得该系统成为一个有广泛用途的汉语文语转换系统。  相似文献   

19.
This paper presents the design and development of unrestricted text to speech synthesis (TTS) system in Bengali language. Unrestricted TTS system is capable to synthesize good quality of speech in different domains. In this work, syllables are used as basic units for synthesis. Festival framework has been used for building the TTS system. Speech collected from a female artist is used as speech corpus. Initially five speakers’ speech is collected and a prototype TTS is built from each of the five speakers. Best speaker among the five is selected through subjective and objective evaluation of natural and synthesized waveforms. Then development of unrestricted TTS is carried out by addressing the issues involved at each stage to produce good quality synthesizer. Evaluation is carried out in four stages by conducting objective and subjective listening tests on synthesized speech. At the first stage, TTS system is built with basic festival framework. In the following stages, additional features are incorporated into the system and quality of synthesis is evaluated. The subjective and objective measures indicate that the proposed features and methods have improved the quality of the synthesized speech from stage-2 to stage-4.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号