共查询到19条相似文献,搜索用时 171 毫秒
1.
基于数据驱动方法的汉语文本-可视语音合成 总被引:7,自引:0,他引:7
计算机文本-可视语音合成系统(TTVS)可以增强语音的可懂度,并使人机交互界面变得更为友好.给出一个基于数据驱动方法(基于样本方法)的汉语文本-可视语音合成系统,通过将小段视频拼接生成新的可视语音.给出一种构造汉语声韵母视觉混淆树的有效方法,并提出了一个基于视觉混淆树和硬度因子的协同发音模型,模型可用于分析阶段的语料库选取和合成阶段的基元选取.对于拼接边界处两帧图像的明显差别,采用图像变形技术进行平滑并.结合已有的文本-语音合成系统(TTS),实现了一个中文文本视觉语音合成系统. 相似文献
2.
为了提高语音合成自然度和稳定性,提出HMM与深度神经网络相融合的,以维吾尔语作为实验语言的语音合成方法.基于深度学习的端到端语音合成方法存在生成速度慢、稳定性及可控性不够好,但是合成语音自然度高,而基于HMM的方法系统稳定性好,合成语音自然度不如端到端的方法.因此,系统前端部分利用HMM(马尔科夫模型)获取维吾尔语固有的语言特征,后端合成部分利用深度神经网络框架建立自回归模型.前端文本分析用HMM模型获取语言特征,后端合成用不同的神经网路模型,并进行了对比试验.最后对于实验结果进行了评测.实验结果验证了基于HMM+BiLSTM的语音合成方法的效果最好. 相似文献
3.
针对藏语的语音合成问题,根据藏语的规律和特点,提出一套完整的基于HMM模型的藏语拉萨语语音合成技术解决方案。并对其中的关键技术进行阐述,包括合成前端的语料选择、拉丁转写、分词处理、文本分析,以及后端的韵律标注、声码器技术、语音建模、问题集设计等。实验结果表明,基于该方案搭建的藏语语音合成测试系统有较好的综合得分。 相似文献
4.
5.
文本分析、特殊符号处理、韵律短语划分是语音合成系统前端处理模块的核心内容。根据维吾尔语的语言和语音特征,提出一套准确可行的前端文本处理策略,很好地分析与描述了维语语言层的信息,并将之映射到语音层上。研究的完成为进一步实现维吾尔语语音合成系统打下坚实的基础。 相似文献
6.
针对手工输入查询要求的传统检索系统的不便,该文提出利用语音检索技术,设计开发了Voice Hotel宾馆信息查询系统,基本实现了人机语音对话的查询方式。该系统采用的语音处理技术有:1)基于HMM模型的语音识别,用以现实语音到文本的转换;2)PSOLA的语音合成技术,用以实现文本到语音的转换,完成对检索结果进行语音播报的功能。该系统的语音检索正确率达到85%。 相似文献
7.
郑竞华 《自动化技术与应用》2006,25(12):80-82
语音合成技术是一门应用十分广泛的技术,用于将给定的文本数据转换为语音信号输出.简要介绍了微软语音合成引擎(Microsoft speech synthesis engine)和微软语音对象库(Microsoft speech object library)的运行机制,探讨了在Visual C#平台上,使用微软语音合成引擎和微软语音对象库实现语音合成的编程方法,并设计了具体的示例对这种编程方法进行了演示. 相似文献
8.
情感语音合成作为一个新兴的语音合成方向,糅合生理学、心理学、语言学和信息科学等各学科知识,可以应用于文本阅读、信息查询发布和计算机辅助教学等领域,能够很好地将语音的口语分析、情感分析与计算机技术有机融合,为实现以人为本,具有个性化特征的语音合成系统奠定基础。目前的情感语音合成工作可分为基于规则合成和基于波形拼接合成两类。情感语音合成研究分为情感分析和语音合成两个部分。其中.情感分析的主要工作是收集不同情感的语音数据、提取声学特征,分析声学特征与情感联系;语音合成的主要工作是建立情感转换模型,利用情感转换模型实现合成。 相似文献
9.
10.
利用流媒体技术实现了一个在线语音合成系统.能在Internet/Intranet上提供实时的在线语音合成服务.系统采用了自适应技术适应网络状况的变化,并利用动态带宽分配技术管理客户端连接.保证了客户端连接的合成语音质量.系统可应用于语音邮件、语音校对、远程教学等领域. 相似文献
11.
12.
13.
14.
15.
Text-to-speech system (TTS), known also as speech synthesizer, is one of the important technology in the last years due to the expanding field of applications. Several works on speech synthesizer have been made on English and French, whereas many other languages, including Arabic, have been recently taken into consideration. The area of Arabic speech synthesis has not sufficient progress and it is still in its first stage with a low speech quality. In fact, speech synthesis systems face several problems (e.g. speech quality, articulatory effect, etc.). Different methods were proposed to solve these issues, such as the use of large and different unit sizes. This method is mainly implemented with the concatenative approach to improve the speech quality and several works have proved its effectiveness. This paper presents an efficient Arabic TTS system based on statistical parametric approach and non-uniform units speech synthesis. Our system includes a diacritization engine. Modern Arabic text is written without mention the vowels, called also diacritic marks. Unfortunately, these marks are very important to define the right pronunciation of the text which explains the incorporation of the diacritization engine to our system. In this work, we propose a simple approach based on deep neural networks. Deep neural networks are trained to directly predict the diacritic marks and to predict the spectral and prosodic parameters. Furthermore, we propose a new simple stacked neural network approach to improve the accuracy of the acoustic models. Experimental results show that our diacritization system allows the generation of full diacritized text with high precision and our synthesis system produces high-quality speech. 相似文献
16.
将文语转换技术与语音修改技术相结合,实现了一个歌词到歌曲的转换系统。首先利用一个文语转换系统将输入的歌词转换为语音,同时从歌曲的MIDI文件中提取歌曲的旋律参数,最后通过旋律控制模型对语音信号的声学特征进行修改,实现由歌词到歌曲的转换。实验结果表明,系统合成的歌曲达到了3.29的平均MOS得分。 相似文献
17.
18.
倪宏 《小型微型计算机系统》1995,16(11):42-46
本文介绍了一个基于语音参数规则合成的汉语文语转换系统。本系统采用汉语音节和词汇作为合成单元,保留了音节构词时音节与音节之间以及音节内部的超音段信息,保证了合成语音的自然度;采用目前较成功的CELP语音编码方法对合成单元进行压缩,在20多倍的情况下仍能保证合成语音的高清晰度。作者在构建系统时对系统软件的完善考虑以及对用户编程接口的设计,使得该系统成为一个有广泛用途的汉语文语转换系统。 相似文献
19.
N. P. Narendra K. Sreenivasa Rao Krishnendu Ghosh Ramu Reddy Vempada Sudhamay Maity 《International Journal of Speech Technology》2011,14(3):167-181
This paper presents the design and development of unrestricted text to speech synthesis (TTS) system in Bengali language.
Unrestricted TTS system is capable to synthesize good quality of speech in different domains. In this work, syllables are
used as basic units for synthesis. Festival framework has been used for building the TTS system. Speech collected from a female
artist is used as speech corpus. Initially five speakers’ speech is collected and a prototype TTS is built from each of the
five speakers. Best speaker among the five is selected through subjective and objective evaluation of natural and synthesized
waveforms. Then development of unrestricted TTS is carried out by addressing the issues involved at each stage to produce
good quality synthesizer. Evaluation is carried out in four stages by conducting objective and subjective listening tests
on synthesized speech. At the first stage, TTS system is built with basic festival framework. In the following stages, additional
features are incorporated into the system and quality of synthesis is evaluated. The subjective and objective measures indicate
that the proposed features and methods have improved the quality of the synthesized speech from stage-2 to stage-4. 相似文献