首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 656 毫秒
1.
竞争型神经网络在汉语TTS系统中的应用   总被引:1,自引:0,他引:1  
在汉语TTS系统韵律模型中改善文本处理能力可提高汉语语音合成系统的语音输出质量,针对上述问题,该文提出了竞争型神经网络在汉语TTS(Text to speech)韵律建模中的应用,通过对输入的多个不同韵律特征的模板样本进行竞争,最终选择与自然语音最匹配的那个样本模板,听辨的结果证明,竞争型神经网络模型合成语音的自然度得到进一步的提高。  相似文献   

2.
文本分析、特殊符号处理、韵律短语划分是语音合成系统前端处理模块的核心内容。根据维吾尔语的语言和语音特征,提出一套准确可行的前端文本处理策略,很好地分析与描述了维语语言层的信息,并将之映射到语音层上。研究的完成为进一步实现维吾尔语语音合成系统打下坚实的基础。  相似文献   

3.
汉语语音合成技术综述   总被引:1,自引:1,他引:0  
汉语语音合成技术经历了三十几年的发展,涌现出许多新技术、新模式.首先介绍了汉语语音合成系统的原理,在综合对比目前所有语音合成技术的基础上,以效果较好的合成技术为重点,对汉语语音合成系统的文本分析、韵律控制、语音合成、语料库的建立4个关键性模块的实现技术进行了详细论述.并针对嵌入式与PC下汉语语音合成系统的开发提出了通用的方案,为汉语语音合成系统的后续研究提供参考借鉴作用.  相似文献   

4.
基于统计韵律模型的汉语语音合成系统的研究   总被引:2,自引:4,他引:2  
本文论述了采用统计模型进行汉语韵律层级结构分析和韵律建模的思路,在此基础上建立了汉语语音合成系统。其中,本文还仔细阐述了韵律代价函数的构造,及其参数的自动训练算法。同时,论文还分析了韵律特征间相互作用对音节基元选取的影响,并最终实现了一个连续语流中用于汉语语音合成的音节基元选取模型。测试表明了本文提出的基于统计模型的韵律层级分析和韵律建模思路,能够较好应用于汉语语音合成系统的构造,并使之具有良好的合成语音的自然度。  相似文献   

5.
简要分析中文语音合成的整个过程,并进行初步研究和实践,提出基于语音数据库的语音合成的程序实现方式.通过简单文本处理和注音后,从语音库中读取语音数据进行拼接,经语音合成后,封装成Wave格式送给播放程序进行播放.编程实现采用C#语言,调用Windows系统API函数进行开发,语音数据库存储使用SQL Server 2005.  相似文献   

6.
针对现今大规模语料库TTS系统要求有较大的存贮空间的特点,改进设计了一种基于双音素声韵母的嵌入式语音合成系统,并对其语音合成质量的提高采取了多种算法以及措施,使其可以顺利运行在存贮空间和运算速度都受限的嵌入式环境下,并尽可能的保证较高的语音合成质量。  相似文献   

7.
针对现今大规模语料库TTS系统要求有较大的存贮空间的特点,改进设计了一种基于双音素声韵母的嵌入式语音合成系统,并对其语音合成质量的提高采取了多种算法以及措施,使其可以顺利运行在存贮空间和运算速度都受限的嵌入式环境下,并尽可能的保证较高的语音合成质量。  相似文献   

8.
韵律边界对言语表达的自然度和可理解度有着重要作用。韵律建模也是语音合成、语音理解中的重要方面。该文从相邻声调的相互作用角度出发,提出基于深度神经网络(DNN)及声调核声学特征的汉语韵律边界检测方法。该方法首先采用声调核部分的声学特征来计算边界检测相关参数。然后,利用深度神经网络进行建模。作为对比,实验中采用了以整个音节的声学特征为输入特征的基线系统。结果表明,只使用调核部分声学特征的系统优于使用整个音节的系统,韵律边界检测正确率相对提高了4%,这表明该文提出的汉语韵律边界检测方法的有效性。  相似文献   

9.
基于SPCE061A的语音识别系统的设计   总被引:1,自引:1,他引:0  
系统采用凌阳SPCE061A单片机作为语音识别系统的主控芯片.通过硬件电路设计和软件代码部分成功的设计并实现了一种具有语音识别功能、语音提示(语音合成)及语音回放(语音编码记录)功能的嵌入式语音识别系统.语音识别模型采用(DHMM)离散隐马尔可夫模型,利用Baum-welth重估算法、前向后向算法、viterbi算法来完成语音模板的训练和语音识别的任务.  相似文献   

10.
支持重音合成的汉语语音合成系统   总被引:1,自引:1,他引:1  
针对基于单元挑选的汉语语音合成系统中重音预测及实现,本文采用了知识指导下的数据驱动建模策略。首先,采用经过感知结果优化的重音检测器,实现了语音数据库的自动标注;其次,利用重音标注数据库,训练得到支持重音预测的韵律预测模型;用重音韵律预测模型替代原语音合成系统中的相应模型,从而构成了支持重音合成的语音合成系统。实验结果分析表明,基于感知结果优化的重音检测器的标注结果是可靠的;支持重音的韵律声学预测模型是合理的;新的合成系统能够合成出带有轻重变化的语音。  相似文献   

11.
基于结构助词驱动的韵律短语界定的研究   总被引:10,自引:5,他引:5  
应宏  蔡莲红 《中文信息学报》1999,13(6):42-46,64
提高合成语音的自然度是汉语文语转换系统(CTTS)的核心任务,而韵律短语的界定扮演着重要的角色。本文通过分析虚词的特征,研究了结构助词在连续语流中的特点、地位,以及在韵律短语界定中的作用,得到了一组相应的规则和结论。  相似文献   

12.
This paper describes a set of experiments aiming at the construction and evaluation of a new phrasing module for European Portuguese text-to-speech synthesis, using classification and regression trees learned from hand-labelled texts. Using the assessment criteria of matching boundary predictions against the corresponding labelled ones, the best solution achieves an overall performance of 91.9%, with 86.3% of correctly assigned breaks and 4.3% of false insertions. Although in absolute terms such scores may be considered surprisingly good given the size of the training set, the total number of exact matches at the sentence level is much lower (22%). This suggested a more formal experiment to test the acceptability of the predicted phrasing in the judgement of human evaluators. As the model was not trained on a labelled speech corpus but on hand-labelled texts, the reference phrasing needed also to be assessed. The evaluation experiment involved 90 participants who were asked to grade both the automatic and the reference phrasings, and also to express their opinion on where the breaks should be placed. As expected, the results showed a large variability among the subjects in their acceptance of a specific sentence partition, and criteria had to be defined to summarise the data from the different evaluators. With the adopted criteria, the performance of the automatic assignment procedure at the sentence level is better rated by human evaluators than by simple matching with the reference corpus (78% vs. 22%, respectively).  相似文献   

13.
基于语法信息的汉语韵律结构预测   总被引:8,自引:4,他引:8  
韵律结构的预测, 主要包括短语的自动切分和重音的等级分布两个大的方面。本文在概述汉语韵律结构的基础上, 根据从自然话语中获得的韵律结构与句法结构和词性的关系, 用一种新的方法,通过文本分析,全面地预测韵律边界的位置分布及其等级差异,并进一步预测重音的位置分布及其等级差异。  相似文献   

14.
基于规则学习的韵律结构预测   总被引:11,自引:4,他引:11  
韵律结构的分析和预测作为提高语音合成系统自然度的一个重要核心组成, 日益受到重视。本文提出了一种基于规则学习的汉语韵律结构预测方法, 该方法从人工韵律标注的语料库中抽取语言学特征和两级韵律结构标记, 构建了实例数据库(example database), 再利用规则学习(rule learning)算法从实例中自动归纳韵律短语预测规则。本文通过大量的实验挑选出对于汉语韵律结构预测最有效的特征, 采用和比较了两种典型的规则学习算法。同时, 对于实验结果给出了较为系统的评价参数。实践表明, 规则学习算法用于韵律结构预侧达到了90%以上的正确率, 优于目前其他方法的结果, 是一种行之有效的办法。  相似文献   

15.
汉语韵律短语的时长与音高研究   总被引:2,自引:1,他引:1  
语句和篇章的韵律结构和信息结构的分析及模型化是提高语音合成的自然度、降低自然语言识别错误率的关键。该文在带有韵律标注ASCCD语料库的基础上对韵律短语的时长和音高特性进行了研究,得到并验证了如下一些结论:(1)韵律短语边界对音节时长有明显的延长作用,不同声调对音节的时长延长作用不同,并且不同的重音级别对音节时长的延长作用也不同。(2)韵律短语边界处中断的时长在较小的韵律边界表现的更为明显。韵律短语的边界处发生了明显的音高重置现象,韵律短语的音高低线总是下降的,而音高高线只是在重音后下降,并且重音处的音域大而且音高高线的位置高。  相似文献   

16.
焦点是语言学界广泛关注的问题。随着实验语音学与心理语言学的发展,国内外对焦点的韵律表达及认知加工方面的研究发展迅速,主要涉及焦点的语音与音系表征、焦点与重音的对应关系,以及句子理解中焦点加工与韵律加工的大脑机制等问题。该文从这一角度对相关研究进行回顾与总结,介绍该领域的发展状况及主要研究方向并提出见解和评论,以期对今后的研究有所启发。  相似文献   

17.
基于FD—PSOLA算法的语音合成分析方法   总被引:3,自引:0,他引:3  
介绍了一种基于FD-PSOLA算法来实现汉语韵律特征的修改。在短时信号频域修改的过程中,通过同态滤波处理分离了频谱包络和激励源频谱,并通过修改频率轴坐标来实现激励源频谱的压缩或拉伸。实验结果表明,FD-PSOLA算法比TD-PSOLA算法更适合于较高频率调整范围的语音合成分析。  相似文献   

18.
在文语转换系统中,从文本中预测出准确的韵律结构对于提高合成语音的自然度具有重要的作用。利用10 000句标注了词性标记的文本语料,在语言学专家的指导下,人工标注了语料的韵律词和韵律短语。选择了标注结果一致性最高的500句语句,标注了语法层级结构,并利用语法树高度描述语法词之间连接的紧密程度。通过分析韵律短语边界与语法结构的关系,发现韵律短语边界受语法树高度、语法词词性和语法词词长的影响,因此选择了这三个特征,利用TBL算法和400句训练语句训练了预测模型。测试集上的预测结果表明,提出的方法在小规模训练语料下,韵律短语预测的精确率达到了75.2%,召回率达到了77.1%,F-Score达到了76.1%。  相似文献   

19.
This paper presents an original approach to automatic prosodic labeling. Fuzzy logic techniques are used for representing situations of high uncertainty with respect to the category to be assigned to a given prosodic unit. The Fuzzy Integer technique is used to combine the output of different base classifiers. The resulting fuzzy classifier benefits from the different capabilities of the base classifiers for identifying different types of prosodic events. At the same time, the fuzzy classifier identifies the events that are potentially more difficult to be labeled. The classifier has been applied to the identification of ToBI pitch accents. The state of the art on pitch accent multiclass classification reports around 70% accuracy rate. In this paper we describe a fuzzy classifier which assigns more than one label in confusing situations. We show that the pairs of labels that appear in these uncertain situations are consistent with the most confused pairs of labels reported in manual prosodic labeling experiments. Our fuzzy classifier obtains a soft classification rate of 81.8%, which supports the potential of the proposed system for computer assisted prosodic labeling.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号