首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
文中在原有嵌入式合成系统基础上引入不定长单元挑选、拼接技术提升系统语音合成效果的自然度,并且运用聚类算法对音库中不定长单元进行裁减,降低挑选算法的复杂度,减少系统的资源消耗,从而达到资源消耗和合成效果最佳平衡。  相似文献   

2.
介绍了面向中英文双语应用的英文语音合成系统中基于混合基元模型的非定长基元选取算法.清华大学计算机系人机语音交互实验室针对中英文混读相同发音人的限定,实现了基于混合基元模型的语料库构建和鲁棒灵活的非定长基元选取方法,在一定程度上弥补了发音人英语发音不饱满、自由度大的缺陷,真正实现了相同发音人中英文混读的要求.试验证明,采用这些方法能够极大的提高合成质量,达到令人满意的效果.  相似文献   

3.
一种基于决策树模型的音库构建和基元选取方法   总被引:2,自引:1,他引:2       下载免费PDF全文
叶振兴  蔡莲红 《计算机工程》2006,32(10):189-190,220
针对嵌入式设备的存储容量小、计算能力有限的特点,设计了一种基于CART(Classification and Regression Trees)决策树模型的基元预选算法和基元选取算法,可以从原始语音语料库中挑选出最有代表性的基元样本,从而有效地降低音库规模和算法的复杂度,满足了嵌入式TFS(Text-to-Speech)系统的需要。基于以上算法,移动终端上实现了一个嵌入式中文TTS系统,实验结果表明该系统的合成语音具有较高的可懂度和自然度。  相似文献   

4.
Tacotron模型的应用在藏语端到端语音合成取得了较好的效果,然而基于循环神经网络(RNN)的模型存在训练和预测效率较低以及长距离信息丢失问题。为进一步提升藏语语音合成效果,提出了一种基于Transformer的端到端语音合成模型来实现藏语多方言的语音合成。上述模型使用多头注意力机制并行构建编码器(Encoder)与解码器(Decoder)中的隐藏状态,从而有效解决了建模长距离信息相关性的问题,并且能够发挥多GPU并行训练的优势。选用三种不同的合成基元(藏文字,拉丁字母,藏文部件)作为声学模型的输入,使用transformer Text-To-Speech(TTS)网络生成梅尔谱图,然后使用训练好的WaveNet将梅尔谱转化为最终的语音波形。进行了多项对比实验,首先对比了Tacotron与基于transformer的端到端模型应用于藏语多方言语音合成的效果,并且对比了三种合成基元在本文模型上的表现,除此之外,还进行了单GPU训练与多GPU并行训练的对比实验。实验结果显示,基于Transformer的端到端语音合成模型应用于藏语多方言语音合成的效果比Tacotron模型更好,选用拉丁字母为合成基元并且采用多个GPU并行训练得到的音频具有更好的清晰度和自然度。  相似文献   

5.
语音库裁剪或语音库去冗余,是大语料库语音合成技术的一个重要问题.提出了虚拟不定长替换的概念,以弥补不定长的损失.结合合成使用变体的频度,构建了语音库裁剪算法StaRp-VPA.该算法能够以任意比例裁剪语音库.实验表明:当裁剪率小于50%时,合成自然度几乎没有下降;当裁剪率大于50%时,合成自然度也不会严重降低.  相似文献   

6.
针对基于Local Sensitive Attention的语音合成存在长句合成鲁棒性差,对齐效果差,信息丢失等问题,提出三点改进措施:首先在使用深度分离卷积代替标准卷积,既减少模型参数又增加了卷积层的深度,从而提高了卷积操作的特征表达能力。其次缩小Energies数值的范围,将其与缩小因子α相乘可以将其范围缩小,这样可以避免在后面Softmax函数处理中出现数值过大的情况,提高模型稳定性和对于长序列的对齐能力。最后,使用两层BIGRU替换单层BILSTM,能更好提取上下文语义加强特征信息进而减少信息丢失。提高语音合成质量。实验结果表明,改进后的模型相比于原模型在长句语音合成时良好的对齐功能,有较好的鲁棒性且在提升原始模型的音色质量的前提下,训练损失降低了7%。  相似文献   

7.
基于前项不定长关联规则个性化推荐算法的研究   总被引:3,自引:0,他引:3  
为了提高个性化推荐的质量,简化推荐规则生成过程中相关参数的设置,讨论了应用于个性化推荐中的关联规则的性质。提出了一种新的存储结构FSTree,并在这种存储结构上探讨了基于前项不定长的关联规则挖掘算法,通过实验证明了该算法的准确率和综合测度。  相似文献   

8.
一种基于后项不定长关联规则的Web个性化推荐方法   总被引:2,自引:0,他引:2  
Web usage mining plays an important part in supporting personalized recommendation on Web and association rule uncovers the interesting relations among items hidden in data. The paper gives an idea of association rule merging-deleting based on the analysis of association rule characteristics and implements it in the rule preparation before the Web personalized recommendation. Furthermore, based on the comparisons in precision, coverage and F1 of recommendation system and the rule numbers used in three kinds of association rules, a Web personalized recommendation method based on uncertain consequent is put forward. After integrative analysis of several recommendation methods, the method given in the paper can be thought as a good selection. At last several pageweighted techniques are introduced in the paper.  相似文献   

9.
基于不定长系统调用序列模式的入侵检测方法   总被引:1,自引:0,他引:1  
提出了一种不定长序列模式的寻找算法,目标是从训练序列中找出一组基本的、相对独立的不定长序列模式。并在模式集的更新过程中自动定义了模式间的前后次序关系,以此构建了一个描述进程执行模式的DFA。针对已有基于不定长序列模式的模式匹配算法需要向前预测若干个系统调用号的缺点,文章设计了一个更好的模式匹配算法。实验结果表明,算法在模式寻找过程中是稳定的,并在保持一组规模很小的模式集的情况下,取得了很低的误报率和漏报率。  相似文献   

10.
针对传统LT码编码效率不高、时延长且译码率低等问题,设计一种应用于无线传感器网络(WSN)的不定帧长LT码系统,对原始数据进行拆分编译码,从而满足WSN节点跟踪与数据传输要求的准确性、高效性以及不等差错保护。实验结果证明,该系统能提升WSN的编码率和译码率,提高数据中心的数据恢复率,增强LT码在实际系统应用中的可行性。  相似文献   

11.
This article focuses on the systematic design of a segment database which has been used to support a time-domain speech synthesis system for the Greek language. Thus, a methodology is presented for the generation of a corpus containing all possible instances of the segments for the specific language. Issues such as the phonetic coverage, the sentence selection and iterative evaluation techniques employing custom-built tools, are examined. Emphasis is placed on the comparison of the process-derived corpus to naturally-occurring corpora with respect to their suitability for use in time-domain speech synthesis. The proposed methodology generates a corpus characterised by a near-minimal size and which provides a complete coverage of the Greek language. Furthermore, within this corpus, the distribution of segmental units is similar to that of natural corpora, allowing for the extraction of multiple units in the case of the most frequently-occurring segments. The corpus creation algorithm incorporates mechanisms that enable the fine-tuning of the segment database's language-dependent characteristics and thus assists in the generation of high-quality text-to-speech synthesis.  相似文献   

12.
This paper describes techniques to find an optimal data set for building high quality unit-selection speech synthesis inventories. As the quality of unit-selection speech synthesis is dependent on the coverage of the database used in the selection, it is important to select the right data to record. In this paper we describe some simple techniques as well as a more complex acoustic modeling technique based on the database speaker's acoustic characteristics. Result of a simple evaluation procedure are presented justifying the technique.  相似文献   

13.
马强 《电脑开发与应用》2004,17(4):18-19,22
分析了语音合成技术及 TTS引擎技术的基本结构 ,并结合罪犯数据档案声音系统 ,在 VB平台下给出了一种嵌入 TTS开发 32位语音合成软件的具体方法  相似文献   

14.
郑潮宇  甘文飞  林仲 《软件》2013,34(5):41-42
TTS技术,又称文语转换技术,它将计算机、手机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。"知天气"掌上气象客户端智能语音播报系统依托TTS技术,在手机上实现语音播报天气信息的功能。  相似文献   

15.
该文介绍基于声学统计建模的语音合成技术,重点回顾中国科学技术大学讯飞语音实验室在语音合成领域这一前沿发展方向的创新性工作成果。具体包括 融合发音动作参数与声学参数,提高声学参数生成的灵活性;以最小生成误差准则取代最大似然准则,提高合成语音的音质;使用单元挑选与波形拼接方法取代参数合成器重构,改善参数语音合成器在合成语音音质上的不足。以上技术创新使得语音合成系统在自然度、表现力、灵活性及多语种应用等方面的性能都有进一步的提升,并推动语音合成技术在呼叫中心信息服务、移动嵌入式设备人机语音交互、智能语音教学等领域的广泛引用。  相似文献   

16.
The model of prosody used in the Aculab TTS system is unusual in several respects. Firstly, it is based firmly on current metrical theories of prosody. Secondly, it is entirely knowledge-based: there are no stochastic components in the model. Thirdly, it makes use of a quasi-random element to avoid the predictability of conventional synthetic prosody. Fourthly, it is specifically designed for multilingual use: it currently handles several Germanic and Romance languages.  相似文献   

17.
在基于语料库的语音合成方法中,语音合成单元选择的优劣直接影响合成语音的自然度和流畅性。该文针对藏语言文字的特点,提出以基本构件、组合构件、字、词及句单元相融合的混合单元语音合成策略,并提出了藏语语音合成混合单元选择算法。主观评价与客观评测数据表明该策略与算法有效和合理,各类合成单元在开放语料上的覆盖率与语音合成效果均达到预期的目标。  相似文献   

18.
提出用不同长度的单元进行拼接的英语语音合成方法。实验表明,该方法能更好地利用自然语流的原始信息,提高合成语音的自然度,同时也能提高系统的灵活性和鲁棒性。  相似文献   

19.
提出了一种融合自动检错的单元挑选语音合成方法。本文方法旨在设计与主观听感更加一致的单元挑选准则,以提高合成语音的自然度。首先利用众包网络平台快速大量地收集测听人对于合成语音的主观评价数据,取代了传统的利用具备语言学知识的专家收集主观评价数据的方法;然后基于这些主观评价数据,提取对应语音的音节时长、单元代价以及声学参数距离等特征,构建基于支持向量机的合成错误检测器;在合成阶段,该检测器被用来对传统单元挑选输出的N条路径行重打分,以确定最优的单元挑选序列。倾向性测听结果表明本文方法可以有效地提高合成语音的自然度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号