共查询到19条相似文献,搜索用时 46 毫秒
1.
2.
介绍了面向中英文双语应用的英文语音合成系统中基于混合基元模型的非定长基元选取算法.清华大学计算机系人机语音交互实验室针对中英文混读相同发音人的限定,实现了基于混合基元模型的语料库构建和鲁棒灵活的非定长基元选取方法,在一定程度上弥补了发音人英语发音不饱满、自由度大的缺陷,真正实现了相同发音人中英文混读的要求.试验证明,采用这些方法能够极大的提高合成质量,达到令人满意的效果. 相似文献
3.
针对嵌入式设备的存储容量小、计算能力有限的特点,设计了一种基于CART(Classification and Regression Trees)决策树模型的基元预选算法和基元选取算法,可以从原始语音语料库中挑选出最有代表性的基元样本,从而有效地降低音库规模和算法的复杂度,满足了嵌入式TFS(Text-to-Speech)系统的需要。基于以上算法,移动终端上实现了一个嵌入式中文TTS系统,实验结果表明该系统的合成语音具有较高的可懂度和自然度。 相似文献
4.
Tacotron模型的应用在藏语端到端语音合成取得了较好的效果,然而基于循环神经网络(RNN)的模型存在训练和预测效率较低以及长距离信息丢失问题。为进一步提升藏语语音合成效果,提出了一种基于Transformer的端到端语音合成模型来实现藏语多方言的语音合成。上述模型使用多头注意力机制并行构建编码器(Encoder)与解码器(Decoder)中的隐藏状态,从而有效解决了建模长距离信息相关性的问题,并且能够发挥多GPU并行训练的优势。选用三种不同的合成基元(藏文字,拉丁字母,藏文部件)作为声学模型的输入,使用transformer Text-To-Speech(TTS)网络生成梅尔谱图,然后使用训练好的WaveNet将梅尔谱转化为最终的语音波形。进行了多项对比实验,首先对比了Tacotron与基于transformer的端到端模型应用于藏语多方言语音合成的效果,并且对比了三种合成基元在本文模型上的表现,除此之外,还进行了单GPU训练与多GPU并行训练的对比实验。实验结果显示,基于Transformer的端到端语音合成模型应用于藏语多方言语音合成的效果比Tacotron模型更好,选用拉丁字母为合成基元并且采用多个GPU并行训练得到的音频具有更好的清晰度和自然度。 相似文献
5.
6.
陈若飞;王景成;李继超;张彬彬 《计算机仿真》2025,(2):193-197
针对基于Local Sensitive Attention的语音合成存在长句合成鲁棒性差,对齐效果差,信息丢失等问题,提出三点改进措施:首先在使用深度分离卷积代替标准卷积,既减少模型参数又增加了卷积层的深度,从而提高了卷积操作的特征表达能力。其次缩小Energies数值的范围,将其与缩小因子α相乘可以将其范围缩小,这样可以避免在后面Softmax函数处理中出现数值过大的情况,提高模型稳定性和对于长序列的对齐能力。最后,使用两层BIGRU替换单层BILSTM,能更好提取上下文语义加强特征信息进而减少信息丢失。提高语音合成质量。实验结果表明,改进后的模型相比于原模型在长句语音合成时良好的对齐功能,有较好的鲁棒性且在提升原始模型的音色质量的前提下,训练损失降低了7%。 相似文献
7.
基于前项不定长关联规则个性化推荐算法的研究 总被引:3,自引:0,他引:3
为了提高个性化推荐的质量,简化推荐规则生成过程中相关参数的设置,讨论了应用于个性化推荐中的关联规则的性质。提出了一种新的存储结构FSTree,并在这种存储结构上探讨了基于前项不定长的关联规则挖掘算法,通过实验证明了该算法的准确率和综合测度。 相似文献
8.
一种基于后项不定长关联规则的Web个性化推荐方法 总被引:2,自引:0,他引:2
Web usage mining plays an important part in supporting personalized recommendation on Web and association rule uncovers the interesting relations among items hidden in data. The paper gives an idea of association rule merging-deleting based on the analysis of association rule characteristics and implements it in the rule preparation before the Web personalized recommendation. Furthermore, based on the comparisons in precision, coverage and F1 of recommendation system and the rule numbers used in three kinds of association rules, a Web personalized recommendation method based on uncertain consequent is put forward. After integrative analysis of several recommendation methods, the method given in the paper can be thought as a good selection. At last several pageweighted techniques are introduced in the paper. 相似文献
9.
10.
11.
This article focuses on the systematic design of a segment database which has been used to support a time-domain speech synthesis
system for the Greek language. Thus, a methodology is presented for the generation of a corpus containing all possible instances
of the segments for the specific language. Issues such as the phonetic coverage, the sentence selection and iterative evaluation
techniques employing custom-built tools, are examined. Emphasis is placed on the comparison of the process-derived corpus
to naturally-occurring corpora with respect to their suitability for use in time-domain speech synthesis. The proposed methodology
generates a corpus characterised by a near-minimal size and which provides a complete coverage of the Greek language. Furthermore,
within this corpus, the distribution of segmental units is similar to that of natural corpora, allowing for the extraction
of multiple units in the case of the most frequently-occurring segments. The corpus creation algorithm incorporates mechanisms
that enable the fine-tuning of the segment database's language-dependent characteristics and thus assists in the generation
of high-quality text-to-speech synthesis. 相似文献
12.
This paper describes techniques to find an optimal data set for building high quality unit-selection speech synthesis inventories. As the quality of unit-selection speech synthesis is dependent on the coverage of the database used in the selection, it is important to select the right data to record. In this paper we describe some simple techniques as well as a more complex acoustic modeling technique based on the database speaker's acoustic characteristics. Result of a simple evaluation procedure are presented justifying the technique. 相似文献
13.
分析了语音合成技术及 TTS引擎技术的基本结构 ,并结合罪犯数据档案声音系统 ,在 VB平台下给出了一种嵌入 TTS开发 32位语音合成软件的具体方法 相似文献
14.
15.
该文介绍基于声学统计建模的语音合成技术,重点回顾中国科学技术大学讯飞语音实验室在语音合成领域这一前沿发展方向的创新性工作成果。具体包括 融合发音动作参数与声学参数,提高声学参数生成的灵活性;以最小生成误差准则取代最大似然准则,提高合成语音的音质;使用单元挑选与波形拼接方法取代参数合成器重构,改善参数语音合成器在合成语音音质上的不足。以上技术创新使得语音合成系统在自然度、表现力、灵活性及多语种应用等方面的性能都有进一步的提升,并推动语音合成技术在呼叫中心信息服务、移动嵌入式设备人机语音交互、智能语音教学等领域的广泛引用。 相似文献
16.
A.I.C. Monaghan 《International Journal of Speech Technology》2003,6(1):73-81
The model of prosody used in the Aculab TTS system is unusual in several respects. Firstly, it is based firmly on current metrical theories of prosody. Secondly, it is entirely knowledge-based: there are no stochastic components in the model. Thirdly, it makes use of a quasi-random element to avoid the predictability of conventional synthetic prosody. Fourthly, it is specifically designed for multilingual use: it currently handles several Germanic and Romance languages. 相似文献
17.
在基于语料库的语音合成方法中,语音合成单元选择的优劣直接影响合成语音的自然度和流畅性。该文针对藏语言文字的特点,提出以基本构件、组合构件、字、词及句单元相融合的混合单元语音合成策略,并提出了藏语语音合成混合单元选择算法。主观评价与客观评测数据表明该策略与算法有效和合理,各类合成单元在开放语料上的覆盖率与语音合成效果均达到预期的目标。 相似文献
18.
提出用不同长度的单元进行拼接的英语语音合成方法。实验表明,该方法能更好地利用自然语流的原始信息,提高合成语音的自然度,同时也能提高系统的灵活性和鲁棒性。 相似文献
19.
提出了一种融合自动检错的单元挑选语音合成方法。本文方法旨在设计与主观听感更加一致的单元挑选准则,以提高合成语音的自然度。首先利用众包网络平台快速大量地收集测听人对于合成语音的主观评价数据,取代了传统的利用具备语言学知识的专家收集主观评价数据的方法;然后基于这些主观评价数据,提取对应语音的音节时长、单元代价以及声学参数距离等特征,构建基于支持向量机的合成错误检测器;在合成阶段,该检测器被用来对传统单元挑选输出的N条路径行重打分,以确定最优的单元挑选序列。倾向性测听结果表明本文方法可以有效地提高合成语音的自然度。 相似文献