共查询到17条相似文献,搜索用时 93 毫秒
1.
首先简要介绍语音合成技术的总体概念及研究状况,然后提出用不同长度的单元进行拼接的维吾尔语语音合成方法。该方法能更好地利用自然语流的原始信息,提高合成语音的自然度,同时也能提高系统的灵活性。 相似文献
2.
基于不同长度拼接单元的英文文语转换系统 总被引:1,自引:1,他引:0
提出用不同长度的单元进行拼接的英语语音合成方法。实验表明,该方法能更好地利用自然语流的原始信息,提高合成语音的自然度,同时也能提高系统的灵活性和鲁棒性。 相似文献
3.
4.
为了提高语音合成自然度和稳定性,提出HMM与深度神经网络相融合的,以维吾尔语作为实验语言的语音合成方法.基于深度学习的端到端语音合成方法存在生成速度慢、稳定性及可控性不够好,但是合成语音自然度高,而基于HMM的方法系统稳定性好,合成语音自然度不如端到端的方法.因此,系统前端部分利用HMM(马尔科夫模型)获取维吾尔语固有的语言特征,后端合成部分利用深度神经网络框架建立自回归模型.前端文本分析用HMM模型获取语言特征,后端合成用不同的神经网路模型,并进行了对比试验.最后对于实验结果进行了评测.实验结果验证了基于HMM+BiLSTM的语音合成方法的效果最好. 相似文献
5.
在目前汉语语音合成常用的波形编码合成方法中,通常是以单音节作为语音合成的声音基元.但是由于合成时音节连接处往往不能很好的过渡,导致合成语音自然度不是很好.本文针对这个问题通过对汉语中协同发音现象的研究,提出了一种新的合成声音基元选取策略,在单音节合成单元基础上增加了部分自然语音中的音节连接段作为合成单元,使用该策略结合TD-PSOLA算法进行语音合成,合成语音的自然度较通常的波形合成法有了较大的提高. 相似文献
6.
7.
该文介绍基于声学统计建模的语音合成技术,重点回顾中国科学技术大学讯飞语音实验室在语音合成领域这一前沿发展方向的创新性工作成果。具体包括 融合发音动作参数与声学参数,提高声学参数生成的灵活性;以最小生成误差准则取代最大似然准则,提高合成语音的音质;使用单元挑选与波形拼接方法取代参数合成器重构,改善参数语音合成器在合成语音音质上的不足。以上技术创新使得语音合成系统在自然度、表现力、灵活性及多语种应用等方面的性能都有进一步的提升,并推动语音合成技术在呼叫中心信息服务、移动嵌入式设备人机语音交互、智能语音教学等领域的广泛引用。 相似文献
8.
在基于语料库的语音合成方法中,语音合成单元选择的优劣直接影响合成语音的自然度和流畅性。该文针对藏语言文字的特点,提出以基本构件、组合构件、字、词及句单元相融合的混合单元语音合成策略,并提出了藏语语音合成混合单元选择算法。主观评价与客观评测数据表明该策略与算法有效和合理,各类合成单元在开放语料上的覆盖率与语音合成效果均达到预期的目标。 相似文献
9.
情感语音合成是情感计算和语音信号处理研究的热点之一,进行准确的语音情感分析是合成高质量情感语音的前提.文中采用PAD情感模型作为情感分析量化模型,对情感语料库中的语音进行情感分析和聚类,获得各情感PAD参数模型.由HMM语音合成系统合成的情感语音,通过PAD模型进行参数修正,使得合成语音的情感参数更加准确,从而提高情感语音合成的质量.实验表明该方法能较好地提高合成语音的自然度和情感清晰度,在同性别不同说话人中也能达到较好的性能. 相似文献
10.
11.
在基于隐Markov模型(Hidden Markov Model,HMM)的统计参数藏语语音合成中引入了DAEM(Deterministic Annealing EM)算法,对没有时间标注的藏语训练语音进行自动时间标注。以声母和韵母为合成基元,在声母和韵母的声学模型的训练过程中,利用DAEM算法确定HMM模型的嵌入式重估的最佳参数。训练好声学模型后,再利用强制对齐自动获得声母和韵母的时间标注。实验结果表明,该方法对声母和韵母的时间标注接近手工标注的结果。对合成的藏语语音进行主观评测表明,该方法合成的藏语语音和手工标注声、韵母时间的方法合成的藏语语音的音质接近。因此,利用该方法可以在不需要声、韵母的时间标注的情况下建立合成基元的声学模型。 相似文献
12.
为了实现机器能够发出声音,本文设计并搭建了HTK(HMM-Tool-Kit)平台用来实现中文语音合成系统.采用参数合成法实现了文本到语音的合成,并对合成系统中的文本分析、韵律控制以及语音合成的实现技术进行了详细的论述.最后在Linux系统下搭建环境并进行实验,得到了预期的结果,实现了文本到语音的转化. 相似文献
13.
基于数据驱动方法的汉语文本-可视语音合成 总被引:7,自引:0,他引:7
计算机文本-可视语音合成系统(TTVS)可以增强语音的可懂度,并使人机交互界面变得更为友好.给出一个基于数据驱动方法(基于样本方法)的汉语文本-可视语音合成系统,通过将小段视频拼接生成新的可视语音.给出一种构造汉语声韵母视觉混淆树的有效方法,并提出了一个基于视觉混淆树和硬度因子的协同发音模型,模型可用于分析阶段的语料库选取和合成阶段的基元选取.对于拼接边界处两帧图像的明显差别,采用图像变形技术进行平滑并.结合已有的文本-语音合成系统(TTS),实现了一个中文文本视觉语音合成系统. 相似文献
14.
简要地介绍了用于语音分析合成的时城基音同步叠加算法,在此基础上提出一种汉语语音时域声调转换方法。利用这种方法可以将一种声调的语音转换为另一种声调的语音,除微小的音质降低外,仍可保持较好的语音质量。这种方法直接对语音波形进行处理,具有计算简单、能在一般微型计算机上进行实时的特点。将之用于语音合成系统,可以通过相同声韵母的音节只存储一种声调的语音数据而大大降低音库的容量;用这种方法按照汉语语句的语调变化规律来合成语句,还可以较好地改善汉语语句合成的自然度. 相似文献
15.
合成语音自然度客观测度 总被引:2,自引:1,他引:1
目前合成语音的自然度有待提高,论文根据目前的研究现状提出了一种合成语音自然度的客观评价方法,该方法主要从语音韵律特征的主要参数出发,计算同一发音人的自然语音和合成语音之间的基频、时长、音强等参数的差距,其中由于两种语音基频时间不匹配,所以采用DTW(Dynamic Time Warping)算法来对两种语音的基频进行了时间弯折对准。最后再将计算结果与主观评测(MOS)的结果进行比较。实验数据表明,论文提出的基频曲线失真测度与MOS之间具有很强的相关性,从韵律特征角度给出的评价结果能够衡量合成语音的自然度。 相似文献
16.
现代越南语是一种拼音化文字,采用“声、韵、调”标记其音节。采用基于HMM的可训练语音合成方法实现越南语语音合成。针对越南语的特点收集语料、录音、标注、确定音素列表、设计上下文属性集和问题集。在HTS平台下构建越南语的STRAIGHT语音合成器。对合成语音进行主观评测。初步评测结果表明,可懂度基本接近100%,自然度还处在“可以接受”和“比较自然”之间。 相似文献