共查询到16条相似文献,搜索用时 62 毫秒
1.
该文介绍基于声学统计建模的语音合成技术,重点回顾中国科学技术大学讯飞语音实验室在语音合成领域这一前沿发展方向的创新性工作成果。具体包括 融合发音动作参数与声学参数,提高声学参数生成的灵活性;以最小生成误差准则取代最大似然准则,提高合成语音的音质;使用单元挑选与波形拼接方法取代参数合成器重构,改善参数语音合成器在合成语音音质上的不足。以上技术创新使得语音合成系统在自然度、表现力、灵活性及多语种应用等方面的性能都有进一步的提升,并推动语音合成技术在呼叫中心信息服务、移动嵌入式设备人机语音交互、智能语音教学等领域的广泛引用。 相似文献
2.
3.
改进的跨语种语音合成模型自适应方法 总被引:1,自引:0,他引:1
统计参数语音合成中的跨语种模型自适应主要应用于目标说话人语种与源模型语种不同时,使用目标发音人少量语音数据快速构建具有其音色特征的源模型语种合成系统。本文对传统的基于音素映射和三音素模型的跨语种自适应方法进行改进,一方面通过结合数据挑选的音素映射方法以提高音素映射的可靠性,另一方面引入跨语种的韵律信息映射以弥补原有方法中三音素模型在韵律表征上的不足。在中英文跨语种模型自适应系统上的实验结果表明,改进后系统合成语音的自然度与相似度相对传统方法都有了明显提升。 相似文献
4.
提出了一种融合自动检错的单元挑选语音合成方法。本文方法旨在设计与主观听感更加一致的单
元挑选准则,以提高合成语音的自然度。首先利用众包网络平台快速大量地收集测听人对于合成语音的主观评价数据,取代了传统的利用具备语言学知识的专家收集主观评价数
据的方法;然后基于这些主观评价数据,提取对应语音的音节时长、单元代价以及声学参数距
离等特征,构建基于支持向量机的合成错误检测器;在合成阶段,该检测器被用来对传统单元
挑选输出的N条路径行重打分,以确定最优的单元挑选序列。倾向性测听结果表明本文方法可以有效地提高合成语音的自然度。 相似文献
5.
提出一种基于感知加权线谱对(Line Spectral Pair,LSP)距离的最小生成误差(Minimum Generation Error, MGE)模型训练方法,用以改善基于隐马尔科夫模型的参数语音合成系统性能。在采用线谱对参数表征语音频谱特征时,传统MGE训练中使用的欧氏距离生成误差计算方法并不能较好地反映生成频谱与自然频谱之间的真实距离,而采用与谱参数无关的对数谱间距(Log Spectral Distortion, LSD)定义的生成误差函数可改善这一问题,但改进后主观效果不明显,且运算复杂度很高。文中先提出基于加权LSP距离的MGE模型训练方法,并在实验中从主客观对比不同加权方法以及基于LSD的MGE训练。最后,找到一种感知加权方法,不但具有较好的主观表现,而且在运算复杂度上与传统MGE训练相比几乎没有增加。 相似文献
6.
传统的参数语音合成系统,多采用单纯的源滤波模型,缺少变化,通常导致在韵律变化较大或生成特定语气时,音质损伤较大。本文则在语音逆滤波过程的基础上,对声源在不同韵律特征和音色条件下的变化进行了仔细的比较分析,通过声源的重构、分类,进而形成了适用于多种韵律特征和音色特征的多元激励(Multi - Source , MS)模型。在此基础构建了基于多元激励的语音合成的声学模型,在一定意义上较大的提高了语音合成在大范围语气变化中的合成质量,对个性化语音合成,以及超小型语音合成系统的建立起到了较好的推动作用。 相似文献
7.
提出一种使用卡方图对高维特征向量样本集进行正态评估,并通过平方根变换处理,使样本集更接近正态分布的方法,称为无溢出正态归整方法.该方法解决高维特征样本对隐马尔柯夫模型(HMM)输出概率的溢出问题,其可行性在CED-WYU(1.0)及Cohn-Kanade(CMU)表情序列库上得到验证.利用连续HMM进行的基于光流特征的非特定人脸表情识别实验,采用正态归整得到更好的结果. 相似文献
8.
针对藏语的语音合成问题,根据藏语的规律和特点,提出一套完整的基于HMM模型的藏语拉萨语语音合成技术解决方案。并对其中的关键技术进行阐述,包括合成前端的语料选择、拉丁转写、分词处理、文本分析,以及后端的韵律标注、声码器技术、语音建模、问题集设计等。实验结果表明,基于该方案搭建的藏语语音合成测试系统有较好的综合得分。 相似文献
9.
近年来在大词汇连续语音识别的研究取得了长足的进步,隐马尔柯夫模型(HMM)是连续语音识别的核心部分。但是HMM对语音信号的描述不完善,为此人们提出了很多替代模型,其中一类将语音信号描述为长度随机的特征矢量序列,称为随机分段模型(Stochastic Segment Models),简称为分段模型(SM)。该文将首先阐述分段模型的原理,并将分段模型和隐马尔柯夫模型进行比较,其次给出基于分段模型的识别和模型训练算法,最后给出实验结果并进行了讨论。 相似文献
10.
在基于语料库的语音合成方法中,语音合成单元选择的优劣直接影响合成语音的自然度和流畅性。该文针对藏语言文字的特点,提出以基本构件、组合构件、字、词及句单元相融合的混合单元语音合成策略,并提出了藏语语音合成混合单元选择算法。主观评价与客观评测数据表明该策略与算法有效和合理,各类合成单元在开放语料上的覆盖率与语音合成效果均达到预期的目标。 相似文献
11.
This paper describes techniques to find an optimal data set for building high quality unit-selection speech synthesis inventories. As the quality of unit-selection speech synthesis is dependent on the coverage of the database used in the selection, it is important to select the right data to record. In this paper we describe some simple techniques as well as a more complex acoustic modeling technique based on the database speaker's acoustic characteristics. Result of a simple evaluation procedure are presented justifying the technique. 相似文献
12.
13.
14.
语音合成技术是人机言语交互中重要的媒介方式,基元选取算法一直是拼接式语音合成中的研究重点.在传统的语音合成中基于代价函数的拼接合成基元选取算法的基础上,将双音子(diphone)的稳定段边界模型应用到单词和音节中,最后使用3种基元模型的分层不定长选音算法,从语料库中优选出最佳合成基元序列拼接合成最终语音.该算法一方面利用分层统一的不定长选音策略,尽可能地选取具有更好韵律特性和声学连续性的较大基元,从而显著减少拼接点,将有可能发生协同发音或者切分错误的拼接点包含到更大的基元内部;另一方面通过稳定段切分修改传统拼接基元边界类型,充分利用了diphone的稳定段边界良好的拼接特性,从而提高了合成语音的连续性和自然度.评测结果显示,这种方法与传统diphone拼接合成方法相比,其合成效果有显著的提升. 相似文献
15.
16.
介绍了面向中英文双语应用的英文语音合成系统中基于混合基元模型的非定长基元选取算法.清华大学计算机系人机语音交互实验室针对中英文混读相同发音人的限定,实现了基于混合基元模型的语料库构建和鲁棒灵活的非定长基元选取方法,在一定程度上弥补了发音人英语发音不饱满、自由度大的缺陷,真正实现了相同发音人中英文混读的要求.试验证明,采用这些方法能够极大的提高合成质量,达到令人满意的效果. 相似文献