期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吴义坚王仁华《中文信息学报》2006,20(4):77-83

本文将基于HMM的可训练语音合成方法应用到中文语音合成。通过对HMM建模参数的合理选择和优化,并基于中文语音特性设计上下文属性集以及用于模型聚类的问题集,提高其建模和训练效果。从对比评测实验结果来看, 98.5%的合成语音在改进后其音质得到改善。此外,针对合成语音节奏感不强的问题,提出了一种基于状态和声韵母单元的两层模型用于时长建模和预测,集外时长预测RMSE由29,56ms降为27.01ms。从最终的合成系统效果来看,合成语音整体稳定流畅,而且节奏感也比较强。由于合成系统所需的存贮量非常小,特别适合嵌入式应用。相似文献

2.

基于统计声学模型的单元挑选语音合成算法

凌震华王仁华《模式识别与人工智能》2008,21(3)

提出一种基于统计声学模型的单元挑选语音合成算法.在模型训练阶段,首先提取语料库中语音数据的频谱、基频等声学参数,结合语料库中的音段和韵律标注来估计各上下文相关音素对应的统计声学模型,使用的模型结构为隐马尔柯夫模型.在合成阶段,以使目标合成句对应的声学模型具有最大的似然值输出为准则,来进行最佳合成单元的挑选,最后通过平滑连接各备选单元波形来生成合成语音.以此算法为基础,构建一个以声韵母为基本拼接单元的中文语音合成系统,并通过测听实验证明此算法相对传统算法在提高合成语音自然度上的有效性. 相似文献

3.

支持重音合成的汉语语音合成系统 总被引：1，自引：1，他引：1

朱维彬《中文信息学报》2007,21(3):122-128

针对基于单元挑选的汉语语音合成系统中重音预测及实现,本文采用了知识指导下的数据驱动建模策略。首先,采用经过感知结果优化的重音检测器,实现了语音数据库的自动标注;其次,利用重音标注数据库,训练得到支持重音预测的韵律预测模型;用重音韵律预测模型替代原语音合成系统中的相应模型,从而构成了支持重音合成的语音合成系统。实验结果分析表明,基于感知结果优化的重音检测器的标注结果是可靠的;支持重音的韵律声学预测模型是合理的;新的合成系统能够合成出带有轻重变化的语音。相似文献

4.

维吾尔语双音节词韵律特征声学分析 总被引：3，自引：0，他引：3

祖丽皮亚·阿曼艾斯卡尔·艾木都拉《中文信息学报》2009,23(5):104-108

该文从文本分析模块入手,利用“维吾尔语语音声学参数库”,选择了以开音节和闭音节结尾的969个双音节词的韵律参数,包括元音时长、音高和音强进行了统计分析,归纳了其元音时长、音高和音强分布模式,探讨了维吾尔语双音节词的韵律节奏模式与双音节词重音之间的关系问题,其目的是为了提高语音合成的自然度。我们相信本项研究对维吾尔语语言乃至整个阿尔泰语系语言的韵律研究具有较高的参考价值。相似文献

5.

汉语普通话语音合成语料库TH-CoSS的建设和分析 总被引：6，自引：0，他引：6

蔡莲红崔丹丹蔡锐《中文信息学报》2007,21(2):94-99

本文介绍了汉语语音合成语料库TH-CoSS的建设和分析。本语料库包括男女声朗读语句约2万个。语料库分为四个部分: TTS系统建库用语句、TTS系统测试用语句、特殊语调语句和特殊音节组。语料设计考虑了语料的平衡和音段、韵律信息的丰富。语料库中除了文本、语音数据外,还带有音段切分标志,标注文件采用XML格式。为了方便语音分析与开发,特研制了标注软件。本文还给出了语境特征对语音韵律影响的分析结果。相似文献

6.

中文语音合成中的文本正则化研究 总被引：5，自引：0，他引：5

贾玉祥黄德智刘武俞士汶《中文信息学报》2008,22(5):45

中文文本正则化是把非汉字字符串转化为汉字串以确定其读音的过程。该工作的难点:一是正则化对象——非汉字串形式复杂多样,难于归纳;二是非汉字串有歧义,需要消歧处理。文章引入非标准词的概念对非汉字串进行有效归类,提出非标准词的识别、消歧及标准词生成的三层正则化模型。在非标准词的消歧中引入机器学习的方法,避免了复杂规则的书写。实验表明,此方法取得了很好的效果,并具有良好的推广性,开放测试的正确率达到98.64%。相似文献

7.

基于音素及其特征参数的维吾尔语音合成技术 总被引：4，自引：0，他引：4

姑丽加玛丽·麦麦提艾力艾斯卡尔·艾木都拉《中文信息学报》2008,22(4):100-104

首先建立了由维吾尔语中的单音素、双音素所构成的小规模语音语料库,设计了相应的拼接单元挑选算法,利用参数调整算法对拼接单元语音信号的时长、基频和短时能量等特征参数进行调整,并利用时域平滑算法对拼接点处的语音参数进行调整,从而进一步提高了合成语音的自然度。用C Sharp 编程语言实现了上述算法,试验结果表明研究思路和技术方案的可行性。该系统具有语料库小,合成语音的可懂度和自然度较高等优势。相似文献

8.

深度学习语音合成技术综述

下载免费PDF全文

张小峰谢钧罗健欣杨涛《计算机工程与应用》2021,57(9):50-59

语音合成技术在人机交互中扮演着重要角色,深度学习的发展带动语音合成技术高速发展.基于深度学习的语音合成技术在合成语音的质量和速度上都超过了传统语音合成技术.从基于深度学习的声码器和声学模型出发对语音合成技术进行综述,探讨各类声码器和声学模型的工作原理及其优缺点,在此基础上对语音合成系统进行综述,系统综述经典的基于深度学... 相似文献

9.

基于声学统计建模的语音合成技术研究

胡郁凌震华王仁华戴礼荣《中文信息学报》2011,25(6):127-137

该文介绍基于声学统计建模的语音合成技术,重点回顾中国科学技术大学讯飞语音实验室在语音合成领域这一前沿发展方向的创新性工作成果。具体包括融合发音动作参数与声学参数,提高声学参数生成的灵活性;以最小生成误差准则取代最大似然准则,提高合成语音的音质;使用单元挑选与波形拼接方法取代参数合成器重构,改善参数语音合成器在合成语音音质上的不足。以上技术创新使得语音合成系统在自然度、表现力、灵活性及多语种应用等方面的性能都有进一步的提升,并推动语音合成技术在呼叫中心信息服务、移动嵌入式设备人机语音交互、智能语音教学等领域的广泛引用。相似文献

10.

维吾尔语单音节词复辅音声学分析 总被引：1，自引：0，他引：1

哈妮克孜·伊拉洪祖丽皮亚·阿曼艾斯卡尔·艾木都拉《中文信息学报》2009,23(4):103-107

为了提高语音合成的自然度该文从文本分析模块入手,利用“维吾尔语语音声学参数库”,选择了带复辅音的63 个单音节词的声学参数,包括辅音时长和辅音强度,通过语音分析软件研究了维吾尔语复辅音的组合规律和声学规律,复辅音中两个辅音声学特征之间的声学区别等问题。从语言类型学的角度看,在现代维吾尔语带复辅音的单音节词中前辅音比后辅音短且前辅音比后辅音强是固定声学特征。可是复辅音的组合不是固定的,因为组成复辅音的音素有可能再增加。相似文献

11.

汉语连续语音中HMM模型状态数优化方法研究 总被引：1，自引：1，他引：1

何珏刘加《中文信息学报》2006,20(6):85-90

为了优化汉语连续语音中HMM模型系统以提高识别性能,提出了分别为每个声母和韵母半音节声学模型选择最优的状态数的方法。通过综合考虑每个声母和韵母半音节声学模型在不同状态数下的段长均值、方差以及各自识别率这三者信息,作为进行最优模型状态数的选择准则。优化后的声学模型系统由状态数各不相同的声母半音节声学模型组成,同未优化前状态数统一的模型系统相比,音节识别性能提高了5.07个百分点。研究表明,每个声母和韵母半音节志学模型应根据情况选择不同的状态数,优化后的模型系统识别性能得到了提高。相似文献

12.

连续语音识别中声学建模的组合聚类算法研究 总被引：1，自引：0，他引：1

韩兆兵贾磊张树武徐波《中文信息学报》2003,17(4):34-39

基于三音子连续语音识别的一个关键问题是在有限训练数据的条件下对大量声学模型参数的鲁棒性估计。为了解决这个问题,有两个主要的上下文相关的聚类算法被提出,它们是合并(Agglomerative Clustering)聚类(AGG)和决策树(Tree-based)聚类(TB) 。本文分析了这两种算法的优缺点,并分别对其进行了改进,然后提出了最大似然框架下组合聚类算法。大词汇量连续语音识别(LVCSR)的实验结果表明,和单一的决策树聚类算法比较,提出的组合聚类算法对识别率有显著的提高。相似文献

13.

人机交互中的声源定位与增强方法

殷瑞祥李文东《数据采集与处理》2015,30(2):328-335

基于人机交互的实际应用场景,提出了一种交互目标声源三维定位与语音增强算法。该算法首先在广义相关法的基础上提出一种声达时延差的估计方法,通过由6个麦克风构成的平行均匀线阵接收模型,实现对目标声源的三维定位;然后在交互目标声源定位的基础上,通过调整时延波束叠加的权值,实现对目标语音的增强。仿真实验结果表明,文中提出的算法能够准确定位目标声源并对目标语音进行有效增强。在信噪比大于1.5 dB 的环境中,该算法可使目标声源达到98%以上定位精度,5 dB 以上信噪比改善,同时算法运算量小且易于硬件实现。相似文献

14.

基于小波分析的大词汇汉语连续语音识别系统鲁棒性的研究 总被引：6，自引：0，他引：6

颜龙刘刚郭军《中文信息学报》2006,20(2):62-67

本文提出一种基于小波分析的大词汇汉语连续语音识别的方法,即采用一维小波变换将原始语音信号进行五层小波分解,然后对各层小波系数进行重构,得到五层语音信号,分别对各层语音信号进行训练,得到各层的声学模型,然后结合语言模型对各层声学模型的性能进行测试。通过对纯净语音和带噪语音的各层重构语音数据进行测试。结果表明对于含有高斯白噪声的带噪语音,该方法能使系统性能有所提高,但对于粉红噪声,该方法效果不明显。对于含有真实环境噪声的带噪语音,该方法能获得比基线系统更好的性能。相似文献

15.

基于语音增强失真补偿的抗噪声语音识别技术 总被引：1，自引：0，他引：1

丁沛曹志刚《中文信息学报》2004,18(5):65-70

本文提出了一种基于语音增强失真补偿的抗噪声语音识别算法。在前端,语音增强有效地抑制背景噪声;语音增强带来的频谱失真和剩余噪声是对语音识别不利的因素,其影响将通过识别阶段的并行模型合并或特征提取阶段的倒谱均值归一化得到补偿。实验结果表明,此算法能够在非常宽的信噪比范围内显著的提高语音识别系统在噪声环境下的识别精度,在低信噪比情况下的效果尤其明显,如对-5dB的白噪声,相对于基线识别器,该算法可使误识率下降67.4%。相似文献

16.

一种文本相似度及其在语音识别中的应用 总被引：5，自引：1，他引：5

李红莲何伟袁保宗《中文信息学报》2003,17(1):60-64

随着语音识别研究的深入,提高通用识别引擎的精度变得越来越困难。但对具体的语音识别任务,结合相应的背景,采取相应的措施,有可能达到很理想的识别精度。在已知语音输入为某有限集元素之一的情形,利用文本在发音上的相似度可以大大提高识别的精度。本文对原有文本相似度的定义进行了改进与完善,并就其在语音识别任务中的作用进行了深入的研究。相似文献