首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 359 毫秒
1.
基于最小合成单元的维吾尔音库设计   总被引:1,自引:1,他引:0  
为了实现容量小、可懂度和自然度较好的波形拼接式维吾尔语语音合成系统,结合维吾尔语的特点,完成了文本设计、录音、语音标注、以及音库建设过程。其中,把音节作为基本的合成单元建立了音节语音库;为了弥补音库中不存在音节的合成问题,又建立了音素作为合成单元的音素语音库。实验结果表明,以音节和音素为最小合成单元的波形拼接式维吾尔语语音合成系统除了音库容量相对少等特点之外,还具有良好的可懂度。  相似文献   

2.
唐君  张连海  李嘉欣 《信号处理》2022,38(3):527-535
针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现其快速、准确的学习能力;3.采用WaveGlow模型作为声码器,以加快语音生成的速度....  相似文献   

3.
以波形拼接式维吾尔语音合成系统研发为背景,在已建立的维吾尔语最小发音单位音节和音素作为合成基元的语音库基础上,对语料库中的所有音节、音素进行无损压缩,选择了运算速度快,便于实现的哈夫曼压缩。在解压过程中只解压人们所需的语音单元,而不需要解压整个语料库。实验结果表明,通过哈夫曼压缩算法对语料库进行压缩和解压,减小了语料库的占用空间,同时解压后的语音不失真,解压速度快。  相似文献   

4.
赵晖  唐朝京 《电子与信息学报》2009,31(12):3010-3014
为了合成具有真实感的视频序列,该文提出一种基于汉语视频三音素的可视语音合成方法。根据汉语的发音规律和音素与视素的对应关系,该文提出视频三音素的概念。在此基础上,建立隐马尔可夫(HMM)训练与合成模型,在训练过程中使用了视频音频联合特征,并加入了动态特征。在合成过程中,连接视频三音素HMM模型形成句子HMM,并从中提取特征参数,合成可视语音。从主观和客观评估结果来看,合成视频的真实感强,满意度较高。  相似文献   

5.
基于HMM的可训练情感语音合成研究   总被引:1,自引:0,他引:1  
陈洁  张雪英  孙颖 《电声技术》2012,36(3):43-46
研究了基于HMM的英语语音合成系统,并通过分析情感语句的语调,得到高兴、生气、悲伤、平静四种不同情感类型的基音频率、能量和时长的变化规律。将基于HMM的可训练语音合成方法应用到英语情感语音合成,对基于HMM所合成的平静语音,叠加相应情感的语调变化规则,通过修改韵律特征参数合成出带有情感的语音。从所合成情感语句的效果来看,合成语音整体稳定流畅、情感特征明显,且合成系统可以快速构成。  相似文献   

6.
中文HMM参数化语音合成系统构建   总被引:1,自引:0,他引:1  
胡克  康世胤  郝军 《通信技术》2012,45(8):101-103,108
在语音合成领域,大语料库拼接合成方式有一些固有弱点,例如语料库建设成本过高,合成稳定性差等。而基于隐马尔可夫模型(HMM)的语音合成技术在多样化语音合成、多语言支持、系统资源占用方面优势明显。分析了基于HMM的参数化语音合成技术的基本结构和核心算法,研究语料库建设,声学参数提取,建模单元和HMM拓扑结构选择等问题,给出适合于中文语音的参数设置,实现基于HMM的参数化中文语音合成。  相似文献   

7.
目前语音合成技术已经展现出其日渐成熟的一面。然而如何使合成的语音更加自然,这一问题仍是语音研究的热点和突破点。本文主要围绕计算机语音合成系统的发展现状、研究应用等方面探讨语音合成未来的发展方向。  相似文献   

8.
语音合成是实现人机语音通信的关键技术。文中介绍了一种基于语音信号线性预测分析的语音合成方法,以及什么是线性预测系数和如何提取线性预测系数,然后采用了重叠存储法,用预测系数合成语音。这种合成方法可以应用到语音信号的传输过程中,能减小信号的传输带宽,提高传输速率。  相似文献   

9.
在多方面实际应用目标推动下,受国家自然科学基金资助,开展了语音合成研究.我们的目标是开发一个高质量的汉语文语转换系统.为此建立了以微机为基础的语音分析合成系统,并组成了文语转换系统,进行了初步试验.这个系统充分利用汉语语音系统的特点,选择以无调音节和声调模式为基本合成单元.相应的语音参数从自然语流中提取,并赋予每个音节若干语音特征属性,为利用语音规则控制音节的声学参数提供了可能性.建立了供合成用的语音库和基本合成规则,利用语言学知识调整合成语言的韵律特征,使合成语言具有高可懂度和较好的自然度.语音合成利用硬件实现,文语转换可以实时进行.合成语音的发音速度可以在较大的范围内改变。  相似文献   

10.
王南阳 《电子世界》1999,(11):53-55
<正> 在全世界范围内,我国是语音集成电路的生产大国,同时也是语音电路的消费大国。语音集成电路的生产基地主要集中在我国的台湾、香港、深圳、广州等地。目前语音电路主要有MSS2800系列和HT16000、HT8100、HT8200系列。这几大系列大致可分为数字脉冲编码调制语音合成系列、自适应脉冲编码语音合成系列、语音+音乐语音合成系列、阵列式语音合成系列及微处理器语音合成系列五类。下面分别介绍这五大系列语音电路的有关资料,供读者参考。  相似文献   

11.
在介绍和评述了当今各种语音合成方式优缺点的基础上,作者认为用参数合成方式实现音节型语音合成系统是汉语合成较优越方式,设计了一个用有限音节合成无限词汇的汉语语音合成系统模型,试验证明其可行性,并指出进一步提高合成汉语语音自然度的途径。  相似文献   

12.
本文基于低码率线性预测语音合成的基本原理,对语音合成方式,滤波器结构及激励源的选择作了较深入的研究和阐述,并简要介绍了实现线性预测语声合成的具体流程。实验结果表明,改进后的线性语音合成方法,不仅简化了实现语音合成的复杂性,而且对合成语音的音质有明显的提高。  相似文献   

13.
韵律参数和频谱包络修改相结合的情感语音合成技术研究   总被引:1,自引:0,他引:1  
情感语音合成可以增强合成语音的表现力、人情味,是近年来的新兴课题.除了韵律特征之外,音质类和发声器官类参数对情感语音的表达也有着至关重要的影响,而通常的研究大多都是基于规则或者预先为某种情感设计的滤波器来进行这两类参数的修改.本文提出了通过频谱包络综合地调整音质类和发声器官类参数来合成情感语音的方法,并通过实验验证了这一方法的有效性.另外,实验结果也显示了当韵律参数和频谱包络同时得到修改时,相对于单独修改某类参数可以获得更好的情感合成效果.  相似文献   

14.
介绍了应用于铁路车辆监控系统中的基于ISD4004芯片的语音合成系统。根据ISD4004芯片的功能与特点,介绍了实现段落录放音和段落合成语音功能的硬件电路设计和软件设计。在单片机控制下,通过SPI串行通信协议完成语音的调用合成,实现车辆监控系统中的语音合成,并结合PC104微型计算机报告当前车辆状态、实施智能化控制与管理。  相似文献   

15.
语音自动评估对于语音识别非常重要,但由于缺少足够的发音错误样本,所以对每个音素进行建模以实现准确的发音验证是不切实际的.因此,提出了一种新的方法来处理这种不平衡的数据分布,通过建立多个单类支持向量机来评估每个音素是否正确.使用一组语音属性特征训练一类支持向量机来模拟每个音素的正确发音;一类支持向量机模型通过测量新数据与...  相似文献   

16.
通过了解当前机动车数量与车载终端的特点,提出一种具有语音服务功能的车载终端,使终端具有人性化与智能化的特点.设计了一个基于XF-S4240语音模块和Smart ARM2200嵌入式平台的GSM Modem SMS语音合成系统,经实测语音合成效果良好,说明语音合成技术是一种具有良好应用价值和广阔市场前景的技术.  相似文献   

17.
本文概述了语音合成的基本概念,较完整地给出了我们自己研制的TMS5220汉语语音合成开发系统硬、软件的组成及工作原理,并给出了开发系统的工作过程。文章指出使用该开发系统可以方便、灵活地获得TMS 5220所需的汉语语音的合成参数。在充分考虑汉语语音特点的情况下,合成参数的比特率平均不高于1.2kbits/s。  相似文献   

18.
运用AMR-WB中23.85kbit/s模式的改进算法,完成语音样本LPC参数的提取,使语音合成质量提高.合成结果表明,此算法提取参数所合成的语音在时域和频域的波形上都很好地还原了语音样本的特性,取得了较好的合成效果.  相似文献   

19.
情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均表示,无法合成显著的情感语音。该文提出一种基于条件变分自编码器的端到端情感语音合成方法(Conditional Duration-Tacotron,CD-Tacotron),该方法在Tacotron2模型的基础上进行改进,引入条件变分自编码器从语音信号中解耦学习情感信息,并将其作为条件因子,然后通过使用情感标签将其编码为向量后与其他风格信息拼接,最终通过声谱预测网络合成情感语音。在ESD数据集上的主观和客观实验表明,与目前主流的方法GST-Tacotron和VAE-Tacotron相比,该文提出的方法可以生成更具表现力的情感语音。   相似文献   

20.
研究了语音合成芯片TSP5220的合成原理及使用方法,设计并实现了由IBM/PC机及TSP5220组成的语音合成系统。系统合成的语音具有较好的可懂性和自然度,且速率仅为1-1.7kb/s,与64kg/sPCM相比较,大大降低了存在储语音所需的容量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号