共查询到20条相似文献,搜索用时 359 毫秒
1.
2.
3.
4.
为了合成具有真实感的视频序列,该文提出一种基于汉语视频三音素的可视语音合成方法。根据汉语的发音规律和音素与视素的对应关系,该文提出视频三音素的概念。在此基础上,建立隐马尔可夫(HMM)训练与合成模型,在训练过程中使用了视频音频联合特征,并加入了动态特征。在合成过程中,连接视频三音素HMM模型形成句子HMM,并从中提取特征参数,合成可视语音。从主观和客观评估结果来看,合成视频的真实感强,满意度较高。 相似文献
5.
6.
7.
8.
语音合成是实现人机语音通信的关键技术。文中介绍了一种基于语音信号线性预测分析的语音合成方法,以及什么是线性预测系数和如何提取线性预测系数,然后采用了重叠存储法,用预测系数合成语音。这种合成方法可以应用到语音信号的传输过程中,能减小信号的传输带宽,提高传输速率。 相似文献
9.
在多方面实际应用目标推动下,受国家自然科学基金资助,开展了语音合成研究.我们的目标是开发一个高质量的汉语文语转换系统.为此建立了以微机为基础的语音分析合成系统,并组成了文语转换系统,进行了初步试验.这个系统充分利用汉语语音系统的特点,选择以无调音节和声调模式为基本合成单元.相应的语音参数从自然语流中提取,并赋予每个音节若干语音特征属性,为利用语音规则控制音节的声学参数提供了可能性.建立了供合成用的语音库和基本合成规则,利用语言学知识调整合成语言的韵律特征,使合成语言具有高可懂度和较好的自然度.语音合成利用硬件实现,文语转换可以实时进行.合成语音的发音速度可以在较大的范围内改变。 相似文献
10.
<正> 在全世界范围内,我国是语音集成电路的生产大国,同时也是语音电路的消费大国。语音集成电路的生产基地主要集中在我国的台湾、香港、深圳、广州等地。目前语音电路主要有MSS2800系列和HT16000、HT8100、HT8200系列。这几大系列大致可分为数字脉冲编码调制语音合成系列、自适应脉冲编码语音合成系列、语音+音乐语音合成系列、阵列式语音合成系列及微处理器语音合成系列五类。下面分别介绍这五大系列语音电路的有关资料,供读者参考。 相似文献
11.
在介绍和评述了当今各种语音合成方式优缺点的基础上,作者认为用参数合成方式实现音节型语音合成系统是汉语合成较优越方式,设计了一个用有限音节合成无限词汇的汉语语音合成系统模型,试验证明其可行性,并指出进一步提高合成汉语语音自然度的途径。 相似文献
12.
本文基于低码率线性预测语音合成的基本原理,对语音合成方式,滤波器结构及激励源的选择作了较深入的研究和阐述,并简要介绍了实现线性预测语声合成的具体流程。实验结果表明,改进后的线性语音合成方法,不仅简化了实现语音合成的复杂性,而且对合成语音的音质有明显的提高。 相似文献
13.
韵律参数和频谱包络修改相结合的情感语音合成技术研究 总被引:1,自引:0,他引:1
情感语音合成可以增强合成语音的表现力、人情味,是近年来的新兴课题.除了韵律特征之外,音质类和发声器官类参数对情感语音的表达也有着至关重要的影响,而通常的研究大多都是基于规则或者预先为某种情感设计的滤波器来进行这两类参数的修改.本文提出了通过频谱包络综合地调整音质类和发声器官类参数来合成情感语音的方法,并通过实验验证了这一方法的有效性.另外,实验结果也显示了当韵律参数和频谱包络同时得到修改时,相对于单独修改某类参数可以获得更好的情感合成效果. 相似文献
14.
15.
语音自动评估对于语音识别非常重要,但由于缺少足够的发音错误样本,所以对每个音素进行建模以实现准确的发音验证是不切实际的.因此,提出了一种新的方法来处理这种不平衡的数据分布,通过建立多个单类支持向量机来评估每个音素是否正确.使用一组语音属性特征训练一类支持向量机来模拟每个音素的正确发音;一类支持向量机模型通过测量新数据与... 相似文献
16.
17.
本文概述了语音合成的基本概念,较完整地给出了我们自己研制的TMS5220汉语语音合成开发系统硬、软件的组成及工作原理,并给出了开发系统的工作过程。文章指出使用该开发系统可以方便、灵活地获得TMS 5220所需的汉语语音的合成参数。在充分考虑汉语语音特点的情况下,合成参数的比特率平均不高于1.2kbits/s。 相似文献
18.
19.
情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均表示,无法合成显著的情感语音。该文提出一种基于条件变分自编码器的端到端情感语音合成方法(Conditional Duration-Tacotron,CD-Tacotron),该方法在Tacotron2模型的基础上进行改进,引入条件变分自编码器从语音信号中解耦学习情感信息,并将其作为条件因子,然后通过使用情感标签将其编码为向量后与其他风格信息拼接,最终通过声谱预测网络合成情感语音。在ESD数据集上的主观和客观实验表明,与目前主流的方法GST-Tacotron和VAE-Tacotron相比,该文提出的方法可以生成更具表现力的情感语音。 相似文献
20.
朱琦 《南京邮电学院学报(自然科学版)》1996,16(3):24-26
研究了语音合成芯片TSP5220的合成原理及使用方法,设计并实现了由IBM/PC机及TSP5220组成的语音合成系统。系统合成的语音具有较好的可懂性和自然度,且速率仅为1-1.7kb/s,与64kg/sPCM相比较,大大降低了存在储语音所需的容量。 相似文献