首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 157 毫秒
1.
在基于语料库的语音合成方法中,语音合成单元选择的优劣直接影响合成语音的自然度和流畅性。该文针对藏语言文字的特点,提出以基本构件、组合构件、字、词及句单元相融合的混合单元语音合成策略,并提出了藏语语音合成混合单元选择算法。主观评价与客观评测数据表明该策略与算法有效和合理,各类合成单元在开放语料上的覆盖率与语音合成效果均达到预期的目标。  相似文献   

2.
基于语料库的语音合成是国内外应用广泛的语音合成方法.在这种合成方法中,单元选择是语音合成的关键.通过分析藏语言文字的属性特征,设计了藏语语音合成系统模型,提出以构件、组合构件、字、词及句单元相融合的藏语语音合成方法,有效地保留了语音合成中大单元的完整性和小单元的灵活性与鲁棒性.同时,给出语音合成的单元选择策略与算法.实验数据表明:该策略与算法是有效和合理的,所选择的单元在封闭语料和开放语料上的覆盖率均达到预期目标.  相似文献   

3.
基于不同长度拼接单元的英文文语转换系统   总被引:1,自引:1,他引:0  
提出用不同长度的单元进行拼接的英语语音合成方法。实验表明,该方法能更好地利用自然语流的原始信息,提高合成语音的自然度,同时也能提高系统的灵活性和鲁棒性。  相似文献   

4.
基于决策树CART的中文文语转换系统语音合成单元的预选   总被引:3,自引:0,他引:3  
近年采基于大语料库进行单元预选的语音合成技术逐渐受到人们的重视。由于其合成的语音单元取自自然的原始发音,合成语句的自然度和清晰度非常高。采用该技术的关键之一就是如何从语料库中选取合适的合成单元。本文采用了一种基于决策树CART(classification and regression tree)的中文文语转换系统(TTS)语音合成单元预选方法。实验表明,使用CART时各个参与预选的文本属性在预选中所起的作用有所不同。最后以此采指导目标单元和候选单元之间规则距离的确定。  相似文献   

5.
提出一种基于统计声学模型的单元挑选语音合成算法.在模型训练阶段,首先提取语料库中语音数据的频谱、基频等声学参数,结合语料库中的音段和韵律标注来估计各上下文相关音素对应的统计声学模型,使用的模型结构为隐马尔柯夫模型.在合成阶段,以使目标合成句对应的声学模型具有最大的似然值输出为准则,来进行最佳合成单元的挑选,最后通过平滑连接各备选单元波形来生成合成语音.以此算法为基础,构建一个以声韵母为基本拼接单元的中文语音合成系统,并通过测听实验证明此算法相对传统算法在提高合成语音自然度上的有效性.  相似文献   

6.
针对基于大语料库的拼接合成系统中经常出现的拼接单元不匹配问题,特别是浊音拼接处不匹配对合成效果会产生较大的损伤,本文提出一种基于时域单元融合技术的平滑算法。它通过模板匹配选取合适的过渡段模板作为融合单元,并同时进行相位对齐,然后采用TD-PSOLA的方法对拼接单元和融合单元进行时域上的基音同步迭加融合。它的优点是对音质损伤很小,而且直接在时域上进行,效率高。通过对平滑前后语谱及主观听感两个方面的对比评测,平滑后的效果比平滑前有明显改善。  相似文献   

7.
文中在原有嵌入式合成系统基础上引入不定长单元挑选、拼接技术提升系统语音合成效果的自然度,并且运用聚类算法对音库中不定长单元进行裁减,降低挑选算法的复杂度,减少系统的资源消耗,从而达到资源消耗和合成效果最佳平衡。  相似文献   

8.
近年来,中文文语转换系统趋向于采用基于语料库上下文的单元选择法来获取拼接的语音单元实例,事实证明这种方法对于合成高质量的语音非常有效。单元选择的关键是各单元特征权值的确定,这里将提出一种非常有效的在单元选择中确定各特征权值的方法。它是对现有的利用线性回归确定权值方法的改进。其主要思路是对单元进行分类,对于各类单元分别进行线性回归,同时定义了一个客观衡量语音差异的距离,从而可以回归得到各特征的恰当权值。  相似文献   

9.
屈小刚  蒋保臣 《计算机工程与设计》2006,27(17):3265-3266,3308
提出了一种用于语音合成的语音片断基音平滑技术。在基于波形拼接的语音合成中,一般使用TD-PSOLA算法进行基频和时长的修改,但是用传统的TD-PSOLA算法进行的基频修改是针对片断整体而言,所以仍然不能很好的解决语音合成中的拼接单元之间的基频不连续问题,特别是在片断接合处。由于基元片断提取白不同语境的语料,合成语音听起来明显感觉到音高的不自然。对传统的TD-PSOLA算法进行了改进,以基音周期为间隔对语音片断信号进行分帧,通过指数加权相应帧的方法来进行平滑处理,经听音测试,较好的解决了拼接片断间的不连续现象。  相似文献   

10.
首先简要介绍语音合成技术的总体概念及研究状况,然后提出用不同长度的单元进行拼接的维吾尔语语音合成方法。该方法能更好地利用自然语流的原始信息.提高合成语音的自然度,同时也能提高系统的灵活性。  相似文献   

11.
音节是维吾尔语的最小发音单元,所以大部分维吾尔语语音合成系统以音节作为基本的合成单元,但维吾尔语中音节数量很大,语料库很难保证覆盖所有的音节样本,这会导致合成语音不稳定和不连续。为解决合成语音不稳定的情况,提出了结合单音素和三音素两个不同基元的单元挑选算法。通过在单元挑选模块中加入韵律参数相匹配的方法选出最佳韵律匹配的单元并解决了合成语音不连续的情况。实验结果表明,提出的方法有效地解决了合成语音不稳定和不连续的现象,从而提高了合成语音的自然度。  相似文献   

12.
提出了一种融合自动检错的单元挑选语音合成方法。本文方法旨在设计与主观听感更加一致的单 元挑选准则,以提高合成语音的自然度。首先利用众包网络平台快速大量地收集测听人对于合成语音的主观评价数据,取代了传统的利用具备语言学知识的专家收集主观评价数 据的方法;然后基于这些主观评价数据,提取对应语音的音节时长、单元代价以及声学参数距 离等特征,构建基于支持向量机的合成错误检测器;在合成阶段,该检测器被用来对传统单元 挑选输出的N条路径行重打分,以确定最优的单元挑选序列。倾向性测听结果表明本文方法可以有效地提高合成语音的自然度。  相似文献   

13.
Corpus based speech synthesis can produce high quality synthetic speech due to it high sensitivity to unit context. Large speech database is embedded in synthesis system and search algorithm (unit selection) is needed to search for the optimal unit sequence. Speech feature which served as target cost is estimated from the input text. The acoustic parameters which served as join cost are derived from mel frequency cepstral coefficients (MFCCs) and Euclidean distance. In this paper, a new method which is Genetic Algorithm is proposed to search for optimal unit sequence. Genetic Algorithm (GA) is a population based search algorithm that is based on the biological principles of selection, reproduction, crossover and mutation. It is a stochastic search algorithm for solving optimization problem. The speech unit sequence that has minimum join cost will be synthesized into complete waveform data.  相似文献   

14.
This paper presents the design and development of an Auto Associative Neural Network (AANN) based unrestricted prosodic information synthesizer. Unrestricted Text To Speech System (TTS) is capable of synthesize different domain speech with improved quality. This paper deals with a corpus-driven text-to speech system based on the concatenative synthesis approach. Concatenative speech synthesis involves the concatenation of the basic units to synthesize an intelligent, natural sounding speech. A corpus-based method (unit selection) uses a large inventory to select the units and concatenate. The prosody prediction is done with the help of five layer auto associative neural network which helps us to improve the quality of speech synthesis. Here syllables are used as basic unit of speech synthesis database. The database consisting of the units along with their annotated information is called annotated speech corpus. A clustering technique is used in annotated speech corpus that provides way to select the appropriate unit for concatenation, based on the lowest total join cost of the speech unit. Discontinuities present at the unit boundaries are lowered by using the mel-LPC smoothing technique. The experiment has been made for the Dravidian language Tamil and the results reveal to demonstrate the improved intelligibility and naturalness of the proposed method. The proposed system is applicable to all the languages if the syllabification rules has been changed.  相似文献   

15.
语音合成中的韵律关联模型   总被引:4,自引:2,他引:4  
基于大规模语音数据库的文语转换系统(Text-to-Speech , TTS)中,如何选取合适的语音基元是提高合成语音自然度的重要因素。本文研究了连续语流中的韵律关联现象,提出了包含韵律关联参数的汉语韵律特征参数集,基于数据挖掘中的关联规则模型(Association Rules Model)建立韵律关联模型,并将该模型应用于基元选取。实验表明,该方法有效地利用了语音基元的韵律及关联信息,符合人耳的知觉感受,使得合成语音自然度的主观评测MOS(Mean Opinion Score)得分与不考虑韵律关联时的结果相比提高了12.22%(3.49/3.11)。  相似文献   

16.
基于数据驱动方法的汉语文本-可视语音合成   总被引:7,自引:0,他引:7  
王志明  蔡莲红  艾海舟 《软件学报》2005,16(6):1054-1063
计算机文本-可视语音合成系统(TTVS)可以增强语音的可懂度,并使人机交互界面变得更为友好.给出一个基于数据驱动方法(基于样本方法)的汉语文本-可视语音合成系统,通过将小段视频拼接生成新的可视语音.给出一种构造汉语声韵母视觉混淆树的有效方法,并提出了一个基于视觉混淆树和硬度因子的协同发音模型,模型可用于分析阶段的语料库选取和合成阶段的基元选取.对于拼接边界处两帧图像的明显差别,采用图像变形技术进行平滑并.结合已有的文本-语音合成系统(TTS),实现了一个中文文本视觉语音合成系统.  相似文献   

17.
This paper proposes a method for tuning the weights of unit selection cost functions in syllable based text-to-speech (TTS) synthesis system. In this work, unit selection cost functions, namely target cost and concatenation cost, are designed appropriate to syllables. The method tunes the weights in such a way that perceptual preference patterns are appropriately considered while selecting the units. The method uses genetic algorithm to derive the optimal weights. Fitness function is designed to map perceptual preference patterns into weights of unit selection cost functions. The effectiveness of proposed method is evaluated by both subjective and objective measures. From the results, it is observed that the derived optimal weights can synthesize good quality speech compared to manually tuned weights.  相似文献   

18.
在基于隐Markov模型(Hidden Markov Model,HMM)的统计参数藏语语音合成中引入了DAEM(Deterministic Annealing EM)算法,对没有时间标注的藏语训练语音进行自动时间标注。以声母和韵母为合成基元,在声母和韵母的声学模型的训练过程中,利用DAEM算法确定HMM模型的嵌入式重估的最佳参数。训练好声学模型后,再利用强制对齐自动获得声母和韵母的时间标注。实验结果表明,该方法对声母和韵母的时间标注接近手工标注的结果。对合成的藏语语音进行主观评测表明,该方法合成的藏语语音和手工标注声、韵母时间的方法合成的藏语语音的音质接近。因此,利用该方法可以在不需要声、韵母的时间标注的情况下建立合成基元的声学模型。  相似文献   

19.
基于统计韵律模型的汉语语音合成系统的研究   总被引:2,自引:4,他引:2  
本文论述了采用统计模型进行汉语韵律层级结构分析和韵律建模的思路,在此基础上建立了汉语语音合成系统。其中,本文还仔细阐述了韵律代价函数的构造,及其参数的自动训练算法。同时,论文还分析了韵律特征间相互作用对音节基元选取的影响,并最终实现了一个连续语流中用于汉语语音合成的音节基元选取模型。测试表明了本文提出的基于统计模型的韵律层级分析和韵律建模思路,能够较好应用于汉语语音合成系统的构造,并使之具有良好的合成语音的自然度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号