首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
本文介绍一种基于对汉语语汇中一个专用的数量极为有限的语音子集进行采集与生成的技术,它具有实用性强、成本低、易于实现等特点。  相似文献   

3.
张岩  吴仙仙 《福建电脑》2010,26(10):143-143,132
语音合成技术是人机智能交互的关键技术,本文描述了一种利用语音合成技术产生实时语音及其口形变化的英语语音辅助教学软件。该软件系统可以使语音教学更加生动形象,增强学习交互性,灵活性,提高学生参与学习的主动性和积极性,使学生更加容易和牢固地掌握语音知识。  相似文献   

4.
介绍了目前国内外时分析合成技术的发展概况,讨论几种常用的语音合成技术的优缺点,并作为语音合成技术的直接应用,给出汉语文语转换系统的实现方法。  相似文献   

5.
语音合成技术及其应用   总被引:1,自引:0,他引:1  
本文就语音合成系统,特别是在文语转换方面的一些关键技术及实现做了详细的描述和介绍,并且给出了一个实际文语转换系统的实现方案。该语音合成系统作为一种新型人机界面已经成功的应用在多型号卫星测试系统中。  相似文献   

6.
7.
屏幕文本的语音合成   总被引:2,自引:0,他引:2  
介绍了计算机语音合成系统的原理和Win32API截获技术的实现方法,并利用Win32API截获技术和清华大学SinoSonic系统实现了一个桌面文本的语音输出系统,用它可以语音合成桌面上鼠标指针下的任意文本。  相似文献   

8.
语音信息处理技术在深度学习的推动下发展迅速,其中语音合成和转换技术相结合能实现实时高保真的指定对象、内容的语音输出,在人机交互、泛娱乐等领域具有广泛的应用前景。文中旨在对基于深度学习的语音合成与转换技术进行综述。首先,简要回顾了语音合成和转换技术的发展历程;接着,列举了在语音合成、转换领域的常见公开数据集以便研究者开展相关探索;然后,讨论了从文本到语音模型,包括在风格、韵律、速度等方面进行改进的经典和前沿的模型、算法,并分别对比评述了其效果与发展潜力;进一步针对语音转换进行综述,归纳总结了转换方法与优化思路;最后,总结了语音合成与转换的应用与挑战,并根据其在模型、应用和规范方面所面临的问题,展望了未来在模型压缩、少样本学习和伪造检测方面的发展方向。  相似文献   

9.
语音合成技术的发展、关键技术及应用   总被引:2,自引:0,他引:2  
陶建华 《CTI世界》2001,(3):26-32
  相似文献   

10.
11.
语音合成技术在人机交互中扮演着重要角色,深度学习的发展带动语音合成技术高速发展.基于深度学习的语音合成技术在合成语音的质量和速度上都超过了传统语音合成技术.从基于深度学习的声码器和声学模型出发对语音合成技术进行综述,探讨各类声码器和声学模型的工作原理及其优缺点,在此基础上对语音合成系统进行综述,系统综述经典的基于深度学...  相似文献   

12.
本文介绍了Java Speech API(JSAPI)规范的语音识别引擎的系统框架,描述了采用已有的C/C 识别引擎实现JSAPI语音识别引擎的思路和实现策略,提出并分析了以事件处理和状态处理为核心来实现JSAPI规范的具体方法,完成了基于JSAPI规范的语音识别软件系统的实现。  相似文献   

13.
马强 《电脑开发与应用》2004,17(4):18-19,22
分析了语音合成技术及 TTS引擎技术的基本结构 ,并结合罪犯数据档案声音系统 ,在 VB平台下给出了一种嵌入 TTS开发 32位语音合成软件的具体方法  相似文献   

14.
近年来随着移动智能设备的兴起, 人们越来越频繁的接触和使用语音信息, 语音伪造和鉴伪成为语音处理领域中愈加重要的技术. 本文首先梳理了语音合成系统的一般流程, 并对语音伪造领域中主要的文本到语音(text-to-speech, TTS)和语音转换(voice conversion, VC)两项技术进行系统归纳; 接着, 对语音鉴伪技术中常见的算法进行介绍和分类; 最后, 针对语音伪造和鉴伪目前存在的问题, 本文从数据、模型、训练方法以及应用场景等多个角度出发提出未来可能的发展方向.  相似文献   

15.
语音库裁剪或语音库去冗余,是大语料库语音合成技术的一个重要问题.提出了虚拟不定长替换的概念,以弥补不定长的损失.结合合成使用变体的频度,构建了语音库裁剪算法StaRp-VPA.该算法能够以任意比例裁剪语音库.实验表明:当裁剪率小于50%时,合成自然度几乎没有下降;当裁剪率大于50%时,合成自然度也不会严重降低.  相似文献   

16.
In recent years, speech synthesis systems have allowed for the production of very high-quality voices. Therefore, research in this domain is now turning to the problem of integrating emotions into speech. However, the method of constructing a speech synthesizer for each emotion has some limitations. First, this method often requires an emotional-speech data set with many sentences. Such data sets are very time-intensive and labor-intensive to complete. Second, training each of these models requires computers with large computational capabilities and a lot of effort and time for model tuning. In addition, each model for each emotion failed to take advantage of data sets of other emotions. In this paper, we propose a new method to synthesize emotional speech in which the latent expressions of emotions are learned from a small data set of professional actors through a Flowtron model. In addition, we provide a new method to build a speech corpus that is scalable and whose quality is easy to control. Next, to produce a high-quality speech synthesis model, we used this data set to train the Tacotron 2 model. We used it as a pre-trained model to train the Flowtron model. We applied this method to synthesize Vietnamese speech with sadness and happiness. Mean opinion score (MOS) assessment results show that MOS is 3.61 for sadness and 3.95 for happiness. In conclusion, the proposed method proves to be more effective for a high degree of automation and fast emotional sentence generation, using a small emotional-speech data set.  相似文献   

17.
在分析回顾现有话音编码方案基础上提出话音编码系统的五层结构模型以及“在收端利用边信息获取激励码”的概念。  相似文献   

18.
语音合成技术日趋成熟,为了提高合成情感语音的质量,提出了一种端到端情感语音合成与韵律修正相结合的方法。在Tacotron模型合成的情感语音基础上,进行韵律参数的修改,提高合成系统的情感表达力。首先使用大型中性语料库训练Tacotron模型,再使用小型情感语料库训练,合成出具有情感的语音。然后采用Praat声学分析工具对语料库中的情感语音韵律特征进行分析并总结不同情感状态下的参数规律,最后借助该规律,对Tacotron合成的相应情感语音的基频、时长和能量进行修正,使情感表达更为精确。客观情感识别实验和主观评价的结果表明,该方法能够合成较为自然且表现力更加丰富的情感语音。  相似文献   

19.
基于FD—PSOLA算法的语音合成分析方法   总被引:3,自引:0,他引:3  
介绍了一种基于FD-PSOLA算法来实现汉语韵律特征的修改。在短时信号频域修改的过程中,通过同态滤波处理分离了频谱包络和激励源频谱,并通过修改频率轴坐标来实现激励源频谱的压缩或拉伸。实验结果表明,FD-PSOLA算法比TD-PSOLA算法更适合于较高频率调整范围的语音合成分析。  相似文献   

20.
Highest quality synthetic voices remain scarce in both parametric synthesis systems and in concatenative ones. Much synthetic speech lacks naturalness, pleasantness and flexibility. While great strides have been made over the past few years in the quality of synthetic speech, there is still much work that needs to be done. Now the major challenges facing developers are how to provide optimal size, performance, extensibility, and flexibility, together with developing improved signal processing techniques. This paper focuses on issues of performance and flexibility against a background containing a brief evolution of speech synthesis; some acoustic, phonetic and linguistic issues; and the merits and demerits of two commonly used synthesis techniques: parametric and concatenative. Shortcomings of both techniques are reviewed. Methodological developments in the variable size, selection and specification of the speech units used in concatenative systems are explored and shown to provide a more positive outlook for more natural, bearable synthetic speech. Differentiating considerations in making and improving concatenative systems are explored and evaluated. Acoustic and sociophonetic criteria are reviewed for the improvement of variable synthetic voices, and a ranking of their relative importance is suggested. Future rewards are weighed against current technical and developmental challenges. The conclusion indicates some of the current and future applications of TTS.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号