首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
本文介绍了一个拥有2000个说话者的面向移动电话应用的粤语语音数据库,该语音库用于电话应用方面的语音识别研究。在简单介绍本语音数据库的开发背景后,着重介绍了该语音库的结构、内容、特点和注释规范。  相似文献   

2.
一个面向语音识别的云南民族口音普通话语音数据库   总被引:2,自引:0,他引:2  
介绍了一个以语音识别为目的的云南民族口音普通话语音数据库。当前,语音识别技术要走向实用必须解决用户情况多样性带来的鲁棒性问题,通常把这个问题简要地归结为“男女老幼”和“南腔北调”。作为民族文化大省的云南,共有25个少数民族,广大少数民族同胞在说普通话时明显带有地方民族口音,云南民族口音普通话语音识别研究是用户情况多样性研究的重要内容,而为之建立云南民族口音普通话语音数据库是该研究的重要基础和先决条件。  相似文献   

3.
情感语音数据库是语音情感识别研究的数据基础,为语音情感识别模型的建立提供训练和测试数据.近年来,国内外研究者们以各自的科研任务为背景,建立了若干面向语音情感识别研究的数据库.然而,由于情感的复杂性以及缺乏统一的数据库建立标准,只有少数的高质量的数据库得到了大多数研究者们的认可.通过文献调查与分析,对当前领域内极具代表性的一些情感语音数据库进行了综述,目的是为相关研究者们的数据库建立和选择工作提供可靠的对比和参考依据.  相似文献   

4.
语音数据库的数据模型及实现技术   总被引:1,自引:1,他引:0  
本文讨论语音数据库的数据模型及实现技术。语音识别技术是实现真正的人机交互的关键技术,数据库是信息管理的科学方法,语音数据库则是两种技术相结合的产物,是语音处理技术进入实用的途径。  相似文献   

5.
本文探讨了汉语语音识别数据库的设计原则,扼要介绍了CSDB汉语语音识别数据库的 内容和研制进展.  相似文献   

6.
语音是人们传递信息内容的同时又表达情感态度的媒介,语音情感识别是人机交互的重要组成部分。由语音情感识别的概念和历史发展进程入手,从6个角度逐步展开对语音情感识别研究体系进行综述。分析常用的情感描述模型,归纳常用的情感语音数据库和不同类型数据库的特点,研究语音情感特征的提取技术。通过比对3种语音情感识别方法的众多学者的多方面研究,得出语音情感识别方法可期望应用场景的态势,展望语音情感识别技术的挑战和发展趋势。  相似文献   

7.
计算机辅助汉语教学系统中语音评价体系初探   总被引:3,自引:3,他引:0  
本文探讨和研究计算机辅助汉语教学系统中语音评价体系的组成与实现方法。采用标准普通话语音示教数据库和非特定人大词汇量标准普通话汉语语料数据库,建立标准普通话示教语句特征模板库。采用Kohonen自组织神经网络进行学习者语音信号的分类与识别,经过汉语语音教学效果评价系统的处理,获得相应的量化评价结果。初步给出了计算机辅助汉语教学系统中语音评价体系的总体框架及其实现方法。通过实验验证了本语音评价体系的设计方案是合理的、可行的。它基本上能够满足计算机辅助汉语教学系统在线评价学生语音学习效果的需要。  相似文献   

8.
汉语语音识别系统评估王仁华,倪晋富(中国科学技术大学合肥230027)关键词语音识别,性能评价,语音数据库1引言汉语语音识别系统评估,是指运用科学的方法和技术手段,来评定不同的识别系统和算法之间的优劣.这项研究对改进和完善现有系统设计,提高系统性能,...  相似文献   

9.
语音情感识别在人机交互过程中发挥极为重要的作用,近年来备受关注.目前,大多数的语音情感识别方法主要在单一情感数据库上进行训练和测试.然而,在实际应用中训练集和测试集可能来自不同的情感数据库.由于这种不同情感数据库的分布存在巨大差异性,导致大多数的语音情感识别方法取得的跨库识别性能不尽人意.为此,近年来不少研究者开始聚焦跨库语音情感识别方法的研究.本文系统性综述了近年来跨库语音情感识别方法的研究现状与进展,尤其对新发展起来的深度学习技术在跨库语音情感识别中的应用进行了重点分析与归纳.首先,介绍了语音情感识别中常用的情感数据库,然后结合深度学习技术,从监督、无监督和半监督学习角度出发,总结和比较了现有基于手工特征和深度特征的跨库语音情感识别方法的研究进展情况,最后对当前跨库语音情感识别领域存在的挑战和机遇进行了讨论与展望.  相似文献   

10.
本文结合我国少数民族语言濒危现象,以C++ Builder 6.0为开发工具,设计开发了田野语音采集系统,用于保护语言文化遗产。该系统主要功能包括:数据管理、音频设置与分析、快速采集、普通采集、系统管理、数据库的备份与恢复等。相对其他方言采集工具,该系统能有效提高语音采集的质量和效率,便于对语音数据库进行科学管理,具有一定的应用价值。  相似文献   

11.
多用途汉语方言语音数据库的设计   总被引:1,自引:0,他引:1       下载免费PDF全文
建立了一个多用途汉语方言语音数据库,用于说话人信息处理、方言特征词识别、语音识别等领域的研究。以多通道的方式采集时长106小时的语音数据,包括七种主要的汉语方言区语音,对数据进行预处理。在此基础上提出了汉语方言数据库的设计标准以及实施方案,有助于推动汉语语音库特别是方言语音库的建立。  相似文献   

12.
提出了一种新颖的混合语音检索算法。利用ICA的盲分离特性,将包含两个人声音的混合语音分离成只含一个人的单一语音,以分离出来的单一语音为新样本建立新的语音库,并与基于混合语音的语音库建立链接关系。查询时,利用DTW技术进行匹配检索,实现了基于混合语音的检索功能。实验表明该方法能够在混合语音中查询到用户所要求的记录。  相似文献   

13.
论文提出了一种用k-d树来查询双模态视觉听觉语音识别数据库的方法。这种方法揉合了查询地理信息系统的多维数据库和空间数据库的方法,结合双模态视觉听觉语音数据库自身的特点提出了在数据库中插入、查询和删除记录的算法。最后还对把查询多维数据的方法应用在双模态语音识别数据库领域进行了展望。  相似文献   

14.
Designing text-to-speech systems capable of producing natural sounding speech segments in different Indian languages is a challenging and ongoing problem. Due to the large number of possible pronunciations in different Indian languages, a number of speech segments are needed to be stored in the speech database while a concatenative speech synthesis technique is used to achieve highly natural speech segments. However, the large speech database size makes it unusable for small hand held devices or human computer interactive systems with limited storage resources. In this paper, we proposed a fraction-based waveform concatenation technique to produce intelligible speech segments from a small footprint speech database. The results of all the experiments performed shows the effectiveness of the proposed technique in producing intelligible speech segments in different Indian languages even with very less storage and computation overhead compared to the existing syllable-based technique.  相似文献   

15.
简要分析中文语音合成的整个过程,并进行初步研究和实践,提出基于语音数据库的语音合成的程序实现方式.通过简单文本处理和注音后,从语音库中读取语音数据进行拼接,经语音合成后,封装成Wave格式送给播放程序进行播放.编程实现采用C#语言,调用Windows系统API函数进行开发,语音数据库存储使用SQL Server 2005.  相似文献   

16.
17.
文语转换是中文信息处理中研究的热点,是实现人机语音通信的一项关键技术。文章对实现中文文语转换的整个过程进行了初步分析和研究,给出了基于语音数据库的文语转换方法和实现过程。具体介绍了语音库的建立,分析了文本录入、文本分词、文本正则化、语音标注、韵律处理和语音合成等各个环节处理的内容及技术难点。  相似文献   

18.
This paper describes the acquisition of a new database of dysarthric speech in terms of aligned acoustics and articulatory data. This database currently includes data from seven individuals with speech impediments caused by cerebral palsy or amyotrophic lateral sclerosis and age- and gender-matched control subjects. Each of the individuals with speech impediments are given standardized assessments of speech-motor function by a speech-language pathologist. Acoustic data is obtained by one head-mounted and one directional microphone. Articulatory data is obtained by electromagnetic articulography, which allows the measurement of the tongue and other articulators during speech, and by 3D reconstruction from binocular video sequences. The stimuli are obtained from a variety of sources including the TIMIT database, lists of identified phonetic contrasts, and assessments of speech intelligibility. This paper also includes some analysis as to how dysarthric speech differs from non-dysarthric speech according to features such as length of phonemes, and pronunciation errors.  相似文献   

19.
提出一种噪声下的多数据流子带语音识别方法。传统的子带特征方法虽然能提高噪声下的语音识别性能,但通常会使无噪声情况下的识别性能下降。新方法提取感知线性预测(PLP)特征和子带特征,分别进行识别,然后在识别概率层将两者相结合。通过E-Set在NoiseX92下的白噪声的识别实验表明,新方法不仅具有更好的抗噪性能,而且同时能提高无噪声情况下的识别性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号