首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 109 毫秒
1.
赵征鹏  杨鉴 《计算机工程》2005,31(6):148-150
针对云南境内白族、纳西族、傈僳族3个典型的少数民族及汉族普通话语音,采用了高斯混合模型来训练每个民族的口音模型,并用少量的测试语音来获得较为满意的口音分类识别率,目的在于探索降低非母语口音话者语音识别错误率的有效途径.该文通过实验给出,对云南民族口音汉语普通话口音识别,当混合数为16,语音特征采用39维MFCC及其一阶、二阶差分参数时,口音识别正确率可达90.83%.  相似文献   

2.
一个面向语音识别的云南民族口音普通话语音数据库   总被引:2,自引:0,他引:2  
介绍了一个以语音识别为目的的云南民族口音普通话语音数据库。当前,语音识别技术要走向实用必须解决用户情况多样性带来的鲁棒性问题,通常把这个问题简要地归结为“男女老幼”和“南腔北调”。作为民族文化大省的云南,共有25个少数民族,广大少数民族同胞在说普通话时明显带有地方民族口音,云南民族口音普通话语音识别研究是用户情况多样性研究的重要内容,而为之建立云南民族口音普通话语音数据库是该研究的重要基础和先决条件。  相似文献   

3.
将标准普通话语音数据训练得到的声学模型应用于新疆维吾尔族说话人非母语汉语语音识别时,由于说话人的普通话发音存在较大偏误,将导致识别率急剧下降。针对这一问题,将多发音字典技术应用于新疆维吾尔族说话人汉语语音识别中,通过统计分析识别器的识别错误,建立音素混淆矩阵,获取音素的发音候选项。利用剪枝策略对发音候选项进行剪枝整合,扩展出符合维吾尔族说话人汉语发音规律的替代字典。对三种剪枝方法产生的发音字典的识别结果进行了对比。实验结果表明,使用相对最大剪枝策略产生的发音字典可以显著提高系统识别率。  相似文献   

4.
基于母语分别为傣语、傈僳语、纳西语和汉语普通话的发音人所发汉语普通话语句,利用支持向量机进行民族口音识别研究。实验结果表明,采用对每个语句提取12维MFCC参数、9维基频派生参数和9维短时平均能量派生参数等作为特征参数集及使用高斯径向基函数支持向量机的方法,男、女声的口音识别率均超过93%。  相似文献   

5.
众所周知中文普通话被众多的地区口音强烈地影响着,然而带不同口音的普通话语音数据却十分缺乏。因此,普通话语音识别的一个重要目标是恰当地模拟口音带来的声学变化。文章给出了隐式和显式地使用口音信息的一系列基于深度神经网络的声学模型技术的研究。与此同时,包括混合条件训练,多口音决策树状态绑定,深度神经网络级联和多级自适应网络级联隐马尔可夫模型建模等的多口音建模方法在本文中被组合和比较。一个能显式地利用口音信息的改进多级自适应网络级联隐马尔可夫模型系统被提出,并应用于一个由四个地区口音组成的、数据缺乏的带口音普通话语音识别任务中。在经过序列区分性训练和自适应后,通过绝对上 0.8% 到 1.5%(相对上 6% 到 9%)的字错误率下降,该系统显著地优于基线的口音独立深度神经网络级联系统。  相似文献   

6.
随着计算机技术的发展,人工智能产品已经开始广泛地应用在各个领域。利用地区方言与人工智能产品进行交流成为了人机交互技术领域一个重要的研究方向。地处西南的重庆市为国家定位的国际大都市,世界各种文化伴随着人流汇聚于此。承载着重庆本土文化的重庆话作为重庆地区的主要交流语言,研究重庆话语音识别在推动人工智能产品本土化有着积极的作用。本文以重庆话为研究对象,建立了重庆话和重庆话口音的普通话小语料库,搭建了以HMM为声学模型的语音识别系统,分别以重庆话和重庆话口音的普通话作为声学模型去分别识别重庆话和带重庆话口音的普通话。实验表明,重庆话和重庆话口音的普通话声学模型去识别对应语音的正确识别率均为100%;重庆话声学模型识别重庆口音的普通话的正确识别率达到78.89%,重庆话口音的普通话声学模型去识别重庆话的正确识别率达到91.67%。  相似文献   

7.
该文讨论了不同非母语条件下的语音识别说话人自适应问题,提出了说话人分类和声学模型合并两种不同的自适应方法,并用实验说明了所提方法的有效性和实用性。  相似文献   

8.
由于说话人的语音特征和个性特征到目前为止无法很好地分离,本文提出了基于语音分类的说话人多维特征的提取方法,将语音识别技术应用到说话人特征提取上,提取出的N维组合特征较其它普通特征有更高的有效性。该方法从汉语语音的特点出发,对基于汉语的说话人识别进行研究。实验结果表明它的有效性较长时平均特征的有效性提高了2.915%。  相似文献   

9.
针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classification,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中链接时序主义权重的降低和编码器层数的加深,混合模型在带口音的数据集上表现出了更好的学习能力,同时训练一个深度达到48层的编码器—解码器架构的网络,生成模型的表现超过之前所有端到端模型,在数据堂开源的200 h带口音数据集上达到了5.6%字错率和26.2%句错率。实验证明了提出的端到端模型超过一般端到端模型的识别率,在解决带口音的普通话识别上有一定的先进性。  相似文献   

10.
一种用于方言口音语音识别的字典自适应技术   总被引:2,自引:1,他引:1  
基于标准普通话的语音识别系统在识别带有方言口音的普通话时,识别率会下降很多。针对这一问题,论文介绍了一种“字典自适应技术”。文中首先提出了一种自动标注算法,然后以此为基础,通过分析语音数据,统计出带有方言口音普通话的发音规律,然后把这个规律编码到标准普通话字典里,构造出体现这种方言发音特征的新字典,最后把新字典整合于搜索框架,用于识别带有该方言口音的普通话,使识别率得到显著提高。  相似文献   

11.
Any natural language may have dozens of accents. Even though the equivalent phonemic formation of the word, if it is properly called in different accents, humans do have audio signals that are distinct from one another. Among the most common issues with speech, the processing is discrepancies in pronunciation, accent, and enunciation. This research study examines the issues of detecting, fixing, and summarising accent defects of average Arabic individuals in English-speaking speech. The article then discusses the key approaches and structure that will be utilized to address both accent flaws and pronunciation issues. The proposed SpeakCorrect computerized interface employs a cutting-edge speech recognition system and analyses pronunciation errors with a speech decoder. As a result, some of the most essential types of changes in pronunciation that are significant for speech recognition are performed, and accent defects defining such differences are presented. Consequently, the suggested technique increases the Speaker’s accuracy. SpeakCorrect uses 100 h of phonetically prepared individuals to construct a pronunciation instruction repository. These prerecorded sets are used to train Hidden Markov Models (HMM) as well as weighted graph systems. Their speeches are quite clear and might be considered natural. The proposed interface is optimized for use with an integrated phonetic pronounced dataset, as well as for analyzing and identifying speech faults in Saudi and Egyptian dialects. The proposed interface detects, analyses, and assists English learners in correcting utterance faults, overcoming problems, and improving their pronunciations.  相似文献   

12.
Speech processing is very important research area where speaker recognition, speech synthesis, speech codec, speech noise reduction are some of the research areas. Many of the languages have different speaking styles called accents or dialects. Identification of the accent before the speech recognition can improve performance of the speech recognition systems. If the number of accents is more in a language, the accent recognition becomes crucial. Telugu is an Indian language which is widely spoken in Southern part of India. Telugu language has different accents. The main accents are coastal Andhra, Telangana, and Rayalaseema. In this present work the samples of speeches are collected from the native speakers of different accents of Telugu language for both training and testing. In this work, Mel frequency cepstral coefficients (MFCC) features are extracted for each speech of both training and test samples. In the next step Gaussian mixture model (GMM) is used for classification of the speech based on accent. The overall efficiency of the proposed system to recognize the speaker, about the region he belongs, based on accent is 91 %.  相似文献   

13.
In this paper, an improved method of model complexity selection for nonnative speech recognition is proposed by using maximum a posteriori (MAP) estimation of bias distributions. An algorithm is described for estimating hyper-parameters of the priors of the bias distributions, and an automatic accent classification algorithm is also proposed for integration with dynamic model selection and adaptation. Experiments were performed on the WSJ1 task with American English speech, British accented speech, and mandarin Chinese accented speech. Results show that the use of prior knowledge of accents enabled more reliable estimation of bias distributions with very small amounts of adaptation speech, or without adaptation speech. Recognition results show that the new approach is superior to the previous maximum expected likelihood (MEL) method, especially when adaptation data are very limited.  相似文献   

14.
支持重音合成的汉语语音合成系统   总被引:1,自引:1,他引:1  
针对基于单元挑选的汉语语音合成系统中重音预测及实现,本文采用了知识指导下的数据驱动建模策略。首先,采用经过感知结果优化的重音检测器,实现了语音数据库的自动标注;其次,利用重音标注数据库,训练得到支持重音预测的韵律预测模型;用重音韵律预测模型替代原语音合成系统中的相应模型,从而构成了支持重音合成的语音合成系统。实验结果分析表明,基于感知结果优化的重音检测器的标注结果是可靠的;支持重音的韵律声学预测模型是合理的;新的合成系统能够合成出带有轻重变化的语音。  相似文献   

15.
16.
在汉语语音识别中应用声调信息的研究   总被引:6,自引:0,他引:6  
声调信息在汉语普通话语音识别系统中,具有非常重要的意义。文章实现了声调特征提取的算法,并主要研究了如何应用这些特征,才能最大限度地发挥声调信息的作用,提高识别系统的性能。实验结果表明,声调特征可以和识别系统原有的特征很好地结合,合理应用声调信息能有效地提高识别系统的性能,系统的误识率下降了22.26%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号