首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
为探索智能语音技术在英语发音学习中的作用,开展了面向中国人朗读英语句子的音素发音自动检错技术研究.首先收集了45个人录制的900句英文朗读发音,并由两位专家对音素发音中的错误进行详细的标注,然后基于语音识别技术建立的句子朗读发音中音素自动检错系统,并针对中国人英语发音时最为常见的错读和漏读两大问题,分别提出音素独立检错阈值和限定音素对齐识别网络的方法,对音素检错系统进行了优化,显著地提高了系统的性能,最终系统的召回率和正确率分别达到49%和52%,接近人工专家间的69%召回率下59%的正确率的性能.  相似文献   

2.
基于发音特征的声效相关鲁棒语音识别算法   总被引:1,自引:0,他引:1  
晁浩  宋成  彭维平 《计算机应用》2015,35(1):257-261
针对声效(VE)相关的语音识别鲁棒性问题,提出了基于多模型框架的语音识别算法.首先,分析了不同声效模式下语音信号的声学特性以及声效变化对语音识别精度的影响;然后,提出了基于高斯混合模型(GMM)的声效模式检测方法;最后,根据声效检测的结果,训练专门的声学模型用于耳语音识别,而将发音特征与传统的谱特征一起用于其余4种声效模式的语音识别.基于孤立词识别的实验结果显示,采用所提方法后语音识别准确率有了明显的提高:与基线系统相比,所提方法5种声效的平均字错误率降低了26.69%;与声学模型混合语料训练方法相比,平均字错误率降低了14.51%;与最大似然线性回归(MLLR)自适应方法相比,平均字错误率降低了15.30%.实验结果表明:与传统谱特征相比发音特征对于声效变化更具鲁棒性,而多模型框架是解决声效相关的语音识别鲁棒性问题的有效方法.  相似文献   

3.
将标准普通话语音数据训练得到的声学模型应用于新疆维吾尔族说话人非母语汉语语音识别时,由于说话人的普通话发音存在较大偏误,将导致识别率急剧下降。针对这一问题,将多发音字典技术应用于新疆维吾尔族说话人汉语语音识别中,通过统计分析识别器的识别错误,建立音素混淆矩阵,获取音素的发音候选项。利用剪枝策略对发音候选项进行剪枝整合,扩展出符合维吾尔族说话人汉语发音规律的替代字典。对三种剪枝方法产生的发音字典的识别结果进行了对比。实验结果表明,使用相对最大剪枝策略产生的发音字典可以显著提高系统识别率。  相似文献   

4.
在无关的发音质量评估系统中,需要先识别出待测语音的说话内容,才能进行准确评估。真实的评测数据往往有很多不利的因素影响识别正确率,包括噪声、方言口音、信道噪声、说话随意性等。针对这些不利因素,本文对声学模型进行了深入的研究,包括:在训练数据中加入背景噪声,增强了模型的抗噪声能力;采用基于说话人的倒谱均值方差规整(SCMVN),降低信道及说话人个体特性的影响;用和待测语音相同地域的朗读数据做最大后验概率(MAP)自适应,使模型带有当地方言口音的发音特点;用自然口语数据做MAP自适应,使模型较好地描述自然口语中比较随意的发音现象。实验结果表明,使用这些措施之后,使待测语音的识别正确率相对提高了44.1%,从而使机器评分和专家评分的相关系数相对提高了6.3%。  相似文献   

5.
母语与非母语语音识别声学建模   总被引:1,自引:1,他引:0       下载免费PDF全文
曾定  刘加 《计算机工程》2010,36(8):170-172
为了兼容母语与非母语说话人之间的发音变化,提出一种新的声学模型建模方法。分析中国人受母语影响产生的英语发音变化,利用中国人英语发音数据库自适应得到语音模型,采用声学模型融合技术构建融合2种发音规律的识别模型。实验结果证明,中国人英语发音的语音识别率提高了13.4%,但标准英语的语音识别率仅下降1.1%。  相似文献   

6.
该文针对维吾尔语说话人之间的发音差异会在一定程度上影响维吾尔语语音识别系统的性能这一情况研究了说话人自适应技术,将目前较为常用的MLLR和MAP以及MLLR和MAP相结合的自适应方法应用于维吾尔语连续语音识别的声学模型训练中,并用这三种方法自适应后的声学模型分别在测试集上进行识别实验。实验结果表明MLLR、MAP以及MAP+MLLR自适应方法使基线识别系统的单词错误识别率分别降低了0.6%、2.34%和2.57%。
  相似文献   

7.
蒙古文属于黏着语,词根和后缀能够组合成近百万的蒙古文单词.现有的蒙古语大词汇量连续语音识别(LVCSR)系统的发音词典无法包含所有蒙古文单词.同时发音词典较大时,训练语料的稀疏将导致LVCSR系统的性能明显下降.为了解决LVCSR系统中大多数蒙古文单词的识别问题和蒙古语语音关键词检测系统中大量集外词的检测问题,结合蒙古文的构词特点,提出了基于分割识别的蒙古语LVCSR方法,并建立了对应的声学模型和语言模型.最后,将此方法应用到了蒙古语语音关键词检测系统中并在蒙古语语音语料上进行了测试.实验结果表明,基于分割识别的蒙古语LVCSR方法能解决大部分蒙古文单词的识别问题,并将蒙古语语音关键词检测系统的大量集外词转化成了集内词,大幅度提高了检测系统的查准率和召回率.  相似文献   

8.
本文提出了一种基于多普勒微波雷达的发音动作检测与命令词识别方法.该方法利用微波雷达的多普勒特性检测发音过程中面部肌肉的微小变化,实现不依赖语音声学信号的命令词识别.本文首先设计实现了一个基于多普勒微波雷达的发音动作检测系统,并基于此系统构建了一个包含2个说话人的命令词识别数据库.然后,本文研究了基于支持向量机和卷积神经网络模型的雷达数据分类方法,并对比了不同模型和特征组合在单话者建模和多话者建模情况下的命令词识别性能.实验结果表明,本文设计的数据采集系统可以有效检测发音动作,所构建的卷积神经网络分类器可以取得90%以上的命令词识别准确率.  相似文献   

9.
本文研究了汉语连续语音识别音字转换中的容错算法, 以纠正声学识别的替代、插入、删除错误。为了解决容错算法的计算量问题, 本文提出了两种快速算法。一是针对单独出现错误的快速容错算法;二是针对关键词的快速容错算法。快速算法有效地限制了容错算法的搜索空间, 提高了计算效率。快速容错算法应用在电话对话系统中, 字正确率从78.97%提高到86.68%, 关键词检测正确率从80.56%提高到88.52%,并且算法运算时间满足实时性要求。  相似文献   

10.
韦向峰  张全  熊亮 《计算机科学》2006,33(10):152-155
汉语语音识别的研究越来越重视与语言处理的结合,语音识别已经不是单纯的语音信号处理。N-gram语言模型应用到语音识别系统中,大大增强了系统的正确率和稳定性,但它也有其自身的局限性,使得语音识别出现许多语法和语义的错误结果。本文分析了语音识别产生语音和文字方面的错误的原因和类型,在概念层次网络语言模型的基础上提出了一种基于语句语义分析和混淆音矩阵的语音识别纠错方法。通过三个发音人、5万字的声音语料和216句实验语句的纠错测试,本文的纠错系统在纠正语义搭配型错误方面有比较好的表现,可克服N-gram语言模型带来的一些缺陷。本文提出的纠错方法还可以融合到语音识别系统中,以便更好地为语音识别的纠错处理服务。  相似文献   

11.
袁桦  史永哲  赵军红  刘加 《自动化学报》2014,40(12):2815-2823
针对发音错误检测的发音字典生成提出基于联合序列多阶模型(Joint-sequence multi-gram, JSM)和多层神经感知(Multi-layer perception, MLP)的方法. 首先使用JSM模型对发音错误进行建模, 将标准发音和错误发音组合为发音对, 表示它们之间的对应关系, 再使用N元文法来统计各发音对之间的关系, 描述错误发音对上下文关系的依赖. 最后使用MLP对发音对之间的关系进行重新建模, 以学习到在相似的上下文条件下发生的相似的错误. 实验证明使用MLP对高阶模型进行概率重估能有效的平滑概率空间, 提高了发音错误检测的性能.  相似文献   

12.
This paper describes an approach for automatic scoring of pronunciation quality for non-native speech. It is applicable regardless of the foreign language student’s mother tongue. Sentences and words are considered as scoring units. Additionally, mispronunciation and phoneme confusion statistics for the target language phoneme set are derived from human annotations and word level scoring results using a Markov chain model of mispronunciation detection. The proposed methods can be employed for building a part of the scoring module of a system for computer assisted pronunciation training (CAPT). Methods from pattern and speech recognition are applied to develop appropriate feature sets for sentence and word level scoring. Besides features well-known from and approved in previous research, e.g. phoneme accuracy, posterior score, duration score and recognition accuracy, new features such as high-level phoneme confidence measures are identified. The proposed method is evaluated with native English speech, non-native English speech from German, French, Japanese, Indonesian and Chinese adults and non-native speech from German school children. The speech data are annotated with tags for mispronounced words and sentence level ratings by native English teachers. Experimental results show, that the reliability of automatic sentence level scoring by the system is almost as high as the average human evaluator. Furthermore, a good performance for detecting mispronounced words is achieved. In a validation experiment, it could also be verified, that the system gives the highest pronunciation quality scores to 90% of native speakers’ utterances. Automatic error diagnosis based on a automatically derived phoneme mispronunciation statistic showed reasonable results for five non-native speaker groups. The statistics can be exploited in order to provide the non-native feedback on mispronounced phonemes.  相似文献   

13.
将语种和说话人识别的方法应用到英语发音错误检测系统, 提出一种基于广义线性区分序列支持向量机 (Generalized linear discriminant sequence based SVM, GLDS-SVM)的发音错误检测方法. 主要创新点为: 1)提出一种基于状态拼接的特征规整方案, 增强SVM对发音特征的建模能力; 2)提出一种基于多模型融合的模型训练策略, 该策略可以更加充分地利用训练数据, 并在一定程度上解决了由于真实发音错误数据缺乏造成的正负样本不均衡的问题; 3)将GLDS-SVM与基于通用背景模型GMM (Universal background models based GMM, GMM-UBM)的方法进行融合, 以进一步提高发音检错性能. GLDS-SVM和GMM-UBM的融合系统在仿真测试集和真实测试集上的等错误率 (Equal error rate, EER)分别达到9.92%和16.35%. 同时, GLDS-SVM在模型占用空间和运算速度方面均比传统径向基函数 (Radial basic function, RBF)核方法具有明显优势.  相似文献   

14.
对文本无关的说话人验证中模型距离归一化问题的研究   总被引:2,自引:0,他引:2  
董远  陆亮  赵贤宇  赵建 《自动化学报》2009,35(5):556-560
在自动说话人验证中, 模型距离归一化是非常有用的得分归一化技术之一. 相比于其他的主流得分归一化技术, 模型距离归一化的主要优点在于它不需要额外的语音数据和说话人集合. 但是, 它也仍然有自身的缺点. 比如, 在传统的模型距离归一化中, 模型之间的KL距离用Monte-Carlo方法求得, 而此方法的时间复杂度很高. 本文从一个新的角度探讨了模型距离归一化的原理, 并且提出了简化的模型距离归一化方法, 即使用KL距离的上限来衡量两个说话人模型的距离. 在2006年的NIST说话人评测数据集上, 本文提出的简化的模型距离归一化方法取得了与传统方式相近的结果, 而时间复杂度却大大降低了.  相似文献   

15.
Robustness is one of the most important topics for automatic speech recognition (ASR) in practical applications. Monaural speech separation based on computational auditory scene analysis (CASA) offers a solution to this problem. In this paper, a novel system is presented to separate the monaural speech of two talkers. Gaussian mixture models (GMMs) and vector quantizers (VQs) are used to learn the grouping cues on isolated clean data for each speaker. Given an utterance, speaker identification is firstly performed to identify the two speakers presented in the utterance, then the factorial-max vector quantization model (MAXVQ) is used to infer the mask signals and finally the utterance of the target speaker is resynthesized in the CASA framework. Recognition results on the 2006 speech separation challenge corpus prove that this proposed system can improve the robustness of ASR significantly.  相似文献   

16.
The performances of the automatic speaker verification (ASV) systems degrade due to the reduction in the amount of speech used for enrollment and verification. Combining multiple systems based on different features and classifiers considerably reduces speaker verification error rate with short utterances. This work attempts to incorporate supplementary information during the system combination process. We use quality of the estimated model parameters as supplementary information. We introduce a class of novel quality measures formulated using the zero-order sufficient statistics used during the i-vector extraction process. We have used the proposed quality measures as side information for combining ASV systems based on Gaussian mixture model–universal background model (GMM–UBM) and i-vector. The proposed methods demonstrate considerable improvement in speaker recognition performance on NIST SRE corpora, especially in short duration conditions. We have also observed improvement over existing systems based on different duration-based quality measures.  相似文献   

17.
针对信道失配和统计模型区分性不足而导致话者确认性能下降问题,文中提出一种将因子分析信道失配补偿与支持向量机模型相结合的文本无关话者确认方法。在SVM话者模型前端采用高斯混合模型-背景模型(GMM-UBM)方法对语音特征参数进行聚类和升维,并利用因子分析(FA)方法,对聚类获得的超矢量进行信道补偿后作为基于SVM话者确认的输入特征,从而有效解决SVM用于文本无关话者确认的大样本、升维问题,以及信道失配对性能影响问题。在NIST 06数据库上实验结果表明,文中方法比未做失配补偿的GMM-UBM系统、GMM-SVM系统在等误识率上有50%以上的改善,比做了FA失配补偿的GMM-UBM系统也有15。8%的改善。  相似文献   

18.
列车显示器语音测试时,调试员需要通过耳朵判断语音的质量,而调试员对语音的判断会受环境噪声、显示器装配等因素影响,造成了出厂的列车显示器语音质量存在不一致性的现象.对此,文章提出一种语音自动检测方法,其利用麦克风采集列车显示器发出的声音,采用感知语音质量评价(PESQ)算法对列车显示器发出的语音进行自动检测和评价.仿真结...  相似文献   

19.
采用模型和得分非监督自适应的说话人识别   总被引:1,自引:0,他引:1  
在说话人识别的研究中, 使用以前的测试语句信息对模型参数或者测试得分进行动态更新, 使模型可以更精确地反映测试语句和说话人模型之间的关系, 这种更新策略称为非监督模式, 这方面的研究对实际的说话人识别系统具有非常重要的意义. 本文除了采用非监督的说话人模型自适应更新方法之外, 还提出了非监督的得分域自适应算法: 首先采用双高斯函数对得分建立一个先验的得分模型, 利用最大后验概率准则对得分规整的模型进行调整. 在测试过程中, 采用得分域和模型域的非监督算法可以互相补充, 提高识别率, 在NIST SRE 2006年1训练语段-1测试语段数据库上, 使用模型域和得分域非监督自适应的系统能够取得等错误率4.3%和检测代价函数0.021的结果.  相似文献   

20.
在上下文无关的说话人识别应用中,针对传统MFCC特征参数在语音预处理方面不足以及三角滤波器组的缺陷,提出一种改进的MFCC特征参数提取方法.一方面在传统算法上加入端点检测,去除与说话人语音特征无关的静音段;另一方面用高斯滤波器组(Gaussian shaped filters GF)代替三角滤波器组进行频率到Mel频率的转换,提高识别准确率.说话人识别模型使用流行的高斯混合模型(GMM).实验结果显示,高斯滤波器组的引入相比于传统三角滤波器组识别率有4.45%的提升,本文改进后的MFCC特征参数相比于传统方法识别率也提升了6.43%,能更好的代表说话人的语音特征.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号