期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

娄英丹徐静林黄丽霞张雪英《计算机工程与应用》2020,56(10):122-126

自适应技术可以用较少的数据来调整声学模型参数,从而达到较好的语音识别效果,它们大多用于自适应有口音的语音。将最大似然线性回归（Maximum Likelihood Linear Regression,MLLR）、最大后验概率（Maximum A Posteriori,MAP）自适应技术用在远场噪声混响环境下来分析其在此环境下的识别性能。实验结果表明,仿真条件下,在墙壁反射系数为0.6,各种噪声环境下MAP有最好的自适应性能,在信噪比（Signal-to-Noise Ratio,SNR）分别为5 dB、10 dB、15 dB时,MAP使远场连续语音词错率（Word Error Rate,WER）平均降低了1.51%、12.82%、2.95%。真实条件下,MAP使WER下降幅度最大达到了37.13%。进一步验证了MAP良好的渐进性,且当自适应句数为1 000时,用MAP声学模型自适应方法得到的远场噪声混响连续语音的识别词错率比自适应前平均降低了12.5%。相似文献

2.

基于模型自适应的声效鲁棒性语音识别算法

晁浩宋成薛霄刘志中《计算机工程与应用》2016,52(2):156-160

针对声音效果变化引起的语音声学特性的改变,提出基于声学模型自适应的方法。分析了正常模式下训练的声学模型在识别其他声效模式下语音的表现;根据随机段模型的模型特性,将最大似然线性回归方法引入到随机段模型系统中,并利用自适应后的声学模型来识别对应的声效模式下的语音。在“863-test”测试集上进行的汉语连续语音识别实验显示,正常模式下训练的声学模型识别其他四种声效模式下的语音时,识别精度均有较大程度的下降;而自适应后的系统在识别对应的声效模式的语音时,识别精度有了明显的改观。表明了基于声学模型自适应的方法在解决语音识别中声音效果变化问题上的有效性。相似文献

3.

最大后验概率自适应方法在口令识别中的应用

下载免费PDF全文

司华建李辉陈冠华方昕《计算机工程与应用》2013,49(12):164-167

自适应技术是提高非特定人语音识别系统识别性能的有效手段,其中应用最广泛的两种自适应方法是基于最大后验概率的自适应方法和基于最大似然线性回归的自适应方法,分析了它们各自的特点并将最大后验概率的自适应方法应用到基于隐马尔可夫模型的口令识别系统中,实验结果表明,该方法能够在每个词自适应一次的情况下,使系统的识别率由40%提高到90%以上,并在此基础上实现了一个实用的中等词汇量的口令识别系统。相似文献

4.

基于目标驱动的多层MLLR自适应算法

穆向禹贾磊张树武徐波《中文信息学报》2003,17(6):40-47

本文在对语音识别中基于自适应回归树的极大似然线性变换(MLLR)模型自适应算法深刻分析的基础上,提出了一种基于目标驱动的多层MLLR自适应(TMLLR)算法。这种算法基于目标驱动的原则,引入反馈机制,根据目标函数似然概率的增加来动态决定MLLR变换的变换类,大大提高了系统的识别率。并且由于这种算法的特殊多层结构,减少了许多中间的冗余计算,算法在具有较高的自适应精度的同时还具有较快的自适应速度。在有监督自适应实验中,经过此算法自适应后的系统识别率比基于自适应回归树的MLLR算法自适应后系统的误识率降低了10% ,自适应速度也比基于自适应回归树的MLLR算法快近一倍。相似文献

5.

基于MAP+CMLLR的说话人识别中发声力度问题

黄文娜彭亚雄贺松《计算机应用》2017,37(3):906-910

为了改善发声力度对说话人识别系统性能的影响,在训练语音存在少量耳语、高喊语音数据的前提下,提出了使用最大后验概率（MAP）和约束最大似然线性回归（CMLLR）相结合的方法来更新说话人模型、投影转换说话人特征。其中,MAP自适应方法用于对正常语音训练的说话人模型进行更新,而CMLLR特征空间投影方法则用来投影转换耳语、高喊测试语音的特征,从而改善训练语音与测试语音的失配问题。实验结果显示,采用MAP+CMLLR方法时,说话人识别系统等错误率（EER）明显降低,与基线系统、最大后验概率（MAP）自适应方法、最大似然线性回归（MLLR）模型投影方法和约束最大似然线性回归（CMLLR）特征空间投影方法相比,MAP+CMLLR方法的平均等错率分别降低了75.3%、3.5%、72%和70.9%。实验结果表明,所提出方法削弱了发声力度对说话人区分性的影响,使说话人识别系统对于发声力度变化更加鲁棒。相似文献

6.

特征音方法在说话人识别中的应用

李荟赵云敏《计算机系统应用》2013,22(8):176-179

针对现实中训练数据不足的特点,在说话人建模时采用高斯混合模型-通用背景模型(Gaussian Markov Model-Uniform Background Model, GMM-UBM),主要从说话人识别模型的自适应方法和参数估计方法两个方面,研究如何提高说话人识别系统的识别率。在说话人识别模型自适应方面,改进传统的用最大后验概率 MAP (Maximum A Posterior Probability)得到说话人模型的方法,将语音识别中的最大似然线性回归MLLR (Maximum Likelihood Linear Regression)和基于特征音(EigenVoice, EV)的自适应方法,应用到说话人识别模型自适应当中,并将其与MAP方法进行比较。相似文献

7.

基于置信度的无监督说话人自适应语音识别

丰洪才卢正鼎《计算机工程与科学》2005,27(9):93-96

本文提出一种基于词格信息的置信度计算方法,估计自适应语音识别结果的可靠性,将不可靠的语音从自适应训练集中去掉,从而减小无监督自适应与有监督自适应间的性能差异,提高无监督自适应的性能。相似文献

8.

基于最大似然线性回归的随机段模型说话人自适应研究

晁浩杨占磊刘文举《计算机工程与科学》2014,36(8):1604-1608

提出了一种随机段模型系统的说话人自适应方法。根据随机段模型的模型特性,将最大似然线性回归方法引入到随机段模型系统中。在“863 test”测试集上进行的汉语连续语音识别实验显示,在不同的解码速度下,说话人自适应后汉字错误率均有明显的下降。实验结果表明,最大似然线性回归方法在随机段模型系统中同样能取得较好的效果。相似文献

9.

基于声学分段模型的无监督语音样例检测

李勃昊张连海郑永军《数据采集与处理》2016,31(2):407-414

提出一种基于声学分段模型的无监督语音样例检测方法。该方法首先利用高斯混合模型（Gaussian mixture model, GMM)将训练数据频谱参数转换为后验概率特征向量,采用层次聚类算法确定后验概率的边界信息,得到声学分段;然后通过k means算法将片段聚类并添加标签,构建基于后验概率的声学分段模型。检索时以模型对查询样例与检索文档的解码序列代替测量矩阵以降低检索时间,通过基于最小编辑距离的动态匹配检索查询项,最小编辑距离的代价函数由模型相似度距离矩阵修正。实验结果表明,相比GMM及传统声学分段模型,本文提出的方法性能更好,检索速度得到显著提升。相似文献

10.

电视剧语音识别中的半监督自动语音分割算法

龙艳花茅红伟叶宏《数据采集与处理》2019,34(2):281-287

针对具有大段连续文本标注、但无时间标签的电视剧语音提出了一种半监督自动语音分割算法。首先采用原始的标注文本构建一个有偏的语言模型,然后将该语言模型以一种半监督的方式用于电视剧语音识别中,最后利用自动语音识别的解码结果对传统的基于距离度量、模型分类以及基于音素识别的语音分割算法进行改进。在英国科幻电视剧“神秘博士”数据集合上的实验结果表明,提出的半监督自动语音分割算法能够取得明显优于传统语音分割算法的性能,不仅有效解决了电视剧语音识别中大段连续音频的自动分割问题,还能对相应的大段连续文本标注进行分段,保证分割后各语音段时间标签及其对应文本的准确性。相似文献

11.

说话人自适应技术在维吾尔语语音识别中的应用研究

努尔麦麦提·尤鲁瓦斯张力文吾守尔·斯拉木《中文信息学报》2016,30(3):79-84

该文针对维吾尔语说话人之间的发音差异会在一定程度上影响维吾尔语语音识别系统的性能这一情况研究了说话人自适应技术,将目前较为常用的MLLR和MAP以及MLLR和MAP相结合的自适应方法应用于维吾尔语连续语音识别的声学模型训练中,并用这三种方法自适应后的声学模型分别在测试集上进行识别实验。实验结果表明MLLR、MAP以及MAP+MLLR自适应方法使基线识别系统的单词错误识别率分别降低了0.6%、2.34%和2.57%。
相似文献

12.

语音识别中的一种说话人聚类算法 总被引：1，自引：1，他引：1

肖述才欧智坚王作英《中文信息学报》2005,19(4):85-89

本文介绍了稳健语音识别中的一种说话人聚类算法,包括它在语音识别中的作用和具体的用法,聚类中常用的特征、距离测度,聚类的具体实现步骤等。我们从两个方面对该算法的性能进行了测试,一是直接计算句子聚类的正确率,二是对说话人自适应效果的改进的作用,即比较使用此算法后系统性能的改进进行评价。实验表明:在使用GLR 距离作为距离测度的时候,该算法对句子的聚类正确率达85169 %;在识别实验中,该聚类算法的使用,使得用于说话人自适应的数据更加充分,提高了自适应的效果,系统的误识率已经接近利用已知说话人信息进行自适应时的误识率。相似文献

13.

基于数据模拟和HMM自适应的电话语音识别研究

左国玉刘文举阮晓钢《计算机工程与应用》2003,39(27):29-31,129

该文研究了基于数据模拟方法和HMM(隐马尔科夫模型)自适应的电话信道条件下语音识别问题。模拟数据模仿了纯净语音在不同电话信道条件下的语音行为。各基线系统的HMM模型分别由纯净语音和模拟语音训练而成。语音识别实验评估了各基线系统HMM模型在采用MLLR算法(最大似然线性回归)做无监督式自适应前后的识别性能。实验证明,由纯净语音转换生成的模拟语音有效地减小了训练语音和测试语音声学性质的不匹配,很大程度上提高了电话语音识别率。基线模型的自适应结果显示模拟数据的自适应性能比纯净语音自适应的性能最大提高达到9.8%,表明了电话语音识别性能的进一步改善和系统稳健性的提高。相似文献

14.

实用环境语音识别鲁棒性技术研究与展望

刘敬伟肖熙《计算机工程与应用》2006,42(24):7-12

语音识别系统在实用环境中的鲁棒性是语音识别技术实用化的关键问题。鲁棒性研究的核心问题是如何解决实用环境语音特征和模型与干净环境语音识别系统的失配问题,这涉及到噪声补偿、信道适应、说话人自适应等关键技术。文章综述了语音识别鲁棒性技术研究的主要方法、原理及研究现状,分析了实用环境语音识别中声学模型和语言模型的适应技术,并展望了近期语音识别实用化技术发展的研究方向。相似文献

15.

说话人识别中语音切分算法的研究

何致远胡起秀徐光祜《计算机工程与应用》2003,39(6):55-58

论文针对说话人识别中语音能量变化和噪声对提取有效语音数据的影响,在传统时域语音切分算法犤1,3犦的基础上,提出了三种孤立词的精确切分算法和一种连续语音的非精确切分算法。实验表明,新算法较好地克服了语音能量变化对切分的影响,在原始语音具有较高信噪比(≥10dB)的情况下,能够切除某些短时噪声和白噪声犤2犦。相似文献

16.

自闭症干预中无监督自编码的语音情感识别

葛磊强彦赵涓涓《软件学报》2016,27(S2):130-136

语音情感识别是人机交互中重要的研究内容,儿童自闭症干预治疗中的语音情感识别系统有助于自闭症儿童的康复,但是由于目前语音信号中的情感特征多而杂,特征提取本身就是一项具有挑战性的工作,这样不利于整个系统的识别性能.针对这一问题,提出了一种语音情感特征提取算法,利用无监督自编码网络自动学习语音信号中的情感特征,通过构建一个3层的自编码网络提取语音情感特征,把多层编码网络学习完的高层特征作为极限学习机分类器的输入进行分类,其识别率为84.14%,比传统的基于提取人为定义特征的识别方法有所提高. 相似文献

17.

语音识别自适应算法在智能家居中的应用

蒋泰张林军《计算机系统应用》2017,26(3):150-155

在基于语音识别的智能家居中,用于训练的语料库不完备且应用场景复杂,自然语言语音识别错误接受率远远高于小词汇的语音识别的错误接受率.作者在设计与实现基于自然语言的语音识别智能家居系统的过程中,深入研究了MAP、MLLR算法在基于HMM声学模型参数中的作用,提出了一种综合的自适应方法,并基于开源的语音识别工具CMU SPHIN最终完整的实现了该系统,结果表明所提出的自适应新算法可行有效,较好改善了系统在不同场景中的性能. 相似文献

18.

云南民族口音汉语普通话语音识别研究

普园媛杨鉴尉洪赵征鹏《计算机工程与应用》2005,41(11):45-47

该文根据云南境内少数民族同胞说普通话时明显带有民族口音的语言使用现状,介绍了一个以研究非母语说话人汉语连续语音识别为目的的云南少数民族口音汉语普通话语音数据库,并在其基础上开展了发音变异规律、说话人自适应和非母语说话人口音识别研究,是汉语语音识别中用户多样性研究的重要补充。相似文献