首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
在基于隐马尔可夫模型的语音合成说话人自适应中,通常的最大似然线性回归(Maximum likelihoad linear regression, MLLR)方法在自适应后的音质和相似度等方面与原始语音仍有一定的差距.为了改善说话人自适应的效果,本文从识别的理论出发,将结构化最大后验概率准则(Structure maximum aposteriori probability, SMAP)应用到语音合成的说话人自适应中,并将MLLR,MAP,SMAP等方法结合使用.通过一系列对参数、数据选取等实验,本文探讨了在语音合成中如何更好地提高说话人自适应后的音质和相似度.实验表明,在结合使用最大后验概率相关准则后,说话人自适应可以取得比MLLR更好的效果.  相似文献   

2.
自适应技术可以用较少的数据来调整声学模型参数,从而达到较好的语音识别效果,它们大多用于自适应有口音的语音。将最大似然线性回归(Maximum Likelihood Linear Regression,MLLR)、最大后验概率(Maximum A Posteriori,MAP)自适应技术用在远场噪声混响环境下来分析其在此环境下的识别性能。实验结果表明,仿真条件下,在墙壁反射系数为0.6,各种噪声环境下MAP有最好的自适应性能,在信噪比(Signal-to-Noise Ratio,SNR)分别为5 dB、10 dB、15 dB时,MAP使远场连续语音词错率(Word Error Rate,WER)平均降低了1.51%、12.82%、2.95%。真实条件下,MAP使WER下降幅度最大达到了37.13%。进一步验证了MAP良好的渐进性,且当自适应句数为1 000时,用MAP声学模型自适应方法得到的远场噪声混响连续语音的识别词错率比自适应前平均降低了12.5%。  相似文献   

3.
钟山  何亮  邓妍  刘加 《自动化学报》2009,35(5):546-550
研究了将自适应领域的最大似然线性回归(Maximum likelihood linear regression, MLLR)变换矩阵作为特征进行文本无关的说话人识别算法. 本文引入了基于统一背景模型的MLLRSV-SVM说话人识别算法, 并在此基础上进行高层音素聚类以进一步提高识别性能. 在采用多种信道补偿技术后, 在NIST SRE 2006年1训练语段-1测试语段同信道和跨信道数据库上, 基于MLLR特征的系统与其他最好的系统性能接近并有很强的互补性, 经过简单线性融合可以极大提高识别性能.  相似文献   

4.
为了改善发声力度对说话人识别系统性能的影响,在训练语音存在少量耳语、高喊语音数据的前提下,提出了使用最大后验概率(MAP)和约束最大似然线性回归(CMLLR)相结合的方法来更新说话人模型、投影转换说话人特征。其中,MAP自适应方法用于对正常语音训练的说话人模型进行更新,而CMLLR特征空间投影方法则用来投影转换耳语、高喊测试语音的特征,从而改善训练语音与测试语音的失配问题。实验结果显示,采用MAP+CMLLR方法时,说话人识别系统等错误率(EER)明显降低,与基线系统、最大后验概率(MAP)自适应方法、最大似然线性回归(MLLR)模型投影方法和约束最大似然线性回归(CMLLR)特征空间投影方法相比,MAP+CMLLR方法的平均等错率分别降低了75.3%、3.5%、72%和70.9%。实验结果表明,所提出方法削弱了发声力度对说话人区分性的影响,使说话人识别系统对于发声力度变化更加鲁棒。  相似文献   

5.
该文针对维吾尔语说话人之间的发音差异会在一定程度上影响维吾尔语语音识别系统的性能这一情况研究了说话人自适应技术,将目前较为常用的MLLR和MAP以及MLLR和MAP相结合的自适应方法应用于维吾尔语连续语音识别的声学模型训练中,并用这三种方法自适应后的声学模型分别在测试集上进行识别实验。实验结果表明MLLR、MAP以及MAP+MLLR自适应方法使基线识别系统的单词错误识别率分别降低了0.6%、2.34%和2.57%。
  相似文献   

6.
语音是人机交互方式之一,语音识别技术是人工智能的重要组成部分.近年来神经网络技术在语音识别领域的应用快速发展,已经成为语音识别领域中主流的声学建模技术.然而测试条件中目标说话人语音与训练数据存在差异,导致模型不适配的问题.因此说话人自适应(SA)方法是为了解决说话人差异导致的不匹配问题,研究说话人自适应方法成为语音识别领域的一个热门方向.相比传统语音识别模型中的说话人自适应方法,使用神经网络的语音识别系统中的自适应存在着模型参数庞大,而自适应数据量相对较少等特点,这使得基于神经网络的语音识别系统中的说话人自适应方法成为一个研究难题.首先回顾说话人自适应方法的发展历程和基于神经网络的说话人自适应方法研究遇到的各种问题,其次将说话人自适应方法分为基于特征域和基于模型域的说话人自适应方法并介绍对应原理和改进方法,最后指出说话人自适应方法在语音识别中仍然存在的问题及未来的发展方向.  相似文献   

7.
提出了一种随机段模型系统的说话人自适应方法。根据随机段模型的模型特性,将最大似然线性回归方法引入到随机段模型系统中。在“863 test”测试集上进行的汉语连续语音识别实验显示,在不同的解码速度下,说话人自适应后汉字错误率均有明显的下降。实验结果表明,最大似然线性回归方法在随机段模型系统中同样能取得较好的效果。  相似文献   

8.
为了更加准确地估计最小音素错误最大后验概率(MPE-MAP)自适应算法中的先验分布中心,使自适应后的声学模型参数更为准确,从而提高系统的识别性能,分别采用最大互信息最大后验概率(MMI-MAP)自适应和基于最大互信息准则与最大似然准则相结合的H-criterion最大后验概率(H-MAP)自适应估计先验分布中心,提出了基于最大互信息最大后验概率先验的最小音素错误最大后验概率(MPE-MMI-MAP)和基于H-criterion最大后验概率先验的最小音素错误最大后验概率(MPE-H-MAP)算法。任务自适应实验结果表明,MPE-MMI-MAP和MPE-H-MAP算法的自适应性能均优于MPE-MAP、MMI-MAP和最大后验概率(MAP)自适应方法,分别比MPE-MAP相对提高3.4%和2.7%。  相似文献   

9.
为了更加准确地估计最小音素错误最大后验概率(MPE-MAP)自适应算法中的先验分布中心,使自适应后的声学模型参数更为准确,从而提高系统的识别性能,分别采用最大互信息最大后验概率(MMI-MAP)自适应和基于最大互信息准则与最大似然准则相结合的H-criterion最大后验概率(H-MAP)自适应估计先验分布中心,提出了基于最大互信息最大后验概率先验的最小音素错误最大后验概率(MPE-MMI-MAP)和基于H-criterion最大后验概率先验的最小音素错误最大后验概率(MPE-H-MAP)算法。任务自适应实验结果表明,MPE-MMI-MAP和MPE-H-MAP算法的自适应性能均优于MPE-MAP、MMI-MAP和最大后验概率(MAP)自适应方法,分别比MPE-MAP相对提高3.4%和2.7%。  相似文献   

10.
i-vector是反映说话人声学差异的一种重要特征,在目前的说话人识别和说话人验证中显示了有效性。将i-vector应用于语音识别中的说话人的声学特征归一化,对训练数据提取i-vector并利用LBG算法进行无监督聚类.然后对各类分别训练最大似然线性变换并使用说话人自适应训练来实现说话人的归一化。将变换后的特征用于训练和识别.实验表明该方法能够提高语音识别的性能。  相似文献   

11.
自适应技术是提高非特定人语音识别系统识别性能的有效手段,其中应用最广泛的两种自适应方法是基于最大后验概率的自适应方法和基于最大似然线性回归的自适应方法,分析了它们各自的特点并将最大后验概率的自适应方法应用到基于隐马尔可夫模型的口令识别系统中,实验结果表明,该方法能够在每个词自适应一次的情况下,使系统的识别率由40%提高到90%以上,并在此基础上实现了一个实用的中等词汇量的口令识别系统。  相似文献   

12.
变异情况对语音的影响是导致语音识别系统性能下降的原因之一。一般情况下变异语音数据采集困难,获得的训练数据量少,这样即使测试环境和训练环境都相同,识别性能也不理想。利用自适应算法可以解决这类问题,它采用少量的测试环境数据进行训练,以达到训练模型和测试数据匹配的目的,保证系统良好的识别性能。MAP算法是常用的自适应算法,大多应用于话者自适应环境,该文尝试将其应用于变异语音识别系统中,并通过对该模型做相应改进获得了较好的识别结果。在小词表特定人应力变异的识别实验中,分别用非特定人模型和改进的特定人模型作为初始模型,应用MAP算法,系统识别率均有明显提高,与基本识别系统相比,在10遍自适应数据前提下,识别率分别提高了15.84%和15.97%,最好的识别率达到85.56%和90.42%。  相似文献   

13.
现有基于混合高斯模型的说话人聚类方法主要依据最大后验准则,从通用背景模型中自适应得到类别的混合高斯模型,然而自适应数据较少,模型的准确性不够。对此,文中尝试基于本征语音(EV)空间和全变化(TV)空间分析的两种因子分析建模方法,通过对差异空间的建模,减少估计类别混合高斯模型时需要估计的参数个数。结果表明,在美国国家标准技术研究所2008年说话人识别评测的电话语音数据集上,相对于基于最大后验概率准则的基线系统而言,文中所使用的基于EV和TV空间分析的建模方法都可使聚类错误率有较大幅度的下降,并且TV空间分析建模相对于EV空间分析建模能获得更低的聚类错误率。  相似文献   

14.
针对实际问题中训练数据不足的特点,在对说话人建模时采用的是高斯混合模型—通用背景模型GMM-UBM,针对MCE训练算法中计算量大的显著问题,对其进行改进,改进的MCE算法不仅能使计算量减小,而且识别性能更佳。实验结果表明,在高斯混合数与说话人数不同的情况下,改进的MCE比传统MCE算法都要节省训练时间,且随着高斯混合数与说话人数的增长,节省的时间越多。针对采用MAP、MLLR、MAP\MLLR、EigenVoice方法作自适应得到的说话人模型,然后应用MCE算法与改进的MCE算法,改进的MCE算法比传统MCE方法识别率更高。  相似文献   

15.
This article presents an approach for the automatic recognition of non-native speech. Some non-native speakers tend to pronounce phonemes as they would in their native language. Model adaptation can improve the recognition rate for non-native speakers, but has difficulties dealing with pronunciation errors like phoneme insertions or substitutions. For these pronunciation mismatches, pronunciation modeling can make the recognition system more robust. Our approach is based on acoustic model transformation and pronunciation modeling for multiple non-native accents. For acoustic model transformation, two approaches are evaluated: MAP and model re-estimation. For pronunciation modeling, confusion rules (alternate pronunciations) are automatically extracted from a small non-native speech corpus. This paper presents a novel approach to introduce confusion rules in the recognition system which are automatically learned through pronunciation modelling. The modified HMM of a foreign spoken language phoneme includes its canonical pronunciation along with all the alternate non-native pronunciations, so that spoken language phonemes pronounced correctly by a non-native speaker could be recognized. We evaluate our approaches on the European project HIWIRE non-native corpus which contains English sentences pronounced by French, Italian, Greek and Spanish speakers. Two cases are studied: the native language of the test speaker is either known or unknown. Our approach gives better recognition results than the classical acoustic adaptation of HMM when the foreign origin of the speaker is known. We obtain 22% WER reduction compared to the reference system.  相似文献   

16.
声纹识别中,提出基于隐马尔可夫-通用背景模型的识别算法。针对声纹密码中每个人的注册语音数据量很少的问题,提出使用大量其他人数据先建立话者无关的声韵母隐马尔可夫模型作为通用背景模型,再根据最大后验概率准则,以通用背景模型为基础使用训练语音自适应获得说话人模型。该方法解决在声纹密码识别中训练数据不足的问题。在讯飞桌面数据库Ⅱ上,采用该算法的系统的等错误率为6。8%。  相似文献   

17.
针对传统支持向量机(SVM)在说话人识别中运算量过大的问题,提出了VQ-MAP和SVM融合的说话人识别系统。它应用仅自适应均值向量的最大后验概率矢量量化过程(VQ-MAP),来得到自适应的说话人模型,用此模型中的参数向量作为支持向量应用于SVM来进行说话人识别。用Matlab进行仿真实验,结果表明,基于VQ-MAP和SVM融合的说话人识别系统大大降低了运算量,SVM训练时间短,且具有较高的识别率。  相似文献   

18.
自适应技术在近年来得到越来越多的重视,其中应用广泛的包括MAP、MLLR,该技术利用少量特定人数据就可以调整码本,快速地提升识别性能,它要求原始的码本有很好的说话人无关性。本文介绍了结合MLLR自适应的说话人自适应训练(Speaker Adaptive Training,以下简称SAT)算法,这种方法将每个说话人码本视为说话人无关码本经过线性变换的结果,在此基础上训练的说话人无关码本更有效剔除了说话人相关信息,因此在说话人自适应中时能根据特定数据调整更好地逼近说话人特性,从而有更好的性能表现。  相似文献   

19.
基于高斯混合模型的文本无关说话人识别系统通常采用最大似然算法.在纯净语音环境下,基于这种算法的说话人识别系统具有较好的性能.当系统的训练环境和测试环境失配时,这种算法的误识率急剧上升.针对帧似然概率的统计特性,提出了一种新的非线性补偿方法--自适应得分补偿法.通过对帧似然概率归一化、帧均匀化和重新排序赋值等系列补偿措施,改善了原算法的识别性能.实验结果表明,新的补偿方法能够降低误识率,在开集中乎均可达20%,闭集中平均可达50%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号