首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
提出了一种随机段模型系统的说话人自适应方法。根据随机段模型的模型特性,将最大似然线性回归方法引入到随机段模型系统中。在“863 test”测试集上进行的汉语连续语音识别实验显示,在不同的解码速度下,说话人自适应后汉字错误率均有明显的下降。实验结果表明,最大似然线性回归方法在随机段模型系统中同样能取得较好的效果。  相似文献   

2.
本征音自适应是一种快速高效的自适应算法,它被广泛应用到说话人识别中,但由于同一个说话人的本征音自适应的说话人因子之间的信道特征和噪声存在差异,导致了算法的识别精度降低。针对这一问题,提出基于干扰空间投影的本征音说话人识别(EV-NSP)算法。将训练语音通过主成分分析(PCA)方法计算得到干扰投影矩阵;将投影矩阵应用到生成本征音矢量算法中;利用最大似然估计算法自适应地得到说话人因子的估计值。实验结果表明,EV-NSP算法相对于传统的本征音自适应算法识别性能有了较大的提高。  相似文献   

3.
基于高斯混合模型的文本无关说话人识别系统通常采用最大似然算法.在纯净语音环境下,基于这种算法的说话人识别系统具有较好的性能.当系统的训练环境和测试环境失配时,这种算法的误识率急剧上升.针对帧似然概率的统计特性,提出了一种新的非线性补偿方法--自适应得分补偿法.通过对帧似然概率归一化、帧均匀化和重新排序赋值等系列补偿措施,改善了原算法的识别性能.实验结果表明,新的补偿方法能够降低误识率,在开集中乎均可达20%,闭集中平均可达50%.  相似文献   

4.
讨论由说话人引起的声学差异基础上,研究两种基于模型的自适应算法最大似然线性回归(MLLR)和最大后验概率(MAP)。实验结果表明,不论采用哪种自适应都能使识别率有一定的提升。两种算法之间的差异性在于MAP具有良好的渐进性,但收敛性较差,而MLLR在很大程度上改善了收敛特性,但其渐进特性却不如MAP。  相似文献   

5.
一种新的基于子空间的说话人自适应方法   总被引:1,自引:0,他引:1  
张文林  张卫强  刘加  李弼程  屈丹 《自动化学报》2011,37(12):1495-1502
提出了一种新的基于子空间的快速说话人自适应方法.该方法在本征音(Eigen-voice, EV)自适应方法基础上,进一步在音子空间寻找低维子空间, 得到更为紧凑的“说话人--音子”联合子空间.该子空间不仅包含了说话人间的模型参数相关性信息,而且对音子间的模型参数相关 性信息也进行了显式建模,在大大降低模型存储量的同时更为全面地反映模型参数的先验信息.在基于连续语音识别的无监督自适应实验中,在少量的自适应数据条件下,新方法取得了比最大似然线性回归和聚类最大似然线性基方法更好的效果.  相似文献   

6.
为了改善发声力度对说话人识别系统性能的影响,在训练语音存在少量耳语、高喊语音数据的前提下,提出了使用最大后验概率(MAP)和约束最大似然线性回归(CMLLR)相结合的方法来更新说话人模型、投影转换说话人特征。其中,MAP自适应方法用于对正常语音训练的说话人模型进行更新,而CMLLR特征空间投影方法则用来投影转换耳语、高喊测试语音的特征,从而改善训练语音与测试语音的失配问题。实验结果显示,采用MAP+CMLLR方法时,说话人识别系统等错误率(EER)明显降低,与基线系统、最大后验概率(MAP)自适应方法、最大似然线性回归(MLLR)模型投影方法和约束最大似然线性回归(CMLLR)特征空间投影方法相比,MAP+CMLLR方法的平均等错率分别降低了75.3%、3.5%、72%和70.9%。实验结果表明,所提出方法削弱了发声力度对说话人区分性的影响,使说话人识别系统对于发声力度变化更加鲁棒。  相似文献   

7.
i-vector是反映说话人声学差异的一种重要特征,在目前的说话人识别和说话人验证中显示了有效性。将i-vector应用于语音识别中的说话人的声学特征归一化,对训练数据提取i-vector并利用LBG算法进行无监督聚类.然后对各类分别训练最大似然线性变换并使用说话人自适应训练来实现说话人的归一化。将变换后的特征用于训练和识别.实验表明该方法能够提高语音识别的性能。  相似文献   

8.
针对现实中训练数据不足的特点,在说话人建模时采用高斯混合模型-通用背景模型(Gaussian Markov Model-Uniform Background Model, GMM-UBM),主要从说话人识别模型的自适应方法和参数估计方法两个方面,研究如何提高说话人识别系统的识别率。在说话人识别模型自适应方面,改进传统的用最大后验概率 MAP (Maximum A Posterior Probability)得到说话人模型的方法,将语音识别中的最大似然线性回归MLLR (Maximum Likelihood Linear Regression)和基于特征音(EigenVoice, EV)的自适应方法,应用到说话人识别模型自适应当中,并将其与MAP方法进行比较。  相似文献   

9.
许允喜  陈方 《计算机应用》2008,28(6):1546-1548
为了解决传统高斯混合模型(GMM)对初值敏感,在实际训练中极易得到局部最优参数的问题,提出了一种采用微粒群算法优化GMM参数的新方法。该方法将最大似然估计融入到微粒群算法迭代过程中,形成了新的混合算法。它利用微粒群算法的全局优化性及最大似然估计的局部寻优性求解高斯混合模型的参数,以提高参数精度。说话人辨认实验表明,与传统的方法相比,新方法可以得到更优的模型参数,使得系统的识别率进一步提高。  相似文献   

10.
一个基于插值的模糊控制器的推理方法   总被引:5,自引:0,他引:5  
文章提出了一种基于插值的模糊控制器,它既保持了合成推理的灵活性,同时又简化了合成推理的复杂性.在此基础上,给出了三种插值模型:线性插值模型,平方插值模型以及拉格朗日插值模型,最后给出了一个实例并对合成推理和三种插值模型进行了比较.  相似文献   

11.
To improve the performance of speaker recognition, the embedded linear transformation is used to integrate both transformation and diagonal-covariance Caussian mixture into a unified framework. In the case, the mixture number of GMM must be fixed in model training. The cluster expectation-maximization (EM) algorithm is a well-known technique in which the mixture number is regarded as an estimated parameter. This paper presents a new model structure that integrates a multi-step cluster algorithm into the estimating process of GMM with the embedded transformation. In the approach, the transformation matrix, the mixture number and model parameters are simultaneously estimated according to a maximum likelihood criterion. The proposed method is demonstrated on a database of three data sessions for text independent speaker identification. The experiments show that this method outperforms the traditional GMM with cluster EM algorithm. This text was submitted by the authors in English.  相似文献   

12.
钟山  何亮  邓妍  刘加 《自动化学报》2009,35(5):546-550
研究了将自适应领域的最大似然线性回归(Maximum likelihood linear regression, MLLR)变换矩阵作为特征进行文本无关的说话人识别算法. 本文引入了基于统一背景模型的MLLRSV-SVM说话人识别算法, 并在此基础上进行高层音素聚类以进一步提高识别性能. 在采用多种信道补偿技术后, 在NIST SRE 2006年1训练语段-1测试语段同信道和跨信道数据库上, 基于MLLR特征的系统与其他最好的系统性能接近并有很强的互补性, 经过简单线性融合可以极大提高识别性能.  相似文献   

13.
一种双向层间轮廓线线性插值方法   总被引:1,自引:0,他引:1  
CT和MRI图像断层之间的距离通常大于断层内部间的像素的距离,为了实现断层图像层间的合理过度,需要对轮廓线进行线性插值。文中提出了一种双向的断层轮廓线线性插值方法。该方法首先对轮廓多边形进行逼近,然后从两个方向寻找最佳匹配点对,最后进行线性插值。该方法易于实现,执行速度快。实验结果表明这种方法不仅对形状相似的轮廓线插值效果好,对形状差异大的轮廓线也能得到令人满意的结果。  相似文献   

14.
为进一步提高增强现实系统的三维注册精度,分析了磁力跟踪系统误差产生原因,在坐标变换校正法的基础上,提出了一种自适应网格线性插值校正法,对跟踪器进行校正.该方法首先将系统所用的整个三维空间划分为空间网格,再建立磁力坐标与真实坐标的对应表,然后对网格进行自适应重划分,最后利用线性插值法对实时磁力坐标进行校正.对该方法进行了详细的分析说明,进行了相关实验,实验结果表明,该方法能够显著提高增强现实系统的跟踪精确度,使虚实结合更自然.  相似文献   

15.
统计语音识别框架是现在发音错误检测系统的主流框架,而声学模型则是统计语音识别的基础。 该文一方面为了获得对于发音错误检测更好的声学模型,引入了说话人自适应训练(SAT)和选择性最大似然线性回归(SMLLR)技术;另一方面,由于字发音检错中存在严重的信息量不足问题和专家对于不同水平说话人的评价标注不一样,在后端上加入了话者得分归一化技术。在包含40个不同水平说话人的8 000个字的数据库上的实验结果表明,文中提出的方法有效的提高了系统性能,召回率为30%时,正确率从45.8%升到了53.6%,召回率为10%时,正确率从64.6%升到了79.9%。  相似文献   

16.
鲁志波  胡国恩 《计算机应用》2006,26(7):1570-1572
提出了一种新的图像插值算法,该算法利用局部结构张量所描述的图像几何特征增强了图像的边缘而不会产生伪影。在仿真实验中,应用该方法能够得到比传统的双线性和双三次插值方法更优的结果,特别是在边缘区域。而且该方法采用的插值格式能有效地减小计算量,适合实时应用。就提出的插值模型和一种基于变分的插值方法之间的关系进行了讨论,分析表明后者只是该模型的一个特例。  相似文献   

17.
基于MAP和MLLR的综合渐进自适应方法研究   总被引:1,自引:0,他引:1  
从说活人自适应技术讨论了最大后验概率(MAP)和最大似然线性回归(MLLR)两种经典的说活人自适应方法,通过在渐进的MAP方法中引入一个简化的MLLR模块,提出一种适合于强健语音识别的快速综合渐进自适应语音识别方法和策略。  相似文献   

18.
基于灰度共生矩阵的思想分析光线空间数据特征,在此基础上提出一种基于主方向匹配的光线空间插值方法。实验结果表明,新的插值方法插值生成的光线空间与传统的线性插值方法和自适应滤波插值方法生成的光线空间相比在PSNR上分别提高了3.44dB和1.97dB。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号