首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 203 毫秒
1.
本文给出了一种语言辨识的新方法。通常来讲,语言辨识系统是说话人无关的,但说话人的个体特征对语言辨识系统有很大的影响,文本采用了一种粗分类精识别的思想,利用说话人聚类技术有效解决了粗分类的问题,对每类相近说话人集合建立模型,然后进行识别。实验表明,该方法对于说话人无关的语言辨识问题是有效的。  相似文献   

2.
高斯混合模型采用固定混合数结构的建模方法并不符合说话人语音特征分布的多样性,从而出现过拟合或者欠拟合的情况并影响系统的识别性能。提出一种混合数可变的自适应高斯混合模型并将其应用于说话人识别。模型训练中根据说话人语音特征参数分布的聚类特性,采用吸收合并与分裂机制动态调整混合数以获得更加精确的拟合性能,提高系统识别率。实验结果显示,在特征参数MFCC和BFCC(Bilinear Frequency Cepstrum Coefficients)下相对误识率分别下降了41.41%和22.21%。  相似文献   

3.
黄伟  戴蓓蒨  李辉 《电子与信息学报》2004,26(10):1607-1612
该文提出了一种基于分类高斯混合模型和神经网络融合(FS-GMM/NN)的说话人识别方法,通过对特征矢量进行聚类分析,将说话人的训练语音分成若干类。然后根据各个类中含特征矢量的多少采用不同的模型混合度,训练建立分类高斯混合模型。并采用神经网络实现各个分类高斯混合模型输出的融合。在100个男性话者的与文本无关的说话人识别实验中,基于分类高斯混合模型和神经网络融合的方法在识别性能及噪声鲁棒性上都优于不分类的GMM识别系统,并具有较高的模型训练效率,且可以有效地降低话者模型的混合度和测试语音长度。  相似文献   

4.
针对源说话人与目标说话人之间声学差异过大影响语音转换效果的问题,提出一种基于声道归一化调整的语音转换方法。该方法通过STRAIGHT分析-合成模型提取说话人的个性化特征参数。在频谱训练阶段,对已提取的Mel频率倒谱系数利用声道归一化和高斯混合模型的方法进行训练映射。主观听音测试证明,该方法的转换效果优于传统的不使用声道归一化的高斯混合模型。  相似文献   

5.
针对说话人分段与聚类算法中先验知识不足的问题,利用基于信息瓶颈(IB)准则和基于隐马尔科夫模型(HMM)/高斯混合模型(GMM)方法间的互补性,提出了一种基于特征层融合的说话人分段与聚类算法。该算法将基于IB准则算法的输出结果进行对数变换和降维处理;然后利用变换后的特征与传统梅尔频率倒谱系数(MFCC)特征分别训练说话人GMM模型,并在得分域对说话人类别的得分进行加权融合;根据融合的得分,进行基于HMM/GMM模型的说话人分段与聚类。实验表明,融合后的特征可以为系统提供更多的先验信息,比传统方法的误配率降低了1.2%。  相似文献   

6.
车滢霞  俞一彪 《电子学报》2016,44(9):2282-2288
提出一种约束条件下的结构化高斯混合模型及非平行语料语音转换方法.从源与目标说话人的原始非平行语料中提取出少量相同音节,在结构化高斯混合模型的训练过程中,利用这些相同音节包含的语义信息及声学特征对应关系对K均值聚类中心进行约束,并在(Expectation Maximum,EM)迭代过程中对语音帧属于模型分量的后验概率进行修正,得到基于约束的结构化高斯混合模型(Structured Gaussian Mixture Model with Constraint condition,C-SGMM).再利用全局声学结构(Acoustic Universal Structure,AUS)原理对源和目标说话人的约束结构化高斯混合模型的高斯分布进行匹配对准,推导出短时谱转换函数.主观和客观评价实验结果表明,使用该方法得到的转换后语音在谱失真,目标倾向性和语音质量等方面均优于传统的结构化模型语音转换方法,转换语音的平均谱失真仅为0.52,说话人正确识别率达到95.25%,目标语音倾向性指标ABX平均为0.82,性能更加接近于基于平行语料的语音转换方法.  相似文献   

7.
为了将源说话人的语音特征进行转换,使得听起来像是目标说话人的语音,本文提出了一种同语种的说话人转换算法。算法分为两个部分,一是利用高斯混合模型进行谱包络的转换,采用改进的方法对模型进行训练,去除语音数据时间对齐不准确的影响;二是基于高斯混合模型分类器和残差码本对残差信号预测。算法还对转换语音进行了后续处理,增强了语音的自然度。非正式的听觉测试表明,在利用时间不长的语音数据训练后,此算法可以进行说话人的转换,转换语音明显带有目标说话人的特征,且具有较高的可懂度。  相似文献   

8.
为了进一步提升i-vector说话人识别模型的系统性能,探讨了基于i-vector的说话人识别系统中训练时长、男女比例和高斯混合度对系统识别性能的影响。针对训练时长、男女比例和高斯混合度设置了一组实验,结合目前最流行的语音识别工具Kaldi进行验证,得出i-vector说话人识别算法的最佳参数,为以后的基于i-vector说话人识别算法研究提供数据依据。  相似文献   

9.
黄文娜  彭亚雄 《电声技术》2016,40(11):44-47
为了改善发声力度变化对说话人识别系统性能的影响.针对不同发声力度下语音信号的分析,提出了使用发声力度最大后验概率(Vocal Effort Maximum A Posteriori,VEMAP)自适应方法更新基于高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)的说话人识别系统模型.实验表明,所提出的方法使不同发声力度下系统EER%降低了88.45%与85.16%,有效解决了因发声力度变化引起的训练语音与测试语音音量失配,从而导致说话人识别性能降低的问题,改善说话人识别系统性能效果显著.  相似文献   

10.
李聪  葛洪伟 《信号处理》2018,34(7):867-875
由于环境噪声的影响,实际应用中说话人识别系统性能会出现急剧下降。提出了一种基于高斯混合模型-通用背景模型和自适应并行模型组合的鲁棒性语音身份识别方法。自适应并行模型组合是一种噪声鲁棒性的特征补偿算法,能够有效减少训练环境与测试环境之间的不匹配现象,从而提高系统识别准确率和抗噪性能。首先,算法从测试语音中估计出噪声特征,然后用一个单高斯模型对噪声特征进行拟合得到噪声均值和协方差。最后,根据得出的噪声均值和协方差,调整训练好的高斯混合模型均值向量和协方差矩阵,使其尽可能地匹配测试环境。实验结果表明,该方法可以准确地重构干净语音的高斯混合模型参数,并且能够显著提高说话人识别的准确率,特别是在低信噪比情况下。   相似文献   

11.
介绍了一个基于GMM实时说话人识别系统的设计与实现,系统具有实时说话人辨认和实时说话人确认功能。在实验室条件下,对不同的高斯混合密度个数及采样率进行了测试,测试了模型的自适应性能。实验表明系统具有较好的识别准确率。  相似文献   

12.
洪新海  宋彦  蒋兵  戴礼荣 《信号处理》2015,31(9):1152-1158
近年来基于深度神经网络(Deep Neural Network,DNN)的全差异空间建模方法(Total Variability, TV)在语种识别领域得到了广泛研究。本文提出了一种基于DNN的改进TV方法,既利用了DNN对数据的音素状态对齐效果,又充分考虑了语种任务的相关性。该方法首先利用带有瓶颈层的深层神经网络(Deep Bottleneck Network, DBN)对语种数据特征按照音素状态进行聚类,得到语种任务相关通用背景模型(Universal Background Model, UBM),然后利用该UBM模型并结合深度瓶颈特征(Deep Bottleneck Feature, DBF)进行TV建模。实验表明,与经典的TV方法相比,该方法能够显著的提升系统性能和效率,并且融合后性能得到了进一步提升。   相似文献   

13.
为了充分利用语音信号中的段长信息,该文提出了一种具有一般拓扑结构的非齐次隐含Markov模型(Hidden Markov Model, HMM),并将其应用于中、英文语种辨识(Language IDentification, LID)系统。非齐次HMM既很好地描述了语音信号的发生过程,又准确地利用了状态的段长信息和语言中的上下文连接结构信息,对于中、英文语种辨识系统,非齐次的HMM系统辨识性能好于齐次的HMM模型。而在非齐次的HMM中,同段长为均匀分布相比,段长分布为正态分布时系统的辨识性能更好,表明段长确实是一种重要的语种区分信息之一,且正态分布较均匀分布更接近于真实的段长分布。  相似文献   

14.
毛鹏飞  刘加 《电声技术》2009,33(11):56-59
实现了一个高性能、低成本、低功耗的声纹确认片上系统(SOC)。系统核心算法采用基于高斯混合模型以及通用背景模型(GMM—UBM)建模的说话人确认算法,采用了Mel倒谱系数(MFCC)作为说话人特征。此SOC系统不仅可进行声纹确认,而且包含说话人模型的训练,可实时更新说话人的人数和模型。系统的平均EER达到了0.0342。  相似文献   

15.
基于HMM的说话人辨认系统及其改进   总被引:2,自引:0,他引:2  
对基于隐马尔可夫模型(HMM)的说话人辨认系统进行了讨论,完成了系统设计。对系统中矢量量化这一关键性环节进行了改进,提出了一种新的基于遗传算法的码本生成方法。测试结果表明,改进后的系统具有较高的正确识别率,特别是在与文本无关的情况下。  相似文献   

16.
说话人识别的关键在于如何为集合中的每一个人建立一个能表征该说话人个性特征的声学模型,建模方法将会严重影响系统的性能。基于当今与文本无关的话者识别的主流模型——高斯混合模型(Gaussian Mixture Model,GMM)的基础上,从声学的角度剖析了男女发音的差别,以增加说话人之间的差异性为出发点,引入竞争性思想和通用背景模型(Universal Background Model,UBM),提出了具有区分性的GMM的建模方法,克服了传统GMM需要大量训练样本的局限性和UBM将说话人强制服从统一分布的弱点。最后实验的对比结果表明,具有区分性的GMM相比传统的高斯混合模型在识别率上有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号