首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
组合特征和二级判断模型相结合的说话人识别   总被引:1,自引:0,他引:1       下载免费PDF全文
针对目前说话人识别中个性化的特征提取以及假冒说话人的问题,提出一种组合特征提取和二级判断模型相结合的说话人识别方法。在特征提取阶段,采用MFCC倒谱特征、Delta_ Delta特征与平均幅度差法提取的基音周期相结合进行组合特征提取;在识别阶段,采用得分规整后的得分值与一个统一的阈值比较,将一部分假冒说话人排除后,再结合二级判断模型进行识别。实验结果证明该方法有效提高了识别率。  相似文献   

2.
针对语音识别系统中测试的目标说话人语音和训练数据的说话人语音存在较大差异时,系统识别准确率下降的问题,提出一种基于深度神经网络DNN(Deep Neural Network)的说话人自适应SA(Speaker Adaptation)方法。它是在特征空间上进行的说话人自适应,通过在DNN声学模型中加入说话人身份向量I-Vector辅助信息来去除特征中的说话人差异信息,减少说话人差异的影响,保留语义信息。在TEDLIUM开源数据集上的实验结果表明,该方法在特征分别为fbank和f MLLR时,系统单词错误率WER(Word Error Rate)相对基线DNN声学模型提高了7.7%和6.7%。  相似文献   

3.
本文在使用基音周期和美尔倒谱系数(MFCC)计算特征参数的基础上利用主成分分析(PCA)和线性判别分析(LDA)相结合的方法,构造了一种新的混合特征参数。这种新的参数结合了基音周期和MFCC 各自的特点,利用他们在说话人个人信息上的互补性,然后利用PCA 和LDA 相结合的方法提取特征,作为新的说话人特征。实验证明该方法具有更好地表征说话人特征的能力,能更好地识别说话人。  相似文献   

4.
针对贵阳工厂环境下口头任务对接缺乏依据性、出现事故难于追责的问题,引入深度学习模型改善贵阳方言工厂指令识别效果。自制贵阳方言工厂指令数据集,搭建指令识别系统,依次训练六种模型,其中包括拥有9层隐藏层的深度神经网络。在同一测试集下,系统随训练的进行逐渐提升性能,在DNN模型下识别错误率降至最低,远低于单音素模型识别错误率。对比不同测试集识别错误率,分析噪声对识别性能的干扰。实验表明DNN模型下带噪测试集错误率比纯净测试集高出不到3%,证明DNN模型具有更为优良的鲁棒性。  相似文献   

5.
通过分析当今说话人识别系统中常用的语音特征和基本的说话人识别方法,本文采用多门限多判决的动态时间规整算法作为识别方法,并提取出美尔频率倒谱及其差分、线性预测倒谱及其差分、基音周期、短时谱的临界带特征矢量和子带能量倒谱等多种语音特征进行互相组合,找出了相应于该识别方法的最优特征组合。  相似文献   

6.
肖星星  冯瑞 《计算机工程》2012,38(24):171-174
现有说话人识别方法在短时语音条件下识别性能明显下降。为此,提出一种基于共性特征选择的短时说话人识别方法。利用说话人语音数据得到高斯混合模型,提取说话人之间的公共重叠部分,建立共性重叠模型和非重叠模型,根据这2个模型完成测试语音特征的选择,计算其在所有说话人非重叠模型中的相似度,并根据相似性最大化原则进行决策。实验结果表明,该方法具有较强的鲁棒性,且系统识别错误率较低。  相似文献   

7.
在文本无关的说话人识别中,训练与测试语音中信道环境的差异是影响其性能最重要的因素.近年来,利用因子分析对信道建模成为说话人识别领域的重要方法,大大降低了说话人确认的错误率,但运算复杂度限制了实时的应用.本文介绍了一种简化的因子分析方法:首先在混合高斯模型的模型域训练信道空间,然后在特征域进行信道补偿,得到的新特征可用于各种系统.在NIST2006的数据库上,利用本文的方法相对基线系统在等错误率上有31%的降低.  相似文献   

8.
噪声环境下基于特征信息融合的说话人识别   总被引:1,自引:0,他引:1  
针对在干净的语音环境下说话人识别率很高,但噪声环境下说话人识别率急剧下降的问题,提出了一种在噪声环境下,利用信噪比权重对说话人的特征信息MFCC系数和基音周期进行非线性融合,同时对MFCC特征参数进行基于帧信噪比权重得分,并同传统的高斯混合模型算法和基于FO-MFCC联合分布的特征融合方法,在噪声环境下分别进行了说话人识别的性能比较,同时对提出的融合算法进行了仿真实现.实验结果表明:在噪声的环境下方法相比上述传统说话人识别方法,性能有了明显的提高,在干净的语音环境下性能相当.  相似文献   

9.
邬龙  黎塔  王丽  颜永红 《软件学报》2019,30(S2):25-34
为了进一步利用近场语音数据来提高远场语音识别的性能,提出一种基于知识蒸馏和生成对抗网络相结合的远场语音识别算法.该方法引入多任务学习框架,在进行声学建模的同时对远场语音特征进行增强.为了提高声学建模能力,使用近场语音的声学模型(老师模型)来指导远场语音的声学模型(学生模型)进行训练.通过最小化相对熵使得学生模型的后验概率分布逼近老师模型.为了提升特征增强的效果,加入鉴别网络来进行对抗训练,从而使得最终增强后的特征分布更逼近近场特征.AMI数据集上的实验结果表明,该算法的平均词错误率(WER)与基线相比在单通道的情况下,在没有说话人交叠和有说话人交叠时分别相对下降5.6%和4.7%.在多通道的情况下,在没有说话人交叠和有说话人交叠时分别相对下降6.2%和4.1%.TIMIT数据集上的实验结果表明,该算法获得了相对7.2%的平均词错误率下降.为了更好地展示生成对抗网络对语音增强的作用,对增强后的特征进行了可视化分析,进一步验证了该方法的有效性.  相似文献   

10.
孙念  张毅  林海波  黄超 《计算机应用》2018,38(10):2839-2843
当测试语音时长充足时,单一特征的信息量和区分性足够完成说话人识别任务,但是在测试语音很短的情况下,语音信号里缺乏充分的说话人信息,使得说话人识别性能急剧下降。针对短语音条件下的说话人信息不足的问题,提出一种基于多特征i-vector的短语音说话人识别算法。该算法首先提取不同的声学特征向量组合成一个高维特征向量,然后利用主成分分析(PCA)去除高维特征向量的相关性,使特征之间正交化,最后采用线性判别分析(LDA)挑选出最具区分性的特征,并且在一定程度上降低空间维度,从而实现更好的说话人识别性能。结合TIMIT语料库进行实验,同一时长的短语音(2 s)条件下,所提算法比基于i-vector的单一的梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、感知对数面积比系数(PLAR)特征系统在等错误率(EER)上分别有相对72.16%、69.47%和73.62%的下降。不同时长的短语音条件下,所提算法比基于i-vector的单一特征系统在EER和检测代价函数(DCF)上大致都有50%的降低。基于以上两种实验的结果充分表明了所提算法在短语音说话人识别系统中可以充分提取说话人的个性信息,有利地提高说话人识别性能。  相似文献   

11.
深度语音信号与信息处理:研究进展与展望   总被引:1,自引:0,他引:1  
论文首先对深度学习进行简要的介绍,然后就其在语音信号与信息处理研究领域的主要研究方向,包括语音识别、语音合成、语音增强的研究进展进行了详细的介绍。语音识别方向主要介绍了基于深度神经网络的语音声学建模、大数据下的模型训练和说话人自适应技术;语音合成方向主要介绍了基于深度学习模型的若干语音合成方法;语音增强方向主要介绍了基于深度神经网络的若干典型语音增强方案。论文的最后我们对深度学习在语音信与信息处理领域的未来可能的研究热点进行展望。  相似文献   

12.
提出了一种将基于深度神经网络(Deep Neural Network,DNN)特征映射的回归分析模型应用到身份认证矢量(identity vector,i-vector)/概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)说话人系统模型中的方法。DNN通过拟合含噪语音和纯净语音i-vector之间的非线性函数关系,得到纯净语音i-vector的近似表征,达到降低噪声对系统性能影响的目的。在TIMIT数据集上的实验验证了该方法的可行性和有效性。  相似文献   

13.
在连续语音识别系统中,针对复杂环境(包括说话人及环境噪声的多变性)造成训练数据与测试数据不匹配导致语音识别率低下的问题,提出一种基于自适应深度神经网络的语音识别算法。结合改进正则化自适应准则及特征空间的自适应深度神经网络提高数据匹配度;采用融合说话人身份向量i-vector及噪声感知训练克服说话人及环境噪声变化导致的问题,并改进传统深度神经网络输出层的分类函数,以保证类内紧凑、类间分离的特性。通过在TIMIT英文语音数据集和微软中文语音数据集上叠加多种背景噪声进行测试,实验结果表明,相较于目前流行的GMM-HMM和传统DNN语音声学模型,所提算法的识别词错误率分别下降了5.151%和3.113%,在一定程度上提升了模型的泛化性能和鲁棒性。  相似文献   

14.
随着说话人模型数量的增加,说话人识别系统的识别速度下降,不能满足实时性要求。针对这个问题,提出了基于分层识别模型的快速说话人识别方法。将变分法求解的KL散度的近似值作为模型间的相似性度量准则,并设计了说话人模型聚类的方法。结果表明,本文方法能够保证说话人模型聚类结果的有效性,在系统识别率损失很小的情况下,使系统的识别速度得到大幅度提升。  相似文献   

15.
车牌识别系统的黑盒对抗攻击   总被引:1,自引:0,他引:1  
深度神经网络(Deep neural network,DNN)作为最常用的深度学习方法之一,广泛应用于各个领域.然而,DNN容易受到对抗攻击的威胁,因此通过对抗攻击来检测应用系统中DNN的漏洞至关重要.针对车牌识别系统进行漏洞检测,在完全未知模型内部结构信息的前提下展开黑盒攻击,发现商用车牌识别系统存在安全漏洞.提出基...  相似文献   

16.
传统的最小二乘支持向量机(LS-SVM)使用特征向量作为训练样本,在说话人识别系统中应用时区分性不够明显。对此,提出VQ-MAP与LS-SVM融合的方法,使用通用背景模型(UBM)经过VQ-MAP过程得到说话人自适应参数集,把此参数集作为最小二乘支持向量机的训练样本应用于说话人识别系统中。用Matlab进行仿真实验,结果表明,该识别系统SVM训练时间短,且具有较高的识别率。  相似文献   

17.
一种基于子带处理的PAC说话人识别方法研究   总被引:1,自引:1,他引:0  
目前,说话人识别系统对于干净语音已经达到较高的性能,但在噪声环境中,系统的性能急剧下降.一种基于子带处理的以相位自相关(PAC)系数及其能量作为特征的说话人识别方法,即宽带语音信号经Mel滤波器组后变为多个子带信号,对各个子带数据经DCT变换后提取PAC系数作为特征参数,然后对每个子带分别建立HMM模型进行识别,最后在识别概率层中将HMM得出的结果相结合之后得到最终的识别结果.实验表明,该方法在不同信噪比噪声和无噪声情况下的识别性能都有很大提高.  相似文献   

18.
针对传统支持向量机(SVM)在说话人识别中运算量过大的问题,提出了VQ-MAP和SVM融合的说话人识别系统。它应用仅自适应均值向量的最大后验概率矢量量化过程(VQ-MAP),来得到自适应的说话人模型,用此模型中的参数向量作为支持向量应用于SVM来进行说话人识别。用Matlab进行仿真实验,结果表明,基于VQ-MAP和SVM融合的说话人识别系统大大降低了运算量,SVM训练时间短,且具有较高的识别率。  相似文献   

19.
关勇  李鹏  刘文举  徐波 《自动化学报》2009,35(4):410-416
传统抗噪算法无法解决人声背景下语音识别(Automatic speech recognition, ASR)系统的鲁棒性问题. 本文提出了一种基于计算听觉场景分析(Computational auditory scene analysis, CASA)和语者模型信息的混合语音分离系统. 该系统在CASA框架下, 利用语者模型信息和因子最大矢量量化(Factorial-max vector quantization, MAXVQ)方法进行实值掩码估计, 实现了两语者混合语音中有效地分离出目标说话人语音的目标, 从而为ASR系统提供了鲁棒的识别前端. 在语音分离挑战(Speech separation challenge, SSC)数据集上的评估表明, 相比基线系统, 本文所提出的系统的语音识别正确率提高了15.68%. 相关的实验结果也验证了本文提出的多语者识别和实值掩码估计的有效性.  相似文献   

20.
为了改善发声力度对说话人识别系统性能的影响,在训练语音存在少量耳语、高喊语音数据的前提下,提出了使用最大后验概率(MAP)和约束最大似然线性回归(CMLLR)相结合的方法来更新说话人模型、投影转换说话人特征。其中,MAP自适应方法用于对正常语音训练的说话人模型进行更新,而CMLLR特征空间投影方法则用来投影转换耳语、高喊测试语音的特征,从而改善训练语音与测试语音的失配问题。实验结果显示,采用MAP+CMLLR方法时,说话人识别系统等错误率(EER)明显降低,与基线系统、最大后验概率(MAP)自适应方法、最大似然线性回归(MLLR)模型投影方法和约束最大似然线性回归(CMLLR)特征空间投影方法相比,MAP+CMLLR方法的平均等错率分别降低了75.3%、3.5%、72%和70.9%。实验结果表明,所提出方法削弱了发声力度对说话人区分性的影响,使说话人识别系统对于发声力度变化更加鲁棒。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号