首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
针对说话人确认中的复杂信道环境干扰问题,提出一种基于深度神经网络的信道自适应方法。该方法首先在不同信道类型下训练得到音素信息相关的深度神经网络模型(Deep Neural Networks, DNNs),将说话人语音的声学特征参数在这些DNNs上进行自适应,得到各信道类型下的深瓶颈特征(Deep Bottleneck Feature, DBF)。然后将这些参数进行拼接并通过PCA降维,最后采用目前最有效的基于身份认证矢量(identity vector,i-vector)的建模技术对降维后的DBF进行建模,得到目标说话人模型和测试语音段的i-vector矢量用于最终说话人确认打分判决。在NIST SRE2010核心评测数据库上的实验结果表明,利用提出的方法能有效消除信道干扰对说话人确认的影响,在很大程度上提升了基于i-vector的说话人确认基线系统的性能。  相似文献   

2.
一种小波包变换的声纹参数提取方法研究   总被引:1,自引:0,他引:1  
在声纹识别系统中,对声纹参数的提取很重要。传统的MFCC参数忽略了语音信号的动态特性,因此提出了一种基于小波包变换的声纹参数提取方法。为了更突出说话人的声纹特征,克服说话内容不同对提取声纹参数的影响,在分帧阶段采用帧长为2560点,增长有效语音段。再结合基于矢量量化(VQ)系统进行说话人识别实验,并通过比较常用的db3、db4、db6、coif3小波函数选取最优基。实验证明,相对于常用的256点帧长,帧长为2560点的识别率较高且提高了运算速率。coif3小波函数为声纹参数提取的最优基。新的WPT参数的识别率优于传统的MFCC参数。  相似文献   

3.
特征提取是说话人识别系统中的一项关键技术,讨论了在说话人识别中语音特征的提取,详细介绍了求取MEL倒谱系数MFCC和线性预测倒谱系数LPCC的具体步骤和算法,并对MFCC和LPCC语音特征参数做出了理论分析和实验数据比较,通过实验论证了对于低频语音,采用MFCC参数的说话人识别在屏蔽噪音和抗噪声能力都优于采用LPCC参数的说话人识别.  相似文献   

4.
提出一种基于稀疏神经网络的说话人分割方法,利用稀疏的单隐层神经网络提取语音的超矢量特征中说话人因子特征,然后通过K均值聚类得到每帧语音的标号来分割不同说话人,在稀疏网络的训练过程中引入了dropout技术以克服过拟合问题.在TIMIT语音数据库构成的多说话人语音数据上的实验结果表明:通过增加稀疏网络中隐层节点的个数可以提高说话人分割的效果,与贝叶斯信息准则(Bayesian information criterion,BIC)方法和稀疏自编码网络方法相比,所提基于稀疏神经网络的说话人分割方法的性能有明显提高.  相似文献   

5.
人的声音虽然具有个性特征,但随着电子信息技术的迅猛发展,人的语音也可以被模仿.当模仿者模仿说话人声音相似度极高时,当前说话人身份确认系统就有可能会被非法欺骗.研究了一种双模态信息融合的说话人识别方法,能把声纹信息和人脸信息融合在一起,通过动态贝叶斯网络(DBN)方法来刻画两类特征之间的相关性,并根据DBN模型作出最后的说话人识别结果.实验表明,基于双模态信息融合的说话人识别方法比传统单独的声纹识别和人脸识别有较高的正确识别率.  相似文献   

6.
语种识别受真实噪声环境的影响较大,识别效果不佳. 为了解决真实噪声环境下语种识别的问题,提出一种基于对数灰度语谱图的图像处理语种识别方法. 根据噪声能量和语音能量在语谱图上的分布规律对真实噪声中的语音信号进行带通滤波;再结合人耳听觉特性提取对数灰度语谱图;然后提取图像主成分特征作为语种特征,采用残差神经网络模型进行训练测试. 实验结果表明,在掠夺者战斗机驾驶舱的环境下,所提方法的平均识别正确率相对于线性灰度语谱图方法提升了27.5%,在其他噪声环境下的平均识别正确率也有提升.  相似文献   

7.
汉语语音转换技术的目的是在保持语义信息不变的前提下将汉语语音中源说话人的语音特征转换为目标说话人的语音特征.提出的适用于汉语说话人高自然度语音转换算法主要分为三个部分:前两部分用VQ模型实现了语音的谱包络及其激励的转换,第三部分采用BP算法实现语音的韵律转换规则建模.算法针对汉语语音超音段发音特点进行韵律调整,有效实现了汉语语音转换并得到高自然度合成语音.实验表明本文提出的转换方法是一种有效的汉语语音转换算法.  相似文献   

8.
针对低信噪比下语种识别正确率低的问题,提出了一种声道冲激响应频谱参数和Teager能量算子倒谱参数融合的识别方法.根据语音中不同特征信息量分布特性,首先在特征提取前端引入低通滤波器滤除信号高频部分,并采用重采样方法降低采样率,再基于信号频谱提取声道冲激响应频谱参数,然后融合Teager能量算子倒谱参数,最后通过高斯混合通用背景模型进行语种识别验证.不同信噪比条件下性能测试表明,所提方法相对于基于单一的梅尔频率倒谱系数特征、单一的伽玛通频率倒谱系数特征和基于对数梅尔尺度滤波器组能量特征,在低信噪比下提升约15 dB,显著提高了识别正确率.  相似文献   

9.
梅尔倒谱系数是一种常用于说话人识别的特征参数,韵律特征是一种描述人的声门特性的参数。为融合MFCC与韵律特征,以图优化说话人确认系统性能,该文采用二次判决的方法来处理这两个特征;参与第二次判决的语音则由通过大量实验制定的判决空间来确定。实验结果表明,采用二次判决时,系统等错误率从仅使用MFCC时的5.56%的下降至4.37%。  相似文献   

10.
随着当前电子商务和金融交易领域的发展,用户身份认证的应用变得越来越广泛.结合实际,本文构建了一种基于人脸和语音的混合型身份认证系统,分别提出了基于重建误差分类器的特征脸确认算法和基于高斯混合 (Gaussian mixture models, GMM)说话人确认算法;最后在分数层进行融合,提出了基于正交多项式核函数的支持向量机.实验结果表明,该方法在分类、泛化能力和减少支持向量数目方面均取得了良好的效果,最终获得了较小的等误差率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号