首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 296 毫秒
1.
在说话人识别中,当存在两个或多个发声类似的说话人时,会导致错误识别。为了提高在这种情况下的识别准确率,在音素层次上找出说话人特有的特征,将这些特征的子集构成一个该说话人特有的特征集,然后在这些特征集的基础上用GMM和i-矢量的方法对说话人进行识别。在实验室环境下收集了50个说话人的声音,分别在不同信噪比的环境下进行测试。实验结果表明提出的方法能够提高当存在发声类似的说话人时的识别准确率。  相似文献   

2.
噪声环境下说话人识别的组合特征提取方法   总被引:1,自引:0,他引:1  
芮贤义  俞一彪 《信号处理》2006,22(5):673-677
针对在干净语音环境下识别率很高的说话人识别系统,在噪声环境下识别率显著降低的缺点,本文结合具有多分辨率分析特点的小波变换技术,提出一种基于小波变换的组合特征提取算法,以提高说话人识别系统在噪声环境下的识别性能。对40个说话人的语音库SUDA2002-D2,在噪声环境下进行的识别实验结果表明,本文提出的组合特征提取算法可以在噪声环境下有效地提高说话人识别系统的识别性能。  相似文献   

3.
基于小波变换的鲁棒型特征提取及说话人识别   总被引:4,自引:0,他引:4  
说话人识别系统在实际应用中面临的主要困难之一是鲁棒性问题,干净语音环境下识别率很高的说话人识别系统,在有噪语音环境下识别性能显著降低。解决这一问题的方法之一是寻找具有鲁棒性的特征参数。本文结合具有多分辨率分析特点的小波变换技术,提出一种基于小波变换的鲁棒型特征提取算法,以提高说话人识别系统在噪声环境下的识别性能。对40个说话人的语音库SUDA2002-D2,在加性高斯白噪声环境下进行的识别实验结果表明,本文提出的特征提取算法可以有效地提高说话人识别系统在噪声环境下的识别性能。  相似文献   

4.
为了提高噪声环境下说话人识别系统的识别性能,将基于听觉掩蔽效应的语音增强技术作为预处理器,对语音信号首先进行降噪处理,提高输入信号的信噪比。实验证明,经过降噪处理的语音信号送入说话人识别系统,提高了系统的识别性能。  相似文献   

5.
听觉特性和语谱特性在说话人识别中的应用   总被引:1,自引:1,他引:0  
大多数说话人识别系统当由实验室走向实际应用时,环境噪声的存在会造成其识别性能下降。为了提高噪声环境下说话人识别系统的识别性能,将基于听觉特性和语谱特性的语音增强技术作为预处理器,首先对语音信号进行降噪处理,提高输入信号的信噪比。实验证明,经过降噪处理的语音信号送入说话人识别系统,提高了系统的识别性能。  相似文献   

6.
张靖  俞一彪 《通信技术》2020,(3):618-624
说话人识别系统实际应用时,一旦应用环境和训练环境不一致,系统的性能会急剧下降。由于环境噪声的多变性,系统训练时无法预测实际应用中的环境噪声。因此,引入环境自学习和自适应思想,通过改进的矢量泰勒级数(Vector Taylor Series,VTS)刻画环境噪声模型和说话人语音模型之间的统计关系,提出一种具有环境自学习能力的鲁棒说话人识别算法。系统应用中每当环境变化时利用语音输入前采集到的环境噪声信号来迭代更新环境噪声模型参数,进一步基于VTS确立的统计关系,将说话人语音模型自适应到实际应用环境来补偿环境失配的影响。说话人辨认实验结果表明,提出的方法在低信噪比条件下对于不同种类的噪声都能显著提升系统的识别性能。  相似文献   

7.
张昊慧 《通信技术》2010,43(12):144-146
为了提高说话人识别中语音特征参数的鲁棒性,提取了新的特征参数DWT-MFCC,在提取该参数时利用了新构造的阈值函数,并基于高斯混合模型的说话人识别系统进行实验。实验结果表明,相对于传统的MEL倒谱系数(MFCC)参数,在相同的噪声环境下,DWT-MFCC参数具有更高的说话人识别率。  相似文献   

8.
说话人识别技术广泛地被应用于互联网和通信领域,近几年,压缩感知理论受到国内外的广泛关注,该理论突破了奈奎斯特采样速率的限制,对可压缩信号在采样的同时也进行压缩,将压缩感知这一新理论与说话人识别这一亟需突破的领域相结合,为说话人识别系统性能的提升带来希望。本文针对与文本无关的说话人识别技术,深入研究了贝叶斯框架下的压缩感知算法,率先提出了基于贝叶斯压缩感知的说话人识别算法;然后针对基于压缩感知的说话人识别算法中的稀疏系数的特点,引入半高斯先验,详细分析基于该先验的贝叶斯压缩感知后,提出基于近似贝叶斯压缩感知的说话人识别算法。  相似文献   

9.
论文研究了小波包变换及LPCC参数的提取,在此基础上,提取了基于小波包变换和LPCC的新参数(DWT-LPCC),并基于GMM系统进行说话人识别实验。结果表明,相对于LPCC参数,DWT-LPCC参数大大提高了噪声环境下的说话人识别率。  相似文献   

10.
大多数实际应用环境中总是存在各种各样的噪声,由于训练环境与识别环境不匹配,现有的绝大多数说话人识别系统在噪声环境中的性能都不可避免的急剧下降。为了让说话人识别系统在强噪声环境中,有较好的识别效果.研究一个将语音增强器和说话人识别系统级连起来的系统,该系统中将语音增强作为前端处理来提高输入的信噪比。实验证明,该系统具有很好的抗噪声性能。  相似文献   

11.
基于谱减的Robust电话语音识别方法   总被引:1,自引:0,他引:1  
谱减技术是语音增强的有效方法,并被成功地应用到了车辆等环境下的Robust语音识别中。文章对将谱减技术应用到电话语音识别中的加性噪声去除上进行了尝试。实验验证该方法有利于改进电话语音识别的性能,对不特定话音84个孤立词的实验,误识率下降了21.8%。  相似文献   

12.
基于加权特征值补偿的说话人识别   总被引:3,自引:0,他引:3  
于鹏  徐义芳  曹志刚 《信号处理》2002,18(6):513-517
背景噪声的存在,使得说话人识别系统的训练环境和测试环境发生失配,导致系统性能发生急剧下降。本论文提出一种加权特征值补偿算法,把由噪声引起的使带噪语音信号特征值与纯净语音特征值发生偏差的部分去除,从而使进入识别器的特征值接近纯净语音的特征值。在特征值补偿过程中引入了信噪比加权的方法。实验表明,这种方法能够有效的提高说话人识别系统的性能。  相似文献   

13.
李聪  葛洪伟 《信号处理》2018,34(7):867-875
由于环境噪声的影响,实际应用中说话人识别系统性能会出现急剧下降。提出了一种基于高斯混合模型-通用背景模型和自适应并行模型组合的鲁棒性语音身份识别方法。自适应并行模型组合是一种噪声鲁棒性的特征补偿算法,能够有效减少训练环境与测试环境之间的不匹配现象,从而提高系统识别准确率和抗噪性能。首先,算法从测试语音中估计出噪声特征,然后用一个单高斯模型对噪声特征进行拟合得到噪声均值和协方差。最后,根据得出的噪声均值和协方差,调整训练好的高斯混合模型均值向量和协方差矩阵,使其尽可能地匹配测试环境。实验结果表明,该方法可以准确地重构干净语音的高斯混合模型参数,并且能够显著提高说话人识别的准确率,特别是在低信噪比情况下。   相似文献   

14.
包永强  赵力  邹采荣 《信号处理》2006,22(6):899-902
噪声是影响语音识别和说话人识别性能的主要因素,目前常用的降噪方法多是针对平稳噪声的,而针对非平稳噪声的降噪方法很少。而在实际环境中,通常的噪声是非平稳的。本文将含噪语音变换到分数傅立叶域上,提出了一种在分数傅立叶变换域上进行线性最优滤波和中值滤波的联合滤波降噪方法。实验结果表明,该方法对含非平稳噪声的语音的降噪效果明显优于维纳滤波,能够有效地降低非平稳噪声的影响,提高非平稳噪声环境下的语音识别和说话人识别性能。  相似文献   

15.
全刚  肖熙 《电声技术》2010,34(6):45-47
数字语音识别具有很高的识别率,具有较高的实用价值。为实现在真实噪声环境下能达到高识别率的数字语音识别系统,采用基于段长分布的隐马尔可夫模型(DDBHMM)进行了安静环境和带噪环境下,特定人和非特定人的数字语音识别试验。试验结果表明,基于DDBHMM模型的数字语音识别技术对真实非平稳噪声环境下录制的特定人和非特定人语音都具有较高识别率。  相似文献   

16.
基于说话人分类技术的分级说话人识别研究   总被引:3,自引:0,他引:3       下载免费PDF全文
刘文举  孙兵  钟秋海 《电子学报》2005,33(7):1230-1233
识别正确率和抗噪性能固然是说话人识别的研究重点,但识别响应速度也是决定系统实用化的关键所在.本文成功地提出了基于说话人分类技术的分级说话人辨识方法,极大地提高了系统运行速度,随着注册说话人数的增多,较之传统的说话人辨识方法,其优势更加明显.同时在说话人确认中,该方法的使用,进一步提高了确认的正确率,有效地降低了错误接受和错误拒绝率.本文提出的可信度打分方法,也一定程度上改进了系统的性能.实验表明:基于说话人分类技术的说话人辨识方法使系统的运行速度平均提高了3.5倍,对说话人确认等误识率和最小误识率平均下降了53.75%.  相似文献   

17.
有效语音信号的提取在说话人识别中起着重要的作用,是声纹识别的主要研究内容之一。由于语音信号的非平稳性和不可预知因素的影响,决定用基于非线性时间序列的状态空间投影算法提取强噪声下的语音信号。该算法对其他场合微弱信号的检测也行之有效。  相似文献   

18.
Currently, many speaker recognition applications must handle speech corrupted by environmental additive noise without having a priori knowledge about the characteristics of noise. Some previous works in speaker recognition have used the missing feature (MF) approach to compensate for noise. In most of those applications, the spectral reliability decision step is performed using the signal to noise ratio (SNR) criterion, which attempts to directly measure the relative signal to noise energy at each frequency. An alternative approach to spectral data reliability has been used with some success in the MF approach to speech recognition. Here, we compare the use of this new criterion with the SNR criterion for MF mask estimation in speaker recognition. The new reliability decision is based on the extraction and analysis of several spectro-temporal features from across the entire speech frame, but not across the time, which highlight the differences between spectral regions dominated by speech and by noise. We call it the feature classification (FC) criterion. It uses several spectral features to establish spectrogram reliability unlike SNR criterion that relies only in one feature: SNR. We evaluated our proposal through speaker verification experiments, in Ahumada speech database corrupted by different types of noise at various SNR levels. Experiments demonstrated that the FC criterion achieves considerably better recognition accuracy than the SNR criterion in the speaker verification tasks tested.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号