期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吕勇吴镇扬《电子与信息学报》2010,32(1):107-111

在实际环境中,由于测试环境与训练环境的不匹配,语音识别系统的性能会急剧恶化。模型自适应算法是减小环境失配影响的有效方法之一,它通过测试环境下的少量自适应数据,将HMM模型的参数变换到测试环境下。该文将矢量泰勒级数用于模型自适应,同时对HMM模型的均值向量和协方差矩阵进行变换,使其与实际环境相匹配。实验证明,该文算法优于MLLR算法和基于矢量泰勒级数的特征补偿算法,在低信噪比环境中性能提高尤为明显。相似文献

2.

基于分类特征空间高斯混合模型和神经网络融合的说话人识别 总被引：2，自引：0，他引：2

黄伟戴蓓蒨李辉《电子与信息学报》2004,26(10):1607-1612

该文提出了一种基于分类高斯混合模型和神经网络融合(FS-GMM/NN)的说话人识别方法,通过对特征矢量进行聚类分析,将说话人的训练语音分成若干类。然后根据各个类中含特征矢量的多少采用不同的模型混合度,训练建立分类高斯混合模型。并采用神经网络实现各个分类高斯混合模型输出的融合。在100个男性话者的与文本无关的说话人识别实验中,基于分类高斯混合模型和神经网络融合的方法在识别性能及噪声鲁棒性上都优于不分类的GMM识别系统,并具有较高的模型训练效率,且可以有效地降低话者模型的混合度和测试语音长度。相似文献

3.

基于高斯相似度分析的插值自适应算法

下载免费PDF全文

吕萍王作英陆大《电子学报》2001,29(Z1):1759-1761

快速说话人自适应算法在非特定人连续语音识别的应用中有重要意义.现在流行的自适应算法多数只考虑均值的自适应.本文提出的自适应算法可以快速的对协方差矩阵进行自适应.该算法是用高斯相似度度量协方差矩阵间的距离,并由此测度建立了反映协方差矩阵结构关系的二叉决策树.树的每个中间节点包含一个类质心.在决策树基础上,训练多个与特定人模型相关的类质心.自适应时,通过对这些类质心进行线性插值得到自适应的协方差矩阵.实验结果表明,该方法能够在仅有一句自适应数据的情况下,使系统误识率由29.49%下降到27.55%. 相似文献

4.

基于i-vector说话人识别算法中训练时长研究

《现代电子技术》2016,(14)

为了进一步提升i-vector说话人识别模型的系统性能,探讨了基于i-vector的说话人识别系统中训练时长、男女比例和高斯混合度对系统识别性能的影响。针对训练时长、男女比例和高斯混合度设置了一组实验,结合目前最流行的语音识别工具Kaldi进行验证,得出i-vector说话人识别算法的最佳参数,为以后的基于i-vector说话人识别算法研究提供数据依据。相似文献

5.

自适应高斯混合模型及说话人识别应用

王韵琪俞一彪《通信技术》2014,(7):738-743

高斯混合模型采用固定混合数结构的建模方法并不符合说话人语音特征分布的多样性,从而出现过拟合或者欠拟合的情况并影响系统的识别性能。提出一种混合数可变的自适应高斯混合模型并将其应用于说话人识别。模型训练中根据说话人语音特征参数分布的聚类特性,采用吸收合并与分裂机制动态调整混合数以获得更加精确的拟合性能,提高系统识别率。实验结果显示,在特征参数MFCC和BFCC（Bilinear Frequency Cepstrum Coefficients）下相对误识率分别下降了41.41%和22.21%。相似文献

6.

语音识别的鲁棒性特征提取方法研究

魏勋耿志辉王晓攀《无线电工程》2010,40(8):59-61

训练环境和测试环境的不匹配是造成实际情况下语音识别性能下降的主要原因。在深入研究语音识别的噪声环境和Mel域倒谱系数(MFCC)流程的基础上,基于累计分布函数匹配思想,给出了3种通过减小训练环境和测试环境的不匹配度来提高系统在不同环境下适应性的鲁棒性特征提取方法,分析了它们的理论基础、基本算法,并在Aurora2.0数据库上进行了实现,验证了方法的有效性,为实际应用中如何选择语音识别系统提供了参考。相似文献

7.

基于并行化的说话人识别方法的研究

《信息技术》2017,(10)

随着人工智能时代的到来,语音信号处理已经成为热门的研究方向之一。基于并行化的说话人识别方法,利用拾音器阵列采集多路语音信号,传输到嵌入式GPU系统,在嵌入式GPU系统内依次进行预处理、并行化特征提取和特征匹配并把输出结果进行显示。针对现在大数据量的语音信号进行处理,对说话人识别算法进行了并行化改进,优化了语音信号处理等过程,提高说话人识别系统的效率和准确率,增强了说话人识别系统的鲁棒性。相似文献

8.

一种新的基于DBN的声学特征提取方法

《无线电通信技术》2015,(6):41-45

大词汇量连续语音识别系统中,为了进一步增强网络的鲁棒性、提升深度置信网络的识别准确率,提出一种基于区分性和ODLR自适应瓶颈深度置信网络的特征提取方法。该方法首先使用鲁棒性较强的瓶颈深度置信网络进行初步特征提取,进而进行区分性训练,使网络的区分性更强、识别准确率更高,在此基础上引入说话人自适应技术对网络进行调整,提高模型的鲁棒性。利用提出的声学特征在多个噪声较强、主题风格较为随意的多个公共连续语音数据库上进行了测试,识别结果取得了22.2%的提升。实验结果表明所提出的特征提取方法有效性。相似文献

9.

基于改进语音特征提取方法的语音识别 总被引：1，自引：1，他引：0

李建文张晋平《微电子学与计算机》2009,26(7)

在分析语音特征提取方法基础上提出一种改进组合算法,并采用HMM声学模型和Viterbi算法进行模式训练和识别.实验结果表明,该算法在噪声环境中具有较好的鲁棒性,能有效提高噪声环境下中文连续语音识别的正确率,增强语音识别整体性能,因此在噪声环境下的语音识别系统中具有一定的实用价值. 相似文献

10.

基于小波变换的鲁棒型特征提取及说话人识别 总被引：4，自引：0，他引：4

芮贤义俞一彪《电路与系统学报》2005,10(5):129-132

说话人识别系统在实际应用中面临的主要困难之一是鲁棒性问题,干净语音环境下识别率很高的说话人识别系统,在有噪语音环境下识别性能显著降低。解决这一问题的方法之一是寻找具有鲁棒性的特征参数。本文结合具有多分辨率分析特点的小波变换技术,提出一种基于小波变换的鲁棒型特征提取算法,以提高说话人识别系统在噪声环境下的识别性能。对40个说话人的语音库SUDA2002-D2,在加性高斯白噪声环境下进行的识别实验结果表明,本文提出的特征提取算法可以有效地提高说话人识别系统在噪声环境下的识别性能。相似文献

11.

基于加权特征值补偿的说话人识别 总被引：3，自引：0，他引：3

于鹏徐义芳曹志刚《信号处理》2002,18(6):513-517

背景噪声的存在,使得说话人识别系统的训练环境和测试环境发生失配,导致系统性能发生急剧下降。本论文提出一种加权特征值补偿算法,把由噪声引起的使带噪语音信号特征值与纯净语音特征值发生偏差的部分去除,从而使进入识别器的特征值接近纯净语音的特征值。在特征值补偿过程中引入了信噪比加权的方法。实验表明,这种方法能够有效的提高说话人识别系统的性能。相似文献

12.

具有环境自学习机制的鲁棒说话人识别算法

张靖俞一彪《通信技术》2020,(3):618-624

说话人识别系统实际应用时,一旦应用环境和训练环境不一致,系统的性能会急剧下降。由于环境噪声的多变性,系统训练时无法预测实际应用中的环境噪声。因此,引入环境自学习和自适应思想,通过改进的矢量泰勒级数(Vector Taylor Series,VTS)刻画环境噪声模型和说话人语音模型之间的统计关系,提出一种具有环境自学习能力的鲁棒说话人识别算法。系统应用中每当环境变化时利用语音输入前采集到的环境噪声信号来迭代更新环境噪声模型参数,进一步基于VTS确立的统计关系,将说话人语音模型自适应到实际应用环境来补偿环境失配的影响。说话人辨认实验结果表明,提出的方法在低信噪比条件下对于不同种类的噪声都能显著提升系统的识别性能。相似文献

13.

基于谱减的Robust电话语音识别方法 总被引：1，自引：0，他引：1

韩纪庆秦兵王承发《电声技术》2000,(12):35-37

谱减技术是语音增强的有效方法，并被成功地应用到了车辆等环境下的Ｒｏｂｕｓｔ语音识别中。文章对将谱减技术应用到电话语音识别中的加性噪声去除上进行了尝试。实验验证该方法有利于改进电话语音识别的性能，对不特定话音８４个孤立词的实验，误识率下降了２１．８％。相似文献

14.

Text‐Independent Speaker Verification Using Variational Gaussian Mixture Model

Mohammad Hossein Moattar Mohammad Mehdi Homayounpour 《ETRI Journal》2011,33(6):914-923

This paper concerns robust and reliable speaker model training for text‐independent speaker verification. The baseline speaker modeling approach is the Gaussian mixture model (GMM). In text‐independent speaker verification, the amount of speech data may be different for speakers. However, we still wish the modeling approach to perform equally well for all speakers. Besides, the modeling technique must be least vulnerable against unseen data. A traditional approach for GMM training is expectation maximization (EM) method, which is known for its overfitting problem and its weakness in handling insufficient training data. To tackle these problems, variational approximation is proposed. Variational approaches are known to be robust against overtraining and data insufficiency. We evaluated the proposed approach on two different databases, namely KING and TFarsdat. The experiments show that the proposed approach improves the performance on TFarsdat and KING databases by 0.56% and 4.81%, respectively. Also, the experiments show that the variationally optimized GMM is more robust against noise and the verification error rate in noisy environments for TFarsdat dataset decreases by 1.52%. 相似文献

15.

Robust speech features based on wavelet transform with application to speaker identification 总被引：2，自引：0，他引：2

Hsieh C.-T. Lai E. Wang Y.-C. 《Vision, Image and Signal Processing, IEE Proceedings -》2002,149(2):108-114

An effective and robust speech feature extraction method is presented. Based on the time-frequency multiresolution property of the wavelet transform, the input speech signal is decomposed into various frequency channels. For capturing the characteristics of an individual speaker, the linear predictive cepstral coefficients of the approximation channel and entropy value of the detail channel for each decomposition process are calculated. In addition, an adaptive thresholding technique for each lower resolution is also applied to remove the influence of noise interference. Experimental results show that using this mechanism not only effectively reduces the influence of noise interference but also improves the recognition performance. Finally, the proposed method is evaluated on the MAT telephone speech database for text-independent speaker identification using the group vector quantisation identifier. Some popular existing methods are also evaluated for comparison, and the results show that the proposed feature extraction algorithm is more effective and robust than the other existing methods. In addition, the performance of the proposed method is very satisfactory even in a low SNR environment corrupted by Gaussian white noise. 相似文献

16.

LVCSR系统中一种基于区分性和自适应瓶颈深度置信网络的特征提取方法

下载免费PDF全文

陈雷杨俊安王一王龙《信号处理》2015,31(3):290-298

大词汇量连续语音识别系统中,为了进一步增强网络的鲁棒性、提升瓶颈深度置信网络的识别准确率,本文提出一种基于区分性和自适应瓶颈深度置信网络的特征提取方法。该方法首先使用鲁棒性较强的瓶颈深度置信网络进行初步特征提取,进而进行区分性训练,使网络的区分性更强、识别准确率更高,在此基础上引入说话人自适应技术对网络进行调整,提高系统的鲁棒性。本文利用提出的声学特征在多个噪声较强、主题风格较为随意的多个公共连续语音数据库上进行了测试,识别准确率取得了6.9%的提升。实验结果表明所提出的特征提取方法相对于传统方法的优越性。相似文献

17.

倒谱域特征分量置信度分析及说话人识别应用

薛峰俞一彪《信号处理》2010,26(1):127-131

缺失数据理论的置信度分析用于说话人识别时,使用的是滤波器组语音特征,虽然系统的鲁棒性可以提高,但整体的误识率依然很高。为了进一步降低系统的误识率,本文在滤波器组语音特征分量置信度的基础上,提出了一种用于计算倒谱域特征MFCC各维分量置信度的方法CBTM,该方法通过一个置信度变换矩阵,估算出经过Mel谱减法处理后的MFCC各维分量的置信度,在此基础上通过对GMM模型的方差加权来减少置信度小的特征分量对输出概率的影响,以此来提高系统的鲁棒性。在基于SUDA2002语料库的说话人辨认实验中,上述方法对NoiseX 92噪声库中的white、pink、factory1噪声表现出了比传统方法更低的误识率,说明了这种方法的有效性。相似文献

18.

一种基于特征值和级联聚类的协作频谱感知方法

下载免费PDF全文

吴城坤王全全宛汀《电讯技术》2023,63(12):1911-1917

为了提高低信噪比(Signal-to-Noise Ratio, SNR)下频谱感知的性能，使用模糊C均值(Fuzzy C-means, FCM)和高斯混合模型(Gaussian Mixture Model, GMM),提出了一种基于特征值和级联聚类的协作频谱感知方法。从接收信号的协方差矩阵中提取特征值构造特征向量，通过在三维空间中执行聚类得到信道是否可用的分类模型，此过程无需获得主用户(Primary User, PU)信号以及噪声功率的先验信息，避免了复杂的门限计算。FCM聚类用于优化GMM聚类的初始参数，有效解决了在低SNR下GMM容易陷入局部最小值的问题。仿真结果表明，该方法降低了GMM的收敛时间并提高了模型分类的准确性，与其他主流方法相比能够有效提升频谱感知的性能。相似文献