共查询到20条相似文献,搜索用时 78 毫秒
1.
基于分段线性频谱弯折函数的说话人归一化方法 总被引:1,自引:0,他引:1
在传统的声道长度归一化方法中 ,基于声道无损级联短管模型假设 ,用一个简单的声道因子来确定频谱弯折函数 ,无法描述出不同说话人的频谱差异的细节 .针对这一缺陷 ,提出用细致的分段线性频谱弯折函数来描述说话人差异 ,在适当的频谱分段下 ,较好地完成了频谱对齐的任务 .此外 ,由于利用了与模型无关的频谱弯折函数 ,该方法被证明是一种快速的、尤其适用于无监督模式的说话人鲁棒性方法 相似文献
2.
目前的说话人识别系统在噪声环境下性能将急剧下降,为了解决这一问题,提出一种新的基于稀疏编码的说话人识别方法。该方法用一个通用背景字典(Universal Background Dictionary,UBD)刻画说话人语音的共性,并为每个说话人和环境噪声训练相应的字典来刻画说话人和环境的特殊变化。这些字典拼接成一个大字典,然后将待测试语音稀疏分解在这个大字典上以实现说话人识别。为了提高说话人字典的区分能力,通过从说话人字典中移除与通用背景字典原子相似的原子来优化说话人字典。为了跟踪变化的噪声,采用带噪声的语音在线更新噪声字典。在各种噪声条件下的实验表明,所提出的方法在噪声环境下具有较强的鲁棒性。 相似文献
3.
目前说话人识别系统在理想环境下识别率已可达90%以上,但在实际通信环境下识别率却迅速下降.本文对信道失配环境下的鲁棒说话人识别进行研究.首先建立了一个基于高斯混合模型(GMM)的说话人识别系统,然后通过对实际通信信道的测试和分析,提出了两种改进方法.一是由实测数据建立了一个通用信道模型,将干净语音经通用信道模型滤波后再作为训练语音训练说话人模型;二是通过对比实测信道﹑理想低通信道及语音梅尔倒谱系数(MFCC)的特点,提出合理舍去语音第一﹑二维特征参数的方法.实验结果表明,通过处理后,系统在通信环境下的识别率提升了20%左右,与传统的倒谱均值减(CMS)方法相比,识别率提高了9%-12%. 相似文献
4.
5.
6.
7.
提出一种用于说话人识别中说话人语音特征向量聚类的方法--新颖检测法.通过提取出的特征参数(MFCC和LPCC),建立系统模型,实验结果表明,将新颖检测法结合VQ用于特征向量的分类,较之于单纯的VQ分类,取得了识别率高、稳健型强、确认可靠的效果. 相似文献
8.
在上下文无关的说话人识别应用中,针对传统MFCC特征参数在语音预处理方面不足以及三角滤波器组的缺陷,提出一种改进的MFCC特征参数提取方法.一方面在传统算法上加入端点检测,去除与说话人语音特征无关的静音段;另一方面用高斯滤波器组(Gaussian shaped filters GF)代替三角滤波器组进行频率到Mel频率的转换,提高识别准确率.说话人识别模型使用流行的高斯混合模型(GMM).实验结果显示,高斯滤波器组的引入相比于传统三角滤波器组识别率有4.45%的提升,本文改进后的MFCC特征参数相比于传统方法识别率也提升了6.43%,能更好的代表说话人的语音特征. 相似文献
9.
基于PCNN的语谱图特征提取在说话人识别中的应用 总被引:7,自引:1,他引:7
该文首次提出了一种将有生物视觉依据的人工神经网络——脉冲耦合神经网络(PulseCoupledNeuralNetwork,以下简称为PCNN)用于说话人识别领域的语谱图特征提取的新方法。该方法将语谱图输入到PCNN后得到输出图像的时间序列及其熵序列作为说话人语音的特征,利用它的不变性实现说话人识别。实验结果表明,该方法可以快速有效地进行说话人识别。该文将PCNN引入到语音识别的应用研究中,开拓了信号处理中两个极为重要的部分———语音信号处理和图像信号处理结合的新领域,同时对于PCNN的理论研究和实际应用具有非常重要的现实意义。 相似文献
10.
建立一种非参数模型来刻画说话人的特征分布,并采用地面移动距离来度量分布之间的相似性.该方法能有效地利用有限的数据表达说话人的身份信息,直接计算特征分布与测试语音分布之间的距离,与传统的矢量量化和高斯混合模型相比,不需要通过对所有语音帧计算总平均失真误差和最小相似度,计算简单,主要能够降低系统对数据量的依赖性.并且通过自适应直方图均衡化方法对原始语音特征进行修正,使得噪声环境下获得的语音特征经过修正后更符合真实分布,增强了特征的抗噪性.实验表明,本文提出的方法在噪声环境下的短语音说话人识别系统中表现出较强的优势. 相似文献
11.
12.
13.
针对说话识别领域短语音导致的训练数据不充分的问题,选择能够突出说话人个性特征的GMM-UBM作为基线系统模型,并引入SVM解决GMM-UBM导致的系统鲁棒性差的问题. 选择不同的核函数对SVM的识别性能有较大的影响,针对多项式核函数泛化能力较强、学习能力较差与径向基核函数学习能力较强、泛化能力较差的特性,对两种单核核函数进行线性加权组合,以使组合核函数兼具各单核的优点. 仿真实验结果表明,组合核函数SVM的识别率和等错误率明显优于不引入SVM的GMM-UBM的基线系统及其它三个单核函数,并在不同信噪比情况下也兼顾了系统识别准确率与鲁棒性. 相似文献
14.
15.
针对说话人识别实际应用中训练数据不足的问题,选取GMM-UBM作为基准系统模型,用EigenVoice对其作自适应,应用泛化能力较强的多项式核函数和学习能力较强的径向基核函数进行线性加权组合后的组合核函数进行模型参数优化,并用多重网格搜索法确定核函数的最优参数,采用DAG方法实现SVM核函数的多元分类.在仿真实验中评估了线性核、多项式核、径向基核以及组合核函数,实验结果表明,在采用正确的参数前提下,在不同的多分类策略、自适应时间、信噪比和不同的说话人数量的情况下,组合核函数的识别性能明显都优于其它三个单核函数. 相似文献
16.
为了提高说话人识别系统的识别效率,提出一种基于说话人模型聚类的说话人识别方法,通过近似KL距离将相似的说话人模型聚类,为每类确定类中心和类代表,构成分级说话人识别模型。测试时先通过计算测试矢量与类中心或类代表之间的距离选择类,再通过计算测试矢量与选中类中的说话人模型之间对数似然度确定目标说话人,这样可以大大减少计算量。实验结果显示,在相同条件下,基于说话人模型聚类的说话人识别的识别速度要比传统的GMM的识别速度快4倍,但是识别正确率只降低了0.95%。因此,与传统GMM相比,基于说话人模型聚类的说话人识别能在保证识别正确率的同时大大提高识别速度。 相似文献
17.
18.
本文为在传统的说话人识别理论研究中“较少的特征参数量不能与较高的识别率共存”的难题找到了一种解决方案。本文基于压缩感知的理论,利用行阶梯观测矩阵进行信号的投影,改变了传统的梅尔频率倒谱系数(Mel-frequency cepstral coefficient, MFCC)参数,从而提出了一种新的识别参数CS-MFCC(Compressed sensing-MFCC)。该参数不仅使得参数存储量降低到少于原存储量的1/n(n为行阶梯观测矩阵的压缩比),而且明显提高了系统的鲁棒性。通过仿真
实验证明了当压缩比n为4时,平均识别率能够提高到96%以上。 相似文献
19.
研究并实现了总变化因子分析(Total Variability Factor Analysis)技术,该技术在对说话人进行建模的时候,不区分语音中的说话人信息和信道信息,而是将整个语音空间(总变化空间)进行建模,然后在这个空间上对训练和测试语音计算其相应的总变化因子向量(Ivector),来作为支持向量机(Support Vector Machine,SVM)建模和分类的特征。为了降低信道对识别的影响,我们使用线性鉴别分析(Linear Discriminant Analysis,LDA)降维技术以及类内协方差规整(Within-Class Covariance Normalization,WCCN)技术对Ivector进行信道补偿。实验结果表明同时使用WCCN和LDA对Ivector进行信道补偿要好于单独使用WCCN或LDA;并且与传统的联合因子分析系统(Joint Factor Analysis,JFA)相比,以作为评价指标,在男、女测试集上,等错率(Equal Error Ratio,EER)分别相对降低1.20%和9.27%。 相似文献
20.
针对归一化功率倒谱系数(PNCC)在较低信噪比噪声环境下说话人识别鲁棒性不佳的问题,提出了非线性幂函数变换伽马啁啾频率倒谱系数(NPGFCC)的抗噪语音特征提取算法。相比PNCC,NPGFCC的不同之处在于其采用符合人耳听觉特性的归一化压缩Gammachirp滤波器组代替Gammatone滤波器组进行滤波,并在特征参数中融合了分段式非线性幂函数变换的方式。另外,算法中利用了均值方差归一化和时间序列滤波等技术的方法,进一步提高了其在噪声环境下的鲁棒性,并在改进的i-vector+PLDA模型下进行了测试。实验结果表明,相较于目前常用的一些说话人语音特征提取算法,在不同噪声和不同信噪比下,NPGFCC特征具有最佳抗噪性能,特别是在信噪比较低的情况下,与其他语音特征相比,NPGFCC特征具有更大的优势。 相似文献