期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于通用背景-联合估计(UB-JE)的说话人识别方法 总被引：2，自引：1，他引：1

汪海彬郭剑毅毛存礼余正涛《自动化学报》2018,44(10):1888-1895

在说话人识别中,有效的识别方法是核心.近年来,基于总变化因子分析（i-vector）方法成为了说话人识别领域的主流,其中总变化因子空间的估计是整个算法的关键.本文结合常规的因子分析方法提出一种新的总变化因子空间估计算法,即通用背景—联合估计（Universal background-joint estimation algorithm,UB-JE）算法.首先,根据高斯混合—通用背景模型（Gaussian mixture model-universal background model,GMM-UBM）思想提出总变化矩阵通用背景（UB）算法;其次,根据因子分析理论结合相关文献提出了一种总变化矩阵联合估计（JE）算法;最后,将两种算法相结合得到通用背景—联合估计（UB-JE）算法.采用TIMIT和MDSVC语音数据库,结合i-vector方法将所提的算法与传统算法进行对比实验.结果显示,等错误率（Equal error rate,EER）和最小检测代价函数（Minimum detection cost function,MinDCF）分别提升了8.3%与6.9%,所提方法能够提升i-vector方法的性能. 相似文献

2.

一种适用于说话人识别的改进Mel滤波器 总被引：1，自引：0，他引：1

项要杰杨俊安李晋徽陆俊《计算机工程》2013,(11):214-217,222

Mel倒谱系数（MFcc）侧重提取语音信号的低频信息,对语音信号的频谱分布特性描述不充分,不能有效区分说话人个性信息。为此,通过分析语音信号各频段所含说话人个性信息的不同,结合Mel滤波器和反Mel滤波器在高低频段的不同特性,提出一种适于说话人识别的改进Mel滤波器。实验结果表明,改进Mel滤波器提取的新特征能够获得比传统Mel倒谱系数以及反Mel倒谱系数（IMFCC）更好的识别效果,并且基本不增加说话人识别系统训练和识别的时间开销。相似文献

3.

基于发声机理与人耳感知特性的说话人识别

杜晓青于凤芹《计算机工程》2013,(11):197-199,204

Mel频率倒谱系数（MFCC）与线性预测倒谱系数（LPCC）融合算法只能反映语音静态特征,且LPCC对语音低频局部特征描述不足。为此,提出将希尔伯特黄变换（HHT）倒谱系数与相对光谱一感知线性预测倒谱系数（RASTA—PLPCC）融合,得到一种既反映发声机理又体现人耳感知特性的说话人识别算法。HHT倒谱系数体现发声机理,能反映语音动态特性,并更好地描述信号低频局部特征,可改进LPCC的不足。PLPCC体现人耳感知特性,识别性能强于MFCC,用3种融合算法对两者进行融合,将融合特征用于高斯混合模型进行说话人识别。仿真实验结果表明,该融合算法较已有的MFCC与LPCC融合算法识别率提高了8．0％。相似文献

4.

一种基于深度神经网络的话者确认方法

《计算机应用与软件》2016,(6)

主要研究基于深度神经网络的话者确认方法。在训练阶段,以语音倒谱特征参数作为输入,说话人标签作为输出有监督的训练DNN;在话者注册阶段,从已训练的DNN最后一个隐藏层抽取与说话人相关的特征矢量,称为d-vector,作为话者模型;在测试阶段,从测试语音中抽取其d-vector与注册的话者模型相比较然后做出判决。实验结果表明,基于DNN的话者确认方法是可行的,并且在噪声环境及低的错误拒绝率的条件下,基于DNN的话者确认系统性能比i-vector基线系统性能更优。最后,将两个系统进行融合,融合后的系统相对于i-vector基线系统在干净语音和噪声语音条件下等误识率(EER)分别下降了13%和27%。相似文献

5.

语音识别中基于i-vector的说话人归一化研究

李亚琦黄浩《现代计算机》2014,(5):3-7

i-vector是反映说话人声学差异的一种重要特征,在目前的说话人识别和说话人验证中显示了有效性。将i-vector应用于语音识别中的说话人的声学特征归一化,对训练数据提取i-vector并利用LBG算法进行无监督聚类．然后对各类分别训练最大似然线性变换并使用说话人自适应训练来实现说话人的归一化。将变换后的特征用于训练和识别．实验表明该方法能够提高语音识别的性能。相似文献

6.

SMFCC:一种新的语音信号特征提取方法

汪海彬余正涛毛存礼郭剑毅《计算机应用》2016,36(6):1735-1740

针对说话人识别系统中存在的有效语音特征提取以及噪声影响的问题,提出了一种新的语音特征提取方法——基于S变换的美尔倒谱系数(SMFCC)。该方法是在传统美尔倒谱系数(MFCC)的基础上利用S变换的二维时频多分辨率特性,以及奇异值分解(SVD)方法的二维时频矩阵有效去噪性,并结合相关统计分析方法最终获得语音特征。采用TIMIT语音数据库,将所提的特征和现有特征进行对比实验。SMFCC特征的等错误率(EER)和最小检测代价(MinDCF)均小于线性预测倒谱系数(LPCC)、MFCC及其结合方法LMFCC,比MFCC的EER和MinDCF08分别下降了3.6%与17.9%。实验结果表明所提方法能够有效去除语音信号中的噪声,提升局部分辨率。相似文献

7.

基于一维卷积神经网络和i-vector的孤立词语音识别

《信息与电脑》2018,(4)

针对孤立词语音识别的任务,采用一维卷积神经网络(CNN)作为声学模型,利用卷积核在时间轴上的移动来反映语音信号的时变性,从而提高识别性能。然后引入了反映说话人特征的身份认证矢量i-vector,通过i-vector特征消除说话人差异对识别造成的影响,进一步提高识别性能。在实验室自建语音库上的实验表明,基于这两种方法的识别系统达到了91%的识别准确率。相似文献

8.

一种基于层次化支持向量机的语种识别方法 总被引：2，自引：0，他引：2

雷文辉宋彦戴礼荣《小型微型计算机系统》2009,30(4)

基于广义线性区分性序列核的支持向量机方法在语种识别中了得到了广泛应用.本文此基础上,进一步提出了一种层次化的SVM方法,通过将训练语音切分成不同时长的语音段集合.利用长时语音段训练得到的模型对短时语音段集合进行数据选择.同时借鉴互训练的思想,采用互补的特征参数训练SVM模型,并对不同时长、特征的系统识别结果加以融合,有效提高了系统性能.在NIST 2003语种测试中30秒时长的测试结果表明,本文所提方法有效的提升了语种识别的性能,等错误率(EER)从6.3降到了4.5%. 相似文献

9.

基于HHT倒谱系数的说话人识别算法 总被引：1，自引：0，他引：1

杜晓青于凤芹《计算机工程与应用》2014,50(3):198-202

针对LPCC只反应语音静态特征且不能突出其低频局部特征问题,提出一种以HHT倒谱系数为特征的说话人识别算法,HHT的经验模态分解使语音的低频局部特征得到更好的描述,Hilbert变换能够刻画语音动态特性,改进了LPCC的不足。用经验模态分解将语音分解为一系列固有模态函数分量并做Hilbert变换求得Hilbert边际谱,计算总边际谱的对数功率谱并做DCT得13维倒谱系数,将此特征送入高斯混合模型进行说话人识别。仿真实验结果表明,基于HHT倒谱系数的说话人识别算法,相较LPCC识别率提高了12.59%,但特征提取时间增加了19.27 s。相似文献

10.

非线性幂变换Gammachirp滤波器的鲁棒语音特征提取*

李聪葛洪伟《计算机科学与探索》2019,13(8):1351-1359

针对归一化功率倒谱系数(PNCC)在较低信噪比噪声环境下说话人识别鲁棒性不佳的问题,提出了非线性幂函数变换伽马啁啾频率倒谱系数(NPGFCC)的抗噪语音特征提取算法。相比PNCC,NPGFCC的不同之处在于其采用符合人耳听觉特性的归一化压缩Gammachirp滤波器组代替Gammatone滤波器组进行滤波,并在特征参数中融合了分段式非线性幂函数变换的方式。另外,算法中利用了均值方差归一化和时间序列滤波等技术的方法,进一步提高了其在噪声环境下的鲁棒性,并在改进的i-vector+PLDA模型下进行了测试。实验结果表明,相较于目前常用的一些说话人语音特征提取算法,在不同噪声和不同信噪比下,NPGFCC特征具有最佳抗噪性能,特别是在信噪比较低的情况下,与其他语音特征相比,NPGFCC特征具有更大的优势。相似文献

11.

一种基于MFCC和LPCC的文本相关说话人识别方法 总被引：1，自引：0，他引：1

于明袁玉倩董浩王哲《计算机应用》2006,26(4):883-885

在说话人识别的建模过程中，为传统矢量量化模型的码字增加了方差分量，形成了一种新的连续码字分布的矢量量化模型。同时采用美尔倒谱系数及其差分和线性预测倒谱系数及其差分相结合作为识别的特征参数，来进行与文本有关的说话人识别。通过与动态时间规整算法和传统的矢量量化方法进行比较表明，在系统响应时间并未明显增加的基础上，该模型识别率有一定提高。相似文献

12.

基于MAP+CMLLR的说话人识别中发声力度问题

黄文娜彭亚雄贺松《计算机应用》2017,37(3):906-910

为了改善发声力度对说话人识别系统性能的影响,在训练语音存在少量耳语、高喊语音数据的前提下,提出了使用最大后验概率（MAP）和约束最大似然线性回归（CMLLR）相结合的方法来更新说话人模型、投影转换说话人特征。其中,MAP自适应方法用于对正常语音训练的说话人模型进行更新,而CMLLR特征空间投影方法则用来投影转换耳语、高喊测试语音的特征,从而改善训练语音与测试语音的失配问题。实验结果显示,采用MAP+CMLLR方法时,说话人识别系统等错误率（EER）明显降低,与基线系统、最大后验概率（MAP）自适应方法、最大似然线性回归（MLLR）模型投影方法和约束最大似然线性回归（CMLLR）特征空间投影方法相比,MAP+CMLLR方法的平均等错率分别降低了75.3%、3.5%、72%和70.9%。实验结果表明,所提出方法削弱了发声力度对说话人区分性的影响,使说话人识别系统对于发声力度变化更加鲁棒。相似文献

13.

说话人识别中基于Fisher比的特征组合方法

谢小娟曾以成熊冰峰《计算机应用》2016,36(5):1421-1425

为了提高说话人识别的准确率,可以同时采用多个特征参数,针对综合特征参数中各维分量对识别结果的影响可能不一样,同等对待并不一定是最优的方案这个问题,提出基于Fisher准则的梅尔频率倒谱系数(MFCC)、线性预测梅尔倒谱系数(LPMFCC)、Teager能量算子倒谱参数(TEOCC)相混合的特征参数提取方法。首先,提取语音信号的MFCC、LPMFCC和TEOCC三种参数;然后,计算MFCC和LPMFCC参数中各维分量的Fisher比,分别选出六个Fisher比高的分量与TEOCC参数组合成混合特征参数;最后,采用TIMIT语音库和NOISEX-92噪声库进行说话人识别实验。仿真实验表明,所提方法与MFCC、LPMFCC、MFCC+LPMFCC、基于Fisher比的梅尔倒谱系数混合特征提取方法以及基于主成分分析(PCA)的特征抽取方法相比,在采用高斯混合模型(GMM)和BP神经网络的平均识别率在纯净语音环境下分别提高了21.65个百分点、18.39个百分点、15.61个百分点、15.01个百分点与22.70个百分点;在30 dB噪声环境下,则分别提升了15.15个百分点、10.81个百分点、8.69个百分点、7.64个百分点与17.76个百分点。实验结果表明,该混合特征参数能够有效提高说话人识别率,且具有更好的鲁棒性。相似文献

14.

基于CFCC和相位信息的鲁棒性说话人辨识

下载免费PDF全文

李作强高勇《计算机工程与应用》2015,51(17):228-232

传统的说话人识别中,人们往往认为人耳对相位信息不敏感而忽略了相位信息对语音识别的影响。为了验证相位信息对说话人识别的影响,提出了一种提取相位特征参数的方法。分别在纯净语音和带噪语音条件下,基于高斯混合模型,通过将相位特征参数与耳蜗倒谱系数（CFCC）相结合,研究了相位信息对说话人辨识性能的影响。实验结果标明：相位信息在说话人识别中也有着重要的作用,将其应用于说话人辨识系统,可明显提高系统的识别率和鲁棒性。相似文献

15.

基于独立分量分析和矢量量化的说话人识别

屈微刘贺平《计算机应用》2005,25(10):2401-2403

使用独立分量分析（ICA）来提取说话人特征并与矢量量化（VQ）判决方法相结合,实现了一个高性能的基于ICA特征的VQ （ICA VQ）说话人识别系统。通过ICA变换得到说话人语音特征基函数系数用于生成VQ码书,并导出包含能量失真的ICA VQ码书失真测度和质心确定条件,生成最终的判决。仿真实验中ICA提取的特征分别用于不同系统实现说话人确认任务,各系统的DET曲线对比验证了VQ方法用于ICA特征分类判决的优势,同时不同码书尺寸下的等差率（EER）对比证明了VQ码书设计的有效性。相似文献

16.

基于梅尔频率倒谱系数与翻转梅尔频率倒谱系数的说话人识别方法

胡峰松张璇《计算机应用》2012,32(9):2542-2544

为提高说话人识别系统的识别率,提出了基于梅尔频率倒谱系数(MFCC)与翻转梅尔频率倒谱系数(IMFCC)为特征参数的特征提取新方法。该方法利用Fisher准则将MFCC和IMFCC相结合,构造了一种混合特征参数。实验结果表明,新的混合特征参数与MFCC相比,在纯净语音库及噪声环境中均具有较好的识别性能。相似文献

17.

基于KL散度的支持向量机方法及应用研究 总被引：1，自引：0，他引：1

屈微刘贺平张海军《信息与控制》2005,34(5):627-630

针对ICA提取的说话人语音特征,导出以库尔贝克—莱布勒（KL）散度作为距离测度的KL核函数用来设计支持向量机,实现了一个高分辨率的ICA/SVM说话人确认系统.说话人确认的仿真实验结果表明,使用ICA特征基函数系数比直接使用语音数据训练SVM得到的分类间隔大,支持向量少,而且使用KL核函数的ICA/SVM系统确认的等差率也低于其它传统SVM方法,证明了基于KL散度的支持向量机方法在实现分类和判决上具有高效性能. 相似文献