首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 484 毫秒
1.
在基于支持向量机(SVM)的文本无关的说话人确认中,为提高SVM话者模型的训练效率和区分性能,提出2种基于高斯混合模型(GMM)的冒认话者选取方法-通过GMM概率评分,为每个目标说话人选取最接近的话者作为冒认话者用于SVM话者模型的训练,不仅提高模型的训练效率,而且提高SVM模型的区分性,有效地改进系统性能。在NIST’04 Iside—Iside数据库上的实验表明该方法的有效性。  相似文献   

2.
基于话者特征图案的BPNN话者模型   总被引:1,自引:0,他引:1  
该文提出了一种用于说话人识别的基于话者特征图案的BPNN话者模型,该话者模型解决了语音信号的时长变化与神经网络输入层结点数固定不变之间的矛盾。利用VQ技术对所有话者的语音样本训练出话者特征图案,再将语音样本对该特征图案进行映射,在映射域解决了语音样本的时间规正问题。同时,该方法还提高了映射域参数的模式分类能力。  相似文献   

3.
一种使用声调映射码本的汉语声音转换方法   总被引:3,自引:0,他引:3  
在使用高斯混合模型实现说话人语音频谱包络变换的同时,提出了一种汉语声调码本映射技术来进一步提高转换语音目标说话人特征倾向性的方法。从源语音和目标语音分别提取汉语单音节的基频曲线作为基频变换单元,作预处理和聚类后分别形成源、目标声调码本,根据时间对准原则建立了一个由源特征空间到目标特征空间的声调模式映射码本。声音转换实验评估了声调码本映射算法的性能。实验结果表明,该算法较好地反映出源说话人与目标说话人基频曲线之间的映射关系,改善了声音转换性能。  相似文献   

4.
支持向量机作为说话人建模方法用于与文本无关的话者确认研究时,如何提取适合SVM训练和测试的特征参数直接影响话者确认系统的性能和效率.根据高斯混合模型(GMM)聚类能力强的特点,提出一种基于自适应GMM聚类的说话人特征参数提取方法,通过自适应的GMM聚类将大样本、混叠严重的M FCC特征参数聚为小样本的、代表说话人个性特征的特征参数,并用于与文本无关的SVM话者确认.在N IST0′4 1side-1side数据库上的实验表明了该方法的有效性.  相似文献   

5.
针对文本无关话者辨别多分类目标和大训练样本情况,将经典Logistic回归模型进行多元化变形,并叠加L2惩罚因子以提高模型泛化能力.将最优目标负对数Logistic公式对偶化,并利用序列最小优化算法进行模型训练,速率优于传统多元核Logistic回归训练算法.实验显示,该模型构建简单,训练算法快捷,且识别率优于经典支持向量机与二元核Logistic回归模型所生成的"一对一"多分类方法.  相似文献   

6.
给出了一种基于多微商核函数(MDK)的结合高斯混合模型(GMM)和支持向量机(SVM)的方法,并应用于SVM文本无关话者确认。从GMM话者语音特征概率分布出发,用多阶微商描述GMM概率分布,将GMM和SVM结合的问题转化为用多阶微商建立SVM话者模型的问题。首先对说话人语音进行基于因子分析的参数域失配补偿,用GMM描述失配补偿后的话者语音特征的概率分布;然后对GMM求多阶微商;最后构建多微商核函数,建立多SVM话者模型。在NIST’01 2min-1min话者确认数据库上的实验表明,基于多微商核函数的SVM话者确认系统性能优于基于失配补偿的GMM系统,也比基于失配补偿的Fisher核函数SVM话者系统和基于失配补偿的Kullback-Leibler(KL)距离SVM话者系统有较大的提高。  相似文献   

7.
利用空间相关性的改进HMM模型   总被引:1,自引:0,他引:1  
语音识别领域中所采用的经典HMM模型,忽略了语音信号间的相关信息.针对这一问题,利用语音信号的空间相关性对经典HMM模型进行补偿,得到一种改进模型.该方法通过空间相关变换,描述了当前语音特征与历史数据之间的空间相关性,从而对联合状态输出分布进行建模.改进模型的解码算法利用空间相关性变换的参数更新算法在经典ⅧⅥM的解码算法基础上得到.实验结果表明,上述方法在说话人无关连续语音识别系统上获得了明显的性能改进.  相似文献   

8.
提出一种将STRAIGHT模型和深度信念网络DBN相结合实现语音转换的方式。首先,通过STRAIGHT模型提取出源说话人和目标说话人的语音频谱参数,用提取的频谱参数分别训练两个DBN得到语音高阶空间的个性特征信息;然后,用人工神经网络ANN将两个具有高阶特征的空间连接并进行特征转换;最后,用基于目标说话人数据训练出的DBN来对转换后的特征信息进行逆处理得到语音频谱参数,并用STRAIGHT模型合成具有目标说话人个性化特征的语音。实验结果表明,采用此种方式获得的语音转换效果要比传统的采用GMM实现语音转换更好,转换后的语音音质和相似度与目标语音更接近。  相似文献   

9.
对说话人语音个性特征信息的表征和提取进行了深入研究,提出了一种基于深度信念网络(Deep Belief Nets,DBN)的语音转换方法。分别用提取出的源说话人和目标说话人语音频谱参数来训练DBN,分别得到其在高阶空间的语音个性特征表征;通过人工神经网络(Artificial Neural Networks,ANN)来连接这两个高阶空间并进行特征转换;使用基于目标说话人数据训练出的DBN来对转换后的特征信息进行逆处理得到转换后语音频谱参数,合成转换语音。实验结果表明,与传统的基于GMM方法相比,该方法效果更好,转换语音音质和相似度同目标语音更接近。  相似文献   

10.
主要研究基于深度神经网络的话者确认方法。在训练阶段,以语音倒谱特征参数作为输入,说话人标签作为输出有监督的训练DNN;在话者注册阶段,从已训练的DNN最后一个隐藏层抽取与说话人相关的特征矢量,称为d-vector,作为话者模型;在测试阶段,从测试语音中抽取其d-vector与注册的话者模型相比较然后做出判决。实验结果表明,基于DNN的话者确认方法是可行的,并且在噪声环境及低的错误拒绝率的条件下,基于DNN的话者确认系统性能比i-vector基线系统性能更优。最后,将两个系统进行融合,融合后的系统相对于i-vector基线系统在干净语音和噪声语音条件下等误识率(EER)分别下降了13%和27%。  相似文献   

11.
在基于全差异空间因子(i-Vector)的说话人确认系统中,需进一步从语音段的i-Vector表示中提取说话人相关的区分性信息,以提高系统性能。文中通过结合锚模型的思想,提出一种基于深层置信网络的建模方法。该方法通过对i-Vector中包含的复杂差异信息逐层进行分析、建模,以非线性变换的形式挖掘出其中的说话人相关信息。在NIST SRE 2008核心测试电话训练-电话测试数据库上,男声和女声的等错误率分别为4。96%和6。18%。进一步与基于线性判别分析的系统进行融合,能将等错误率降至4。74%和5。35%。  相似文献   

12.
Voice conversion (VC) approach, which morphs the voice of a source speaker to be perceived as spoken by a specified target speaker, can be intentionally used to deceive the speaker identification (SID) and speaker verification (SV) systems that use speech biometric. Voice conversion spoofing attacks to imitate a particular speaker pose potential threat to these kinds of systems. In this paper, we first present an experimental study to evaluate the robustness of such systems against voice conversion disguise. We use Gaussian mixture model (GMM) based SID systems, GMM with universal background model (GMM-UBM) based SV systems and GMM supervector with support vector machine (GMM-SVM) based SV systems for this. Voice conversion is conducted by using three different techniques: GMM based VC technique, weighted frequency warping (WFW) based conversion method and its variation, where energy correction is disabled (WFW). Evaluation is done by using intra-gender and cross-gender voice conversions between fifty male and fifty female speakers taken from TIMIT database. The result is indicated by degradation in the percentage of correct identification (POC) score in SID systems and degradation in equal error rate (EER) in all SV systems. Experimental results show that the GMM-SVM SV systems are more resilient against voice conversion spoofing attacks than GMM-UBM SV systems and all SID and SV systems are most vulnerable towards GMM based conversion than WFW and WFW based conversion. From the results, it can also be said that, in general terms, all SID and SV systems are slightly more robust to voices converted through cross-gender conversion than intra-gender conversion. This work extended the study to find out the relationship between VC objective score and SV system performance in CMU ARCTIC database, which is a parallel corpus. The results of this experiment show an approach on quantifying objective score of voice conversion that can be related to the ability to spoof an SV system.  相似文献   

13.
针对信道失配和统计模型区分性不足而导致话者确认性能下降问题,文中提出一种将因子分析信道失配补偿与支持向量机模型相结合的文本无关话者确认方法。在SVM话者模型前端采用高斯混合模型-背景模型(GMM-UBM)方法对语音特征参数进行聚类和升维,并利用因子分析(FA)方法,对聚类获得的超矢量进行信道补偿后作为基于SVM话者确认的输入特征,从而有效解决SVM用于文本无关话者确认的大样本、升维问题,以及信道失配对性能影响问题。在NIST 06数据库上实验结果表明,文中方法比未做失配补偿的GMM-UBM系统、GMM-SVM系统在等误识率上有50%以上的改善,比做了FA失配补偿的GMM-UBM系统也有15。8%的改善。  相似文献   

14.
现有基于混合高斯模型的说话人聚类方法主要依据最大后验准则,从通用背景模型中自适应得到类别的混合高斯模型,然而自适应数据较少,模型的准确性不够。对此,文中尝试基于本征语音(EV)空间和全变化(TV)空间分析的两种因子分析建模方法,通过对差异空间的建模,减少估计类别混合高斯模型时需要估计的参数个数。结果表明,在美国国家标准技术研究所2008年说话人识别评测的电话语音数据集上,相对于基于最大后验概率准则的基线系统而言,文中所使用的基于EV和TV空间分析的建模方法都可使聚类错误率有较大幅度的下降,并且TV空间分析建模相对于EV空间分析建模能获得更低的聚类错误率。  相似文献   

15.
以线性预测系数为特征通过高斯混合模型的迭代算法对训练样本的初始k均值聚类结果进行优化,得到语音组成单位的表示.以语音组成单位的模式匹配为基础,提出一种文本无关说话人确认的方法——均值法,以及一种文本无关说话人辨认方法.实验结果表明,即使在短时语音下本文方法都能取得较好效果.  相似文献   

16.
The shapes of speakers' vocal organs change under their different emotional states, which leads to the deviation of the emotional acoustic space of short-time features from the neutral acoustic space and thereby the degradation of the speaker recognition performance. Features deviating greatly from the neutral acoustic space are considered as mismatched features, and they negatively affect speaker recognition systems. Emotion variation produces different feature deformations for different phonemes, so it is reasonable to build a finer model to detect mismatched features under each phoneme. However, given the difficulty of phoneme recognition, three sorts of acoustic class recognition--phoneme classes, Gaussian mixture model (GMM) tokenizer, and probabilistic GMM tokenizer--are proposed to replace phoneme recognition. We propose feature pruning and feature regulation methods to process the mismatched features to improve speaker recognition performance. As for the feature regulation method, a strategy of maximizing the between-class distance and minimizing the within-class distance is adopted to train the transformation matrix to regulate the mismatched features. Experiments conducted on the Mandarin affective speech corpus (MASC) show that our feature pruning and feature regulation methods increase the identification rate (IR) by 3.64% and 6.77%, compared with the baseline GMM-UBM (universal background model) algorithm. Also, corresponding IR increases of 2.09% and 3.32% can be obtained with our methods when applied to the state-of-the-art algorithm i-vector.  相似文献   

17.
在网络应用环境下,需要处理的音频数据和注册说话人急剧增加,传统说话人辨识方法难以满足实时性要求。文中提出采用K-L散度的说话人模型聚类方法,从而构造一个分级辨识模型,提高辨识效率。研究利用类辨识信息估计置信度的方法,可尽早有效排除集外说话人。实验结果显示,文中方法可使辨识速度平均提高3。2倍,而闭集辨识错误率平均只有0。9%的增加。采用类辨识置信度进一步提高开集辨识速度,并且在保持集内错误率不变的情况下,使集外错误率相对下降5。1%。  相似文献   

18.
为了提高说话人识别系统的识别效率,提出一种基于说话人模型聚类的说话人识别方法,通过近似KL距离将相似的说话人模型聚类,为每类确定类中心和类代表,构成分级说话人识别模型。测试时先通过计算测试矢量与类中心或类代表之间的距离选择类,再通过计算测试矢量与选中类中的说话人模型之间对数似然度确定目标说话人,这样可以大大减少计算量。实验结果显示,在相同条件下,基于说话人模型聚类的说话人识别的识别速度要比传统的GMM的识别速度快4倍,但是识别正确率只降低了0.95%。因此,与传统GMM相比,基于说话人模型聚类的说话人识别能在保证识别正确率的同时大大提高识别速度。  相似文献   

19.
Speaker verification is usually formulated as a statistical hypothesis testing problem and solved by a log-likelihood ratio (LLR) test. A speaker verification system's performance is highly dependent on modeling the target speaker's voice (the null hypothesis) and characterizing non-target speakers’ voices (the alternative hypothesis). However, since the alternative hypothesis involves unknown impostors, it is usually difficult to characterize a priori. In this paper, we propose a framework to better characterize the alternative hypothesis with the goal of optimally distinguishing the target speaker from impostors. The proposed framework is built on a weighted arithmetic combination (WAC) or a weighted geometric combination (WGC) of useful information extracted from a set of pre-trained background models. The parameters associated with WAC or WGC are then optimized using two discriminative training methods, namely, the minimum verification error (MVE) training method and the proposed evolutionary MVE (EMVE) training method, such that both the false acceptance probability and the false rejection probability are minimized. Our experiment results show that the proposed framework outperforms conventional LLR-based approaches.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号