共查询到20条相似文献,搜索用时 15 毫秒
1.
在说话人确认任务中,得分规整可有效调整测试得分分布,使每个说话人的得分分布接近同一分布,从而提升系统整体性能。直接从开发集中获得针对待识别目标说话人的大量冒认者得分,利用无监督聚类手段对这些得分进行筛选,并采用混合高斯模型来拟合得分分布,挑选均值最大的高斯单元作为得分规整的参数并将其应用于说话人的得分规整。在NIST SRE 2016测试集上的测试结果表明,相对于其他得分规整算法,采用无监督聚类得分规整的方法可有效提升系统性能。 相似文献
2.
在说话人确认中,由于目标说话人和冒认者的得分分布是双峰分布,并且不同目标说话人模型得分分布不一致,使对所有说话人确定一个统一的阈值变得困难,导致系统性能下降。分数归一化通过调整冒认者的得分分布来调整阈值。简要介绍了目前最常用的两种归一化方法:零归一化(Z-Norm)和测试归一化(T-Norm)。重点引入了一种新的根据KL距离的D-Norm 归一化方法。然后结合Z-Norm 和D-Norm的优点,又提出一种新的方法ZD-Norm。对这四种归一化方法的性能进行了比较。实验表明,ZD-Norm相对Z-Norm和D-Norm,能够更有效地提高说话人确认系统的性能。 相似文献
3.
基于TZ Normalization规整的话者确认阈值选取 总被引:3,自引:0,他引:3
针对说话人确认中,各目标话者模型输出评分分布不一致而导致系统确认阈值设置的困难,本文采取了通过评分规整确定系统最小检测代价函数(DCF)确认阈值的方法.在分析了已有的两种评分规整方法Z normalization和T normalization的基础上,提出了一种结合两者优点的组合规整方法——TZ normalization,并据此给出了一种阈值动态修正方法,有效地提高了系统的性能和阈值选取的鲁棒性.对历年的NIST(手机电话语音)评测语料库进行了实验,表明了该方法的有效性. 相似文献
4.
在说话人确认系统中,训练和测试的声学环境不匹配将造成性能急剧下降。本文提出了从特征规整和评分规整两个方面进行补偿的方法。首先,改进了基于分段的倒谱均值方差规整(SCMVN)方法,将倒谱系数都规整到相同的段内高斯统计分布,以提高不同环境条件下特征匹配程度;其次,针对由于不同说话人和不同测试环境引起的输出评分分布变化,提出了两阶段的评分规整方法,即先零规整再测试规整(TZnorm)和先测试规整再零规整(ZTnorm)两种得分变换方法,使得失配条件下与说话人无关的决策门限更加鲁棒。基于NIST2002说话人识别评测库上的实验表明,采用SCMVN的特征规整和ZTnorm的评分规整方法能够明显地提高系统性能。与采用倒谱均值减和零规整的基线系统相比,等错误率和最小检测代价分别降低了20.3%和18.1%。 相似文献
5.
6.
7.
多子系统似然度评分融合说话人识别 总被引:1,自引:0,他引:1
针对短电话语音条件下文本无关说话人识别问题中语音数据不充分和电话信道失配问题,提出了一种基于话者聚类的多子系统输出似然度评分融合策略。采用KLD和GLR测度下的模型相似度聚类方法对目标话者聚类,并在每个话者类内构建由MFCC、LPCC和SSFE三个不同类型特征参数子系统组成的输出似然度评分融合系统,通过不同参数子系统的互补,即MFCC和LPCC参数的识别准确性结合SSFE的良好鲁棒性,以及不同话者类采用不同的输出似然度评分融合网络,提高了系统的整体性能。使用NIST SRE 05数据作为评估数据,实验结果表明,与传统的不分类多系统输出似然度评分融合相比,采用KLD和GLR测度的话者聚类融合策略使系统等误识率分别下降了10.3%和8.7%。 相似文献
8.
在自动说话人验证中, 模型距离归一化是非常有用的得分归一化技术之一. 相比于其他的主流得分归一化技术, 模型距离归一化的主要优点在于它不需要额外的语音数据和说话人集合. 但是, 它也仍然有自身的缺点. 比如, 在传统的模型距离归一化中, 模型之间的KL距离用Monte-Carlo方法求得, 而此方法的时间复杂度很高. 本文从一个新的角度探讨了模型距离归一化的原理, 并且提出了简化的模型距离归一化方法, 即使用KL距离的上限来衡量两个说话人模型的距离. 在2006年的NIST说话人评测数据集上, 本文提出的简化的模型距离归一化方法取得了与传统方式相近的结果, 而时间复杂度却大大降低了. 相似文献
9.
组合特征和二级判断模型相结合的说话人识别 总被引:1,自引:0,他引:1
针对目前说话人识别中个性化的特征提取以及假冒说话人的问题,提出一种组合特征提取和二级判断模型相结合的说话人识别方法。在特征提取阶段,采用MFCC倒谱特征、Delta_ Delta特征与平均幅度差法提取的基音周期相结合进行组合特征提取;在识别阶段,采用得分规整后的得分值与一个统一的阈值比较,将一部分假冒说话人排除后,再结合二级判断模型进行识别。实验结果证明该方法有效提高了识别率。 相似文献
10.
基于GMM统计特性参数和SVM的话者确认 总被引:1,自引:0,他引:1
针对与文本无关的话者确认中大量训练样本数据的情况,本文提出了一种基于GMM统计特性参数和支持向量机的与文本无关的话者确认系统,以说话人的GMM统计特性参数作为特征参数训练建立目标话者的SVM模型,既有效地提取了话者特征信息,解决了大样本数据下的SVM训练问题,又结合了统计模型鲁棒性好和辨别模型分辨力好的优点,提高了确认系统的确认性能及鲁棒性。对微软麦克风语音数据库和NIST’01手机电话语音数据库的实验表明该方法的有效性。 相似文献
11.
We are presenting a new method that improves the accuracy of text dependent speaker verification systems. The new method exploits
a set of novel speech features derived from a principal component analysis of pitch synchronous voiced speech segments. We
use the term principal pitch components (PPCs) or optimal pitch bases (OPBs) to denote the new feature set. Utterance distances computed from these new PPC features are only loosely correlated
with utterance distances computed from cepstral features. A distance measure that combines both cepstral and PPC features
provides a discriminative power that cannot be achieved with cepstral features alone. By augmenting the feature space of a
cepstral baseline system with PPC features we achieve a significant reduction of the equal error probability of incorrect
customer rejection versus incorrect impostor acceptance. The proposed method delivers robust performance in various noise
conditions. 相似文献
12.
Todor Ganchev Ilyas Potamitis Nikos Fakotakis George Kokkinakis 《International Journal of Speech Technology》2004,7(4):281-292
Investigating Speaker Verification in real-world noisy environments, a novel feature extraction process suitable for suppression of time-varying noise is compared with a fine-tuned spectral subtraction method. The proposed feature extraction process is based on approximating the clean speech and the noise spectral magnitude with a mixture of Gaussian probability density functions (pdfs) by using the Expectation-Maximization algorithm (EM). Subsequently, the Bayesian inference framework is applied to the degraded spectral coefficients, and by employing Minimum Mean Square Error Estimation (MMSE), a closed form solution for the spectral magnitude estimation task is derived. The estimated spectral magnitude finally is incorporated into the Mel-Frequency Cepstral Coefficients (MFCCs) front-end of a baseline text-independent speaker verification system, based on Probabilistic Neural Networks, which participated successfully in the 2002 NIST (National Institute of Standards and Technology of USA) Speaker Recognition Evaluation. A comparative study of the proposed technique for real-world noise types demonstrates a significant performance gain compared to the baseline speech features and to the spectral subtraction enhancement method. Improvements of the absolute speaker verification performance with more than 27% for 0 dB signal-to-noise ratio (SNR), compared to the MFCCs, and with more than 13% for –5 dB SNR, compared to the spectral subtraction version, were obtained in the case of a passing-by aircraft scenario. 相似文献
13.
14.
基于说话人聚类和支持向量机的说话人确认研究 总被引:3,自引:1,他引:3
说话人确认系统需要用目标说话人和背景模型说话人的语音数据对模型进行训练。背景模型说话人可随机选取或选取与目标说话人相近的说话人。采用说话人聚类的方法可以有效地解决说话人背景模型的选取问题。支持向量机用作说话人确认模型来训练目标说话人和背景说话人的语音数据。实验表明该方法对与文本无关的说话人确认问题是有效的。 相似文献
15.
在说话人识别的研究中, 使用以前的测试语句信息对模型参数或者测试得分进行动态更新, 使模型可以更精确地反映测试语句和说话人模型之间的关系, 这种更新策略称为非监督模式, 这方面的研究对实际的说话人识别系统具有非常重要的意义. 本文除了采用非监督的说话人模型自适应更新方法之外, 还提出了非监督的得分域自适应算法: 首先采用双高斯函数对得分建立一个先验的得分模型, 利用最大后验概率准则对得分规整的模型进行调整. 在测试过程中, 采用得分域和模型域的非监督算法可以互相补充, 提高识别率, 在NIST SRE 2006年1训练语段-1测试语段数据库上, 使用模型域和得分域非监督自适应的系统能够取得等错误率4.3%和检测代价函数0.021的结果. 相似文献
16.
提出了一种基于数学统计模型化的说话人归一化训练方法,它将与状态相关的直接均值移动归一化训练方法和MAP/WNR模型自适应方法结合到统一的鲁棒性框架中,为模型自适应方法提供了更加合适的初始模型,在提高自适应速度和保持足够的模型平滑度之间得到了较好的平衡,实验表明,该方法可有效的提高有监督模式下语音识别的鲁棒性。 相似文献
17.
针对说话人识别技术多基于语音的现状,文章提出了一种新颖的基于唇动的说话人识别技术。通过离散余弦变换,从说话人讲话时的图像序列提取那些既反映说话人嘴部生理特性也反映了说话人唇动的行为特性的视觉特征。基于这些特征,为说话人建立静态-动态混合模型,其中使用半连续隐马尔可夫模型为说话人建立动态模型。在一个小型的视觉语料库上,我们分别对说话人辨认系统和确认系统进行实现。对说话人辨认系统,其文本有关与文本无关模式的正确率分别达到了100%和99.7%;对说话人确认系统,文本有关与文本无关模式的等错误率分别为0.09%与0.33%。 相似文献
18.
提出在与文本无关说话人确认中采用模型间马氏(Mahalanobis)距离的夹角作为测试算法,在混合高斯模型(Gaussian ixture Model)的情况下,采用这种算法在保持识别率与传统的对数似然度算法相近的前提下,可以大大降低运算量,对于说话人确认或识别的实时实现有很大的帮助.另外,推荐的算法与传统的对数似然度算法的结果可以融合,可以将说话人确认的等错误率降低12~15%. 相似文献
19.
Corneliu Burileanu Daniel Moraru Luigi Bojan Mihai Puchiu Alina Stan 《International Journal of Speech Technology》2002,5(3):247-257
This paper presents the use of distance normalization techniques in order to improve speaker verification system performance. These techniques provide a dynamic threshold that compensates for the trial-to-trial variations and replaces the fixed threshold used in the classical speaker verification approach. Two methods are described: the cohort model normalization and a new and original hybrid cohort-world model normalization. These methods are compared from the point of view of storage space requirements and computational effort. Two algorithms are proposed: one uses existing user models, and the other creates new models. The algorithms were evaluated using the YOHO database and a proprietary database. The results showed that using these methods, the errors of false rejection are significantly reduced for a constant false acceptance error, when the cohort size is increasing. The algorithms also involve fewer computational resources than other algorithms, making them more suitable for commercial application. 相似文献
20.
基于分段线性频谱弯折函数的说话人归一化方法 总被引:1,自引:0,他引:1
在传统的声道长度归一化方法中 ,基于声道无损级联短管模型假设 ,用一个简单的声道因子来确定频谱弯折函数 ,无法描述出不同说话人的频谱差异的细节 .针对这一缺陷 ,提出用细致的分段线性频谱弯折函数来描述说话人差异 ,在适当的频谱分段下 ,较好地完成了频谱对齐的任务 .此外 ,由于利用了与模型无关的频谱弯折函数 ,该方法被证明是一种快速的、尤其适用于无监督模式的说话人鲁棒性方法 相似文献