期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

古斌郭武《数据采集与处理》2019,34(5):837-843

在说话人确认任务中,得分规整可有效调整测试得分分布,使每个说话人的得分分布接近同一分布,从而提升系统整体性能。直接从开发集中获得针对待识别目标说话人的大量冒认者得分,利用无监督聚类手段对这些得分进行筛选,并采用混合高斯模型来拟合得分分布,挑选均值最大的高斯单元作为得分规整的参数并将其应用于说话人的得分规整。在NIST SRE 2016测试集上的测试结果表明,相对于其他得分规整算法,采用无监督聚类得分规整的方法可有效提升系统性能。相似文献

2.

说话人确认中分数归一化的一种新方法

高新建屈丹李弼程《计算机应用》2007,27(10):2602-2604

在说话人确认中,由于目标说话人和冒认者的得分分布是双峰分布,并且不同目标说话人模型得分分布不一致,使对所有说话人确定一个统一的阈值变得困难,导致系统性能下降。分数归一化通过调整冒认者的得分分布来调整阈值。简要介绍了目前最常用的两种归一化方法：零归一化（Z-Norm）和测试归一化(T-Norm)。重点引入了一种新的根据KL距离的D-Norm 归一化方法。然后结合Z-Norm 和D-Norm的优点,又提出一种新的方法ZD-Norm。对这四种归一化方法的性能进行了比较。实验表明,ZD-Norm相对Z-Norm和D-Norm,能够更有效地提高说话人确认系统的性能。相似文献

3.

基于TZ Normalization规整的话者确认阈值选取 总被引：3，自引：0，他引：3

刘明辉陈继旭戴蓓蒨李辉《数据采集与处理》2005,20(3):311-317

针对说话人确认中,各目标话者模型输出评分分布不一致而导致系统确认阈值设置的困难,本文采取了通过评分规整确定系统最小检测代价函数（DCF）确认阈值的方法.在分析了已有的两种评分规整方法Z normalization和T normalization的基础上,提出了一种结合两者优点的组合规整方法——TZ normalization,并据此给出了一种阈值动态修正方法,有效地提高了系统的性能和阈值选取的鲁棒性.对历年的NIST（手机电话语音）评测语料库进行了实验,表明了该方法的有效性. 相似文献

4.

基于特征规整和评分规整的说话人确认研究

郑榕张树武徐波《中文信息学报》2006,20(6):77-84

在说话人确认系统中,训练和测试的声学环境不匹配将造成性能急剧下降。本文提出了从特征规整和评分规整两个方面进行补偿的方法。首先,改进了基于分段的倒谱均值方差规整(SCMVN)方法,将倒谱系数都规整到相同的段内高斯统计分布,以提高不同环境条件下特征匹配程度;其次,针对由于不同说话人和不同测试环境引起的输出评分分布变化,提出了两阶段的评分规整方法,即先零规整再测试规整(TZnorm)和先测试规整再零规整(ZTnorm)两种得分变换方法,使得失配条件下与说话人无关的决策门限更加鲁棒。基于NIST2002说话人识别评测库上的实验表明,采用SCMVN的特征规整和ZTnorm的评分规整方法能够明显地提高系统性能。与采用倒谱均值减和零规整的基线系统相比,等错误率和最小检测代价分别降低了20.3%和18.1%。相似文献

5.

与文本无关的说话人自适应确认方法 总被引：2，自引：0，他引：2

下载免费PDF全文

张怡颖朱小燕张钹《软件学报》2000,11(6):799-803

该文提出一种与文本无关的自适应说话人确认方法.此自适应方法基于作者所提出的用全局说话人模型标准化似然得分值进行说话人确认的方法,以解决此方法应用于实际系统时存在的训练时间较长的问题,从而缩短新用户注册系统的等待时间,使新用户能够在较短的时间内开始系统的使用.实验结果充分说明了此方法的有效性;当系统有30个用户时,新用户的注册速度加快了12倍. 相似文献

6.

基于PLDA的多信道多语音说话人确认研究

许云飞周若华颜永红《微计算机应用》2014,(1):13-19

在NIST SRE 2012年评测和实际应用中,可以用说话人的多个语音样本来注册说话人模型,并且这些语音样本取自于各种各样的信道。本文基于PLDA,尝试了多种打分方法,并提出一种新的得分规整技术,在NIST SRE 2012核心测试集上,EER平均提升26.0%,MinCost平均提升12.4%。相似文献

7.

多子系统似然度评分融合说话人识别 总被引：1，自引：0，他引：1

李恒杰《计算机应用》2008,28(1):116-119,119

针对短电话语音条件下文本无关说话人识别问题中语音数据不充分和电话信道失配问题,提出了一种基于话者聚类的多子系统输出似然度评分融合策略。采用KLD和GLR测度下的模型相似度聚类方法对目标话者聚类,并在每个话者类内构建由MFCC、LPCC和SSFE三个不同类型特征参数子系统组成的输出似然度评分融合系统,通过不同参数子系统的互补,即MFCC和LPCC参数的识别准确性结合SSFE的良好鲁棒性,以及不同话者类采用不同的输出似然度评分融合网络,提高了系统的整体性能。使用NIST SRE 05数据作为评估数据,实验结果表明,与传统的不分类多系统输出似然度评分融合相比,采用KLD和GLR测度的话者聚类融合策略使系统等误识率分别下降了10.3%和8.7%。相似文献

8.

对文本无关的说话人验证中模型距离归一化问题的研究 总被引：2，自引：0，他引：2

下载免费PDF全文

董远陆亮赵贤宇赵建《自动化学报》2009,35(5):556-560

在自动说话人验证中, 模型距离归一化是非常有用的得分归一化技术之一. 相比于其他的主流得分归一化技术, 模型距离归一化的主要优点在于它不需要额外的语音数据和说话人集合. 但是, 它也仍然有自身的缺点. 比如, 在传统的模型距离归一化中, 模型之间的KL距离用Monte-Carlo方法求得, 而此方法的时间复杂度很高. 本文从一个新的角度探讨了模型距离归一化的原理, 并且提出了简化的模型距离归一化方法, 即使用KL距离的上限来衡量两个说话人模型的距离. 在2006年的NIST说话人评测数据集上, 本文提出的简化的模型距离归一化方法取得了与传统方式相近的结果, 而时间复杂度却大大降低了. 相似文献

9.

组合特征和二级判断模型相结合的说话人识别 总被引：1，自引：0，他引：1

李战明林娟陈若珠《计算机工程与应用》2011,47(10):180-182

针对目前说话人识别中个性化的特征提取以及假冒说话人的问题,提出一种组合特征提取和二级判断模型相结合的说话人识别方法。在特征提取阶段,采用MFCC倒谱特征、Delta_ Delta特征与平均幅度差法提取的基音周期相结合进行组合特征提取;在识别阶段,采用得分规整后的得分值与一个统一的阈值比较,将一部分假冒说话人排除后,再结合二级判断模型进行识别。实验结果证明该方法有效提高了识别率。相似文献

10.

基于GMM统计特性参数和SVM的话者确认 总被引：1，自引：0，他引：1

黄伟戴蓓蒨《数据采集与处理》2004,19(4):365-370

针对与文本无关的话者确认中大量训练样本数据的情况,本文提出了一种基于GMM统计特性参数和支持向量机的与文本无关的话者确认系统,以说话人的GMM统计特性参数作为特征参数训练建立目标话者的SVM模型,既有效地提取了话者特征信息,解决了大样本数据下的SVM训练问题,又结合了统计模型鲁棒性好和辨别模型分辨力好的优点,提高了确认系统的确认性能及鲁棒性。对微软麦克风语音数据库和NIST’01手机电话语音数据库的实验表明该方法的有效性。相似文献

11.

Robust Speaker Verification with Principal Pitch Components

Robert?M.?Nickel Email author Sachin?P.?Oswal Ananth?N.?Iyer 《International Journal of Speech Technology》2005,8(4):323-339

We are presenting a new method that improves the accuracy of text dependent speaker verification systems. The new method exploits a set of novel speech features derived from a principal component analysis of pitch synchronous voiced speech segments. We use the term principal pitch components (PPCs) or optimal pitch bases (OPBs) to denote the new feature set. Utterance distances computed from these new PPC features are only loosely correlated with utterance distances computed from cepstral features. A distance measure that combines both cepstral and PPC features provides a discriminative power that cannot be achieved with cepstral features alone. By augmenting the feature space of a cepstral baseline system with PPC features we achieve a significant reduction of the equal error probability of incorrect customer rejection versus incorrect impostor acceptance. The proposed method delivers robust performance in various noise conditions. 相似文献

12.

Text-Independent Speaker Verification for Real Fast-Varying Noisy Environments

Todor Ganchev Ilyas Potamitis Nikos Fakotakis George Kokkinakis 《International Journal of Speech Technology》2004,7(4):281-292

Investigating Speaker Verification in real-world noisy environments, a novel feature extraction process suitable for suppression of time-varying noise is compared with a fine-tuned spectral subtraction method. The proposed feature extraction process is based on approximating the clean speech and the noise spectral magnitude with a mixture of Gaussian probability density functions (pdfs) by using the Expectation-Maximization algorithm (EM). Subsequently, the Bayesian inference framework is applied to the degraded spectral coefficients, and by employing Minimum Mean Square Error Estimation (MMSE), a closed form solution for the spectral magnitude estimation task is derived. The estimated spectral magnitude finally is incorporated into the Mel-Frequency Cepstral Coefficients (MFCCs) front-end of a baseline text-independent speaker verification system, based on Probabilistic Neural Networks, which participated successfully in the 2002 NIST (National Institute of Standards and Technology of USA) Speaker Recognition Evaluation. A comparative study of the proposed technique for real-world noise types demonstrates a significant performance gain compared to the baseline speech features and to the spectral subtraction enhancement method. Improvements of the absolute speaker verification performance with more than 27% for 0 dB signal-to-noise ratio (SNR), compared to the MFCCs, and with more than 13% for –5 dB SNR, compared to the spectral subtraction version, were obtained in the case of a passing-by aircraft scenario. 相似文献

13.

基于GMM的普通话和四川方言独立文本的说话人确认

赵靖龚卫国杨利平《计算机应用》2008,28(3):792-794

针对训练和测试阶段中的语音数据类型（普通话和四川方言）的不匹配导致说话人确认系统性能下降很大的问题,提出了一种新的建立高斯混合模型（GMM）方法——普通话和四川方言按比例混合建立普通话和四川方言联合GMM的方法,并发现使系统针对普通话和四川方言不匹配导致的性能下降率至很低（2.79%）的比例。实验结果表明,该方法可以有效地加强测试阶段针对语种变化的鲁棒性,可以有效的减少普通话和四川方言在训练和测试阶段的不匹配造成的性能下降率。相似文献

14.

基于说话人聚类和支持向量机的说话人确认研究 总被引：3，自引：1，他引：3

侯风雷王炳锡《计算机应用》2002,22(10)

说话人确认系统需要用目标说话人和背景模型说话人的语音数据对模型进行训练。背景模型说话人可随机选取或选取与目标说话人相近的说话人。采用说话人聚类的方法可以有效地解决说话人背景模型的选取问题。支持向量机用作说话人确认模型来训练目标说话人和背景说话人的语音数据。实验表明该方法对与文本无关的说话人确认问题是有效的。相似文献

15.

采用模型和得分非监督自适应的说话人识别 总被引：1，自引：0，他引：1

下载免费PDF全文

王尔玉郭武李轶杰戴礼荣王仁华《自动化学报》2009,35(3):267-271

在说话人识别的研究中, 使用以前的测试语句信息对模型参数或者测试得分进行动态更新, 使模型可以更精确地反映测试语句和说话人模型之间的关系, 这种更新策略称为非监督模式, 这方面的研究对实际的说话人识别系统具有非常重要的意义. 本文除了采用非监督的说话人模型自适应更新方法之外, 还提出了非监督的得分域自适应算法: 首先采用双高斯函数对得分建立一个先验的得分模型, 利用最大后验概率准则对得分规整的模型进行调整. 在测试过程中, 采用得分域和模型域的非监督算法可以互相补充, 提高识别率, 在NIST SRE 2006年1训练语段-1测试语段数据库上, 使用模型域和得分域非监督自适应的系统能够取得等错误率4.3%和检测代价函数0.021的结果. 相似文献

16.

基于MAP估计的直接均值移动归一化训练方法

丰洪才卢正鼎《小型微型计算机系统》2005,26(3):352-355

提出了一种基于数学统计模型化的说话人归一化训练方法，它将与状态相关的直接均值移动归一化训练方法和MAP／WNR模型自适应方法结合到统一的鲁棒性框架中，为模型自适应方法提供了更加合适的初始模型，在提高自适应速度和保持足够的模型平滑度之间得到了较好的平衡，实验表明，该方法可有效的提高有监督模式下语音识别的鲁棒性。相似文献

17.

基于唇动的说话人识别技术

刘庆辉姚鸿勋《计算机工程与应用》2006,42(12):85-88

针对说话人识别技术多基于语音的现状,文章提出了一种新颖的基于唇动的说话人识别技术。通过离散余弦变换,从说话人讲话时的图像序列提取那些既反映说话人嘴部生理特性也反映了说话人唇动的行为特性的视觉特征。基于这些特征,为说话人建立静态-动态混合模型,其中使用半连续隐马尔可夫模型为说话人建立动态模型。在一个小型的视觉语料库上,我们分别对说话人辨认系统和确认系统进行实现。对说话人辨认系统,其文本有关与文本无关模式的正确率分别达到了100%和99.7%;对说话人确认系统,文本有关与文本无关模式的等错误率分别为0.09%与0.33%。相似文献

18.

采用模型间距离夹角的说话人确认测试算法

郭武王仁华戴礼荣《小型微型计算机系统》2008,29(2):377-380

提出在与文本无关说话人确认中采用模型间马氏(Mahalanobis)距离的夹角作为测试算法,在混合高斯模型(Gaussian ixture Model)的情况下,采用这种算法在保持识别率与传统的对数似然度算法相近的前提下,可以大大降低运算量,对于说话人确认或识别的实时实现有很大的帮助.另外,推荐的算法与传统的对数似然度算法的结果可以融合,可以将说话人确认的等错误率降低12～15%. 相似文献

19.

On Performance Improvement of a Speaker Verification System Using Vector Quantization, Cohorts and Hybrid Cohort-World Models

Corneliu Burileanu Daniel Moraru Luigi Bojan Mihai Puchiu Alina Stan 《International Journal of Speech Technology》2002,5(3):247-257

This paper presents the use of distance normalization techniques in order to improve speaker verification system performance. These techniques provide a dynamic threshold that compensates for the trial-to-trial variations and replaces the fixed threshold used in the classical speaker verification approach. Two methods are described: the cohort model normalization and a new and original hybrid cohort-world model normalization. These methods are compared from the point of view of storage space requirements and computational effort. Two algorithms are proposed: one uses existing user models, and the other creates new models. The algorithms were evaluated using the YOHO database and a proprietary database. The results showed that using these methods, the errors of false rejection are significantly reduced for a constant false acceptance error, when the cohort size is increasing. The algorithms also involve fewer computational resources than other algorithms, making them more suitable for commercial application. 相似文献

20.

基于分段线性频谱弯折函数的说话人归一化方法 总被引：1，自引：0，他引：1

卢正鼎丰洪才《小型微型计算机系统》2004,25(12):2232-2236

在传统的声道长度归一化方法中 ,基于声道无损级联短管模型假设 ,用一个简单的声道因子来确定频谱弯折函数 ,无法描述出不同说话人的频谱差异的细节 .针对这一缺陷 ,提出用细致的分段线性频谱弯折函数来描述说话人差异 ,在适当的频谱分段下 ,较好地完成了频谱对齐的任务 .此外 ,由于利用了与模型无关的频谱弯折函数 ,该方法被证明是一种快速的、尤其适用于无监督模式的说话人鲁棒性方法相似文献