期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李轶杰郭武戴礼荣《小型微型计算机系统》2008,29(12)

在文本无关的说话人识别中,训练与测试语音中信道环境的差异是影响其性能最重要的因素.近年来,利用因子分析对信道建模成为说话人识别领域的重要方法,大大降低了说话人确认的错误率,但运算复杂度限制了实时的应用.本文介绍了一种简化的因子分析方法:首先在混合高斯模型的模型域训练信道空间,然后在特征域进行信道补偿,得到的新特征可用于各种系统.在NIST2006的数据库上,利用本文的方法相对基线系统在等错误率上有31%的降低. 相似文献

2.

一种新的说话人确认方法 总被引：3，自引：0，他引：3

张怡颖朱小燕张钹《软件学报》1999,10(4):372-376

文章在对说话人确认和说话人辨认进行比较研究的基础上,提出一种新的说话人确认方法．同传统方法相比,该方法通过建立非特定说话人模型综合多个说话人的语音特性,使其能够对于不同的待确认语音给出不同的判决阈值,从而解决了说话人确认在判决阈值设置上存在的困难．实验结果表明,该方法能够显著降低说话人确认系统的错误接受率和错误拒绝率,为说话人确认应用于保密性要求较高的环境提供了一条有效的途径．相似文献

3.

联合总变率空间和时延神经网络的说话人识别

瞿于荃龙华段荧邵玉斌杜庆治《计算机科学与探索》2021,15(7):1255-1264

在短语音环境下,总变率空间对语音概率分布估计不足,导致说话人识别性能下降.针对上述问题,提出一种基于总变率空间和时延神经网络(TDNN)的增强说话人身份向量的方法.目的是学习总变率空间和时延神经网络的线性相关性,同时提取说话人嵌入向量并投影在新的空间上,组合成新的说话人超向量来增强说话人信息.训练阶段,分别训练总变率... 相似文献

4.

A Cohort-Based Speaker Model Synthesis for Mismatched Channels in Speaker Verification

《IEEE transactions on audio, speech, and language processing》2007,15(6):1893-1903

Mismatch between enrollment and test data is one of the top performance degrading factors in speaker recognition applications. This mismatch is particularly true over public telephone networks, where input speech data is collected over different handsets and transmitted over different channels from one trial to the next. In this paper, a cohort-based speaker model synthesis (SMS) algorithm, designed for synthesizing robust speaker models without requiring channel-specific enrollment data, is proposed. This algorithm utilizes a priori knowledge of channels extracted from speaker-specific cohort sets to synthesize such speaker models. The cohort selection in the proposed new SMS can be either speaker-specific or Gaussian component based. Results on the China Criminal Police College (CCPC) speaker recognition corpus, which contains utterances from both landline and mobile channel, show the new algorithms yield significant speaker verification performance improvement over Htnorm and universal background model (UBM)-based speaker model synthesis. 相似文献

5.

基于对话语音的与文本无关的说话人确认系统的研究 总被引：1，自引：2，他引：1

陈雁翔戴蓓倩周曦李辉《中文信息学报》2004,18(2):37-44

本文建立了一个基于对话语音的与文本无关的说话人确认系统,它和传统的与文本无关的说话人确认系统的关键不同在于,训练及测试语音不再只包含一个人而都是对话语音,因此需要分割出属于不同说话人的语音段,以建立说话人模型和实现最终判决。文中详细介绍了高斯混合模型-背景模型(GMM-UBM)这种说话人确认系统的框架,重点讨论了基于GLR(Generalized Likelihood Ratio)距离测度的无监督语音分割算法。最终阐述的输出评分的规整方法即ZNORM(Zero Normalization)和持续时间修正,可以使确认系统的性能提高近10%。相似文献

6.

一种基于说话者话路变化的主成分分析方法

龙艳花郭武戴礼荣《模式识别与人工智能》2009,22(2):270-274

在文本无关的说话人确认中,训练与测试语音中信道环境的不匹配是一种说话者话路变化问题.这种不匹配会严重降低说话人确认系统的性能.为了有效解决该问题,本文提出一种基于说话者话路变化的主成分分析方法,将其应用在说话者确认中,我们将这种方法称为面向话路变化的主成分分析方法.这种方法能够与类内协方差归一化结合,进一步提高识别效果.在NIST 2006年说话者识别数据库上进行实验,证明该方法不仅在系统识别等错误率上比基线系统有了24.2%的降低,而且在计算复杂度上相对于目前传统的方法也有很大的优势. 相似文献

7.

Robust Speaker Identification and Verification 总被引：1，自引：0，他引：1

Jia-Ching Wang Chung-Hsien Yang Jhing-Fa Wang Hsiao-Ping Lee 《Computational Intelligence Magazine, IEEE》2007,2(2):52-59

Acoustic characteristics have played an essential role in biometrics. In this article, we introduce a robust, text-independent speaker identification/verification system. This system is mainly based on a subspace-based enhancement technique and probabilistic support vector machines (SVMs). First, a perceptual filterbank is created from a psycho-acoustic model into which the subspace-based enhancement technique is incorporated. We use the prior SNR of each subband within the perceptual filterbank to decide the estimator's gain to effectively suppress environmental background noises. Then, probabilistic SVMs identify or verify the speaker from the enhanced speech. The superiority of the proposed system has been demonstrated by twenty speaker data taken from AURORA-2 database with added background noises 相似文献

8.

基于说话人聚类和支持向量机的说话人确认研究 总被引：3，自引：1，他引：3

侯风雷王炳锡《计算机应用》2002,22(10)

说话人确认系统需要用目标说话人和背景模型说话人的语音数据对模型进行训练。背景模型说话人可随机选取或选取与目标说话人相近的说话人。采用说话人聚类的方法可以有效地解决说话人背景模型的选取问题。支持向量机用作说话人确认模型来训练目标说话人和背景说话人的语音数据。实验表明该方法对与文本无关的说话人确认问题是有效的。相似文献

9.

基于说话人聚类和支持向量的说话人确认研究 总被引：2，自引：0，他引：2

侯风雷《计算机应用》2002,22(10):33-35

说话人确认系统需要用目标说话人和背景模型说话人的语音数据对模型进行训练。背景模型说话人可随机选或选取与目标说话人相近的说话人，采用说话人聚类的方法可以有效地解决说话人背景模型的选取问题。支持向量机用作说话人确认模型来训练目标说话人和背景说话人的语音数据，实验表明该方法地与文本无关的说话人确认问题是有效的。相似文献

10.

说话人确认中基于无监督聚类的得分规整

古斌郭武《数据采集与处理》2019,34(5):837-843

在说话人确认任务中,得分规整可有效调整测试得分分布,使每个说话人的得分分布接近同一分布,从而提升系统整体性能。直接从开发集中获得针对待识别目标说话人的大量冒认者得分,利用无监督聚类手段对这些得分进行筛选,并采用混合高斯模型来拟合得分分布,挑选均值最大的高斯单元作为得分规整的参数并将其应用于说话人的得分规整。在NIST SRE 2016测试集上的测试结果表明,相对于其他得分规整算法,采用无监督聚类得分规整的方法可有效提升系统性能。相似文献

11.

采用韵律特征的说话人确认系统

龙艳花郭武戴礼荣《数据采集与处理》2010,25(1)

在文本无关的说话人识别中,韵律特征由于其对信道环境噪声不敏感等特性而被应用于话者识别任务中.本文对韵律参数采用基于高斯混合模型超向量的支持向量机建模方法,并将类内协方差特征映射方法应用于模型超向量上,单系统的性能比传统方法的混合高斯-通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)基线系统有了40.19%的提升.该方法与本文的基于声学倒谱参数的确认系统融合后,能使整体系统的识别性能有9.25%的提升.在NIST(National institute of standards and technology mixture)2006说话人测试数据库上,融合后的系统能够取得4.9%的等错误率. 相似文献

12.

Segmental Approaches for Automatic Speaker Verification

《Digital Signal Processing》2000,10(1-3):198-212

相似文献

13.

基于内容的x-vector文本相关SV研究

陈亚峰郭武《数据采集与处理》2020,35(5):850-857

x-vector系统将一段不定长的语音通过神经网络映射成固定维的矢量来表征说话人信息,该系统在文本无关的说话人确认（Speaker verification, SV）任务中取得了优异的性能。本文将其应用到文本相关的SV任务中,在x-vector模型选择上,采用残差神经网络以获得更有区分性的x-vector;在包含多字符的语句中,对每个字训练一个残差神经网络;在提取过程中,每一字单独提取一个x-vector并单独进行说话人判决,最后将多个判决得分进行融合后给出最终的识别结果。实验是在数据库RSR2015 Part Ⅲ 上进行的,提出的方法在男性和女性测试集上等错误率分别有15.34%、19.7%的下降。相似文献

14.

一个改进的基于DSP的说话人确认系统

王炜张志华王波王炳锡《计算机工程与应用》2004,40(31):204-207

论文介绍了一个基于DSP的说话人确认系统,该系统确认算法建立于高斯混合模型-全局背景模型(GMM-UBM)的基础上,并在特征空间采用一种新的基于信息熵特征融合的算法,实验结果表明在不影响识别率的情况下,该算法计算量比传统的特征关联融合的要减少以上,比归一化融合要少。硬件系统采用高速DSP芯片TMS320C6701,为确认算法的实时实现提供了保证。相似文献

15.

Incorporating Model-Specific Score Distribution in Speaker Verification Systems

Poh N. Kittler J. 《IEEE transactions on audio, speech, and language processing》2008,16(3):594-606

相似文献

16.

Score Normalization for Text-Independent Speaker Verification Systems

《Digital Signal Processing》2000,10(1-3):42-54

Auckenthaler, Roland, Carey, Michael, and Lloyd-Thomas, Harvey, Score Normalization for Text-Independent Speaker Verification Systems, Digital Signal Processing10(2000), 42–54.This paper discusses several aspects of score normalization for text-independent speaker verification. The theory of score normalization is explained using Bayes' theorem and detection error trade-off plots. Based on the theory, the world, cohort, and zero normalization techniques are explained. A novel normalization technique, test normalization, is introduced. Experiments showed significant improvements for this new technique compared to the standard techniques. Finally, there is a discussion of the use of additional knowledge to further improve the normalization methods. Here, the test normalization method is extended to use knowledge of the handset type. 相似文献

17.

基于总体变化子空间自适应的i-vector说话人识别系统研究 总被引：2，自引：0，他引：2

栗志意张卫强何亮刘加《自动化学报》2014,40(8):1836-1840

在说话人识别研究中,基于身份认证矢量（identity vector,i-vector）的子空间建模被证明是目前最前沿最有效的说话人建模技术,其中如何有效准确地估计总体变化子空间矩阵T 成为影响系统性能好坏的关键问题. 本文针对i-vector 技术如何在新的应用环境下进行总体变化子空间矩阵T 的自适应估计问题进行了研究,并提出了两种行之有效的自适应估计算法. 在由美国国家标准技术局（American NationalInstitute of Standard and Technology,NIST）组织的2008 年说话人识别核心评测数据库以及自行采集的测试数据库上的实验结果显示,不论采用测试集数据本身还是与测试集较匹配的开发集数据,通过本文所提的自适应算法来更新总体变化子空间矩阵均可以使更新后的子空间更有利于新测试数据下的低维子空间描述,在新的测试环境下都更有利于说话人分类. 此外实验结果还表明基于多子空间拼接的子空间自适应方法性能明显优于迭代自适应方法,而且两者的结合可达到最优的识别性能,且此时利用开发集数据进行自适应可以接近其利用测试集数据进行自适应得到的最优性能. 相似文献

18.

用于文本无关的话者识别的超音段信息提取

姚志强吴礼福戴蓓蒨周曦《数据采集与处理》2005,20(4):376-380

提出一种可用于较少语音数据量的文本无关的超音段信息提取方法.通过对基音和能量的轨迹动态分段,提取超音段信息,并使用异方差线性区分分析（HLDA）进行参数优化,克服超音段信息提取对数据量大小的依赖,同时采用混合高斯-统一背景（GMM-UBM）模型结构,建立文本无关话者识别系统.在NIST′01数据库上的实验表明,该系统性能优于基于短时帧的音源信息参数系统,更重要的是不需要大数据量的支持,且与基于短时帧倒谱参数的话者识别系统融合后,系统识别性能明显改善,等误识率相对下降10%. 相似文献

19.

Speaker Verification Using Adapted Gaussian Mixture Models

《Digital Signal Processing》2000,10(1-3):19-41

Reynolds, Douglas A., Quatieri, Thomas F., and Dunn, Robert B., Speaker Verification Using Adapted Gaussian Mixture Models, Digital Signal Processing10(2000), 19–41.In this paper we describe the major elements of MIT Lincoln Laboratory's Gaussian mixture model (GMM)-based speaker verification system used successfully in several NIST Speaker Recognition Evaluations (SREs). The system is built around the likelihood ratio test for verification, using simple but effective GMMs for likelihood functions, a universal background model (UBM) for alternative speaker representation, and a form of Bayesian adaptation to derive speaker models from the UBM. The development and use of a handset detector and score normalization to greatly improve verification performance is also described and discussed. Finally, representative performance benchmarks and system behavior experiments on NIST SRE corpora are presented. 相似文献

20.

NAP序列核函数在话者识别中的应用 总被引：1，自引：1，他引：0

下载免费PDF全文

邢玉娟李明《计算机工程》2010,36(8):194-196

针对话者识别系统中特征向量不定长和交叉信道干扰等问题,提出一种基于超向量的扰动属性投影(NAP)核函数。该函数是一种新型的序列核函数,使支持向量机能在整体语音序列上分类,移除核函数空间中与话者识别无关的信道子空间信息。仿真实验结果表明,该函数可有效提高支持向量机的分类性能和话者识别系统的识别准确率。相似文献