期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

屈丹侯风雷王炳锡吴保民《信号处理》2004,20(3):285-289

本文给出了一种语言辨识的新方法。通常来讲,语言辨识系统是说话人无关的,但说话人的个体特征对语言辨识系统有很大的影响,文本采用了一种粗分类精识别的思想,利用说话人聚类技术有效解决了粗分类的问题,对每类相近说话人集合建立模型,然后进行识别。实验表明,该方法对于说话人无关的语言辨识问题是有效的。相似文献

2.

倒谱域特征分量置信度分析及说话人识别应用

薛峰俞一彪《信号处理》2010,26(1):127-131

缺失数据理论的置信度分析用于说话人识别时,使用的是滤波器组语音特征,虽然系统的鲁棒性可以提高,但整体的误识率依然很高。为了进一步降低系统的误识率,本文在滤波器组语音特征分量置信度的基础上,提出了一种用于计算倒谱域特征MFCC各维分量置信度的方法CBTM,该方法通过一个置信度变换矩阵,估算出经过Mel谱减法处理后的MFCC各维分量的置信度,在此基础上通过对GMM模型的方差加权来减少置信度小的特征分量对输出概率的影响,以此来提高系统的鲁棒性。在基于SUDA2002语料库的说话人辨认实验中,上述方法对NoiseX 92噪声库中的white、pink、factory1噪声表现出了比传统方法更低的误识率,说明了这种方法的有效性。相似文献

3.

自适应高斯混合模型及说话人识别应用

王韵琪俞一彪《通信技术》2014,(7):738-743

高斯混合模型采用固定混合数结构的建模方法并不符合说话人语音特征分布的多样性,从而出现过拟合或者欠拟合的情况并影响系统的识别性能。提出一种混合数可变的自适应高斯混合模型并将其应用于说话人识别。模型训练中根据说话人语音特征参数分布的聚类特性,采用吸收合并与分裂机制动态调整混合数以获得更加精确的拟合性能,提高系统识别率。实验结果显示,在特征参数MFCC和BFCC（Bilinear Frequency Cepstrum Coefficients）下相对误识率分别下降了41.41%和22.21%。相似文献

4.

应用说话人聚类技术改善语言辨识系统识别率

张强屈丹侯风雷王炳锡《电声技术》2007,31(3):44-48

说话人差异是影响语言辨识系统性能的一个重要方面.采用说话人聚类技术对训练数据进行了预分类,以此为基础训练各种语言模型,得到聚类后的语言辨识系统.高斯混合模型、高斯混合模型-全局背景模型和遍历隐马尔可夫模型3种语言模型的实验证明,这种方法是有效的,它普遍地减小了说话人差异对语言辨识的影响,提高了语言辨识率. 相似文献

5.

多分形谱簇研究及其在说话人识别中的应用

下载免费PDF全文

周宇欢张雄伟付强徐鑫王金明《信号处理》2011,27(12):1914-1919

语音是一种复杂的非线性信号,这使得基于线性系统理论发展起来的传统说话人识别技术性能难以进一步提高。本文提出了多分形谱簇分析方法,用于分析语音信号的非线性特征,并应用于短语音（2秒）说话人识别。通过对Cantor集的仿真实验,发现不同标度区能反映出系统不同阶段的生长规律,因此可用一组连续变化的多分形谱分层次地表征系统的分形特性,即多分形谱簇分析方法。然后结合语信号的分形特点,提出一种语音的多分形谱簇特征（Multifractal Spectrum Cluster Feature, MSCF）的提取方法。最后将几种非线性特征与短时谱特征结合用于说话人识别,基于TIMIT数据库50人的实验表明,非线性特征与短时谱特征互补性较强,特别是MSCF与MFCC、LPC特征结合,使得系统的误识率下降到0.8%。相似文献

6.

基于NIST评测的说话人分类及定位技术研究

杨毅宋辉刘加《电子与信息学报》2011,33(5):1234-1237

该文针对美国国家标准与技术研究院(NIST)的 NIST评测,构建了一套多距离麦克风说话人分类及定位语音处理系统,针对NIST富标注评测中提出的说话人分类问题,提出改进的结合时延估计和聚类的说话人分类方法,在保证稳定性的前提下降低说话人分类的复杂度并提高准确率;提出一种新的相邻阵元间时延构造矩阵方程算法,可得到多个说话人的方向角。实验在标准会议环境下采集真实语音数据进行算法验证,说话人分类算法的正确率接近目前主要说话人分类系统的正确率,定位方向角误差在3以内。实验结果说明,适当条件下多距离麦克风系统可作为合适的语音信号输入设备应用于多人多方会议环境。相似文献

7.

语音分段在基于GMM-SVM说话人确认中的应用 总被引：1，自引：1，他引：0

饶为王典洪麦文伟《电子技术》2010,47(3):18-19

在说话人确认系统的实际应用中,让用户提供大量的训练语音是不现实的,所以在GMM-SVM系统中,正样本点数通常只有一个,而负样本点数远远多于正样本点数,造成SVM分类超平面严重偏向负样本,这种情况对于支持向量机的性能影响很大。针对此问题,提出了基于时间间隔对语音数据进行分段的方法,来增多正样本点数,得到更好的分类超平面。美国国家标准与技术研究所(NIST)2002年说话人识别数据库上的实验证明,语音分段的方法能在一定程度上提升整个说话者确认系统的识别精度和鲁棒性。相似文献

8.

似然得分归一化及其在与文本无关说话人确认中的应用

邓浩江杜利民万洪杰《电子与信息学报》2005,27(7):1025-1029

该文研究了似然得分归一化方法的原理,建立了基于自适应GMM模型的说话人确认系统,并将非特定人的背景模型与特定人的cohort模型相结合,提出了混合归一化的方法。在电话语音条件下,该文比较了不同得分归一化方法对确认系统性能的影响。实验表明,在自适应GMM模型似然比得分的基础上,T-cohort与通用背景模型混合归一化能获得最佳识别效果。当错误拒绝率为5%时,该方法可以获得0.5%的错误接受率,远远低于采用通用背景模型归一化方法的2%。相似文献

9.

基于GMM的实时说话人识别系统

胡益平蔡骏洪青阳《电声技术》2007,31(6):53-55

介绍了一个基于GMM实时说话人识别系统的设计与实现,系统具有实时说话人辨认和实时说话人确认功能。在实验室条件下,对不同的高斯混合密度个数及采样率进行了测试,测试了模型的自适应性能。实验表明系统具有较好的识别准确率。相似文献

10.

基于改进的深度神经网络的说话人辨认研究

下载免费PDF全文

赵力《电子器件》2017,40(5)

说话人辨认技术在许多领域有着广泛的应用前景。本文首先研究了两种基本的深度神经网络模型（深度信念网络和降噪自编码）在说话人辨认上的应用,深度神经网络通过逐层无监督的预训练和有监督的反向微调避免了反向传播容易陷入局部最小值的缺陷,本文通过实验证明了当神经元个数达到一定数量之后深度网络模型是优于普通BP网络的,并且其性能随着网络规模的扩大而提升。考虑到大规模的深度网络训练时间较长的缺点,本文提出使用整流线性单元（ReLU）代替传统的sigmoid类函数对说话人识别的深度模型进行改进,实验结果表明改进后的深度模型平均训练时间减少了35%,平均误识率降低了8.3%。相似文献

11.

基于VQ的与文本相关说话人识别研究

龚伟汪鲁才《电声技术》2006,(4):43-45

说话人识别对于各类机要场所、安防领域的身份认证具有得天独厚的优势。采用矢量量化(VQ)方法建立了一个文本相关的说话人识别系统。实验表明,基于VQ方法的系统简便可靠,特别是在建立识别模型时大大减少了数据的计算量与存储量,在身份测试中获得了较高的识别精度及较快的响应速度。相似文献

12.

短语音说话人辨认的研究

下载免费PDF全文

蒋晔唐振民《电子学报》2011,39(4):953-957

针对短语音说话人辨认训练语料不充分的特点,对特征参数和GMM模型进行优化和改进,提出一种基于局部模糊PCA的GMM说话人辨认方法.该方法采用特征组合代替单一特征,以提高有效特征维数来弥补特征样本的不足,并用局部模糊PCA对组合特征进行有效降维,在对识别率影响很小的前提下,降低了系统的时空复杂度.本文还对GMM参数初始化... 相似文献

13.

基于GMM说话人分类的说话人识别方法研究

赵振东张静李圆胡喜梅《通信技术》2009,42(10):192-193

提出了基于高斯混合模型（GMM）说话人分类的分级说话人识别系统,同时将小波神经网络（WNN）引入到子识别系统中。分别对未分级说话人识别系统和分级说话人识别系统进行了比较。仿真实验结果表明,分级网络在保证正确识别率的同时,不仅改善了网络训练速度,亦大大提高了识别响应速度。相似文献

14.

循环相关匹配滤波器设计 总被引：10，自引：0，他引：10

李虎生刘加刘润生《电子学报》2003,31(1):103-108

在谱相关分析的基础上,讨论了对循环平稳信号进行最佳滤波的问题,推导得到了基于最大输出信噪比准则的循环相关匹配滤波器的解析表式.然而,由于该滤波器性能与所选取的循环频率是相关的,单循环频率循环相关匹配滤波器存在固有的缺陷-信号能量利用不充分.为此,研究了多循环频率循环相关匹配滤波器组的设计方法,在最大输出信噪比准则约束下确定了滤波器组的优化结构.仿真实验比较了谱相关分析方法和循环相关匹配滤波方法,对调幅信号和BPSK信号的仿真实验结果证实了文章理论分析得到的结果. 相似文献

15.

ZHAO Jian DONG Yuan ZHAO Xian-yu YANG Hao WANG Hai-la 《中国邮电高校学报(英文版)》2008,15(2):130-134

Speaker adaptive test normalization （ATnorm） is the most effective approach of the widely used score normalization in text-flldependent speaker verification, which selects speaker adaptive impostor cohorts with an extra development corpus in order to enhance the recognition performance. In this paper, an improved implementation of ATnorm that can offer overall significant advantages over the original ATnorm is presented. This method adopts a novel cross similarity measurement in speaker adaptive cohort model selection without an extra development corpus. It can achieve a comparable performance with the original ATnorm and reduce the computation complexity moderately. With the full use of the saved extra development corpus, the overall system performance can be improved significantly. The results are presented on NIST 2006 Speaker Recognition Evaluation data corpora where it is shown that this method provides significant improvements in system performance, with relatively 14.4% gain on equal error rate （EER） and 14.6% gain on decision cost function （DCF） obtained as a whole. 相似文献

16.

Speaker verification: a tutorial 总被引：4，自引：0，他引：4

Naik J.M. 《Communications Magazine, IEEE》1990,28(1):42-48

The task of speaker verification, a subset of the general problem of speaker recognition is defined. The feature selection and pattern matching steps of the recognition procedure are examined. Speaker verification system design and performance are discussed, and databases for evaluating them are briefly considered. An example of a speaker verification system is described. An overview of industry research in this area is given 相似文献

17.

Robust Threshold Selection for Environment Specific Voice in Speaker Recognition

Kanrar Soumen 《Wireless Personal Communications》2022,126(4):3071-3092

Wireless Personal Communications - The false accept and false reject are the most vulnerable areas of speaker recognition and speaker authentication process. Speaker verification... 相似文献

18.

基于话者因子评分的说话人确认

周毓李辉刘青松《电子技术》2011,38(7)

针对基于因子分析模型的说话人确认系统评分的复杂性以及需要较大运算量的问题,文章直接利用话者因子的余弦距离相似度来计算评分。首先在训练阶段和测试阶段分别用因子分析的方法从语音中估计出话者因子,然后直接利用话者因子评分。对比SVM和其它的JFA-GMM-UBM话者确认系统,本文中所采用的系统训练阶段和测试阶段的流程相同,并且目标话者模型只需要存储话者因子,存储量少。在NIST2008数据库上的实验结果表明,余弦距离评分对比其它因子分析模型的评分方法,更加简单,并且话者确认系统的性能也有提高。相似文献