共查询到18条相似文献,搜索用时 139 毫秒
1.
2.
缺失数据理论的置信度分析用于说话人识别时,使用的是滤波器组语音特征,虽然系统的鲁棒性可以提高,但整体的误识率依然很高。为了进一步降低系统的误识率,本文在滤波器组语音特征分量置信度的基础上,提出了一种用于计算倒谱域特征MFCC各维分量置信度的方法CBTM,该方法通过一个置信度变换矩阵,估算出经过Mel谱减法处理后的MFCC各维分量的置信度,在此基础上通过对GMM模型的方差加权来减少置信度小的特征分量对输出概率的影响,以此来提高系统的鲁棒性。在基于SUDA2002语料库的说话人辨认实验中,上述方法对NoiseX 92噪声库中的white、pink、factory1噪声表现出了比传统方法更低的误识率,说明了这种方法的有效性。 相似文献
3.
高斯混合模型采用固定混合数结构的建模方法并不符合说话人语音特征分布的多样性,从而出现过拟合或者欠拟合的情况并影响系统的识别性能。提出一种混合数可变的自适应高斯混合模型并将其应用于说话人识别。模型训练中根据说话人语音特征参数分布的聚类特性,采用吸收合并与分裂机制动态调整混合数以获得更加精确的拟合性能,提高系统识别率。实验结果显示,在特征参数MFCC和BFCC(Bilinear Frequency Cepstrum Coefficients)下相对误识率分别下降了41.41%和22.21%。 相似文献
4.
5.
语音是一种复杂的非线性信号,这使得基于线性系统理论发展起来的传统说话人识别技术性能难以进一步提高。本文提出了多分形谱簇分析方法,用于分析语音信号的非线性特征,并应用于短语音(2秒)说话人识别。通过对Cantor集的仿真实验,发现不同标度区能反映出系统不同阶段的生长规律,因此可用一组连续变化的多分形谱分层次地表征系统的分形特性,即多分形谱簇分析方法。然后结合语信号的分形特点,提出一种语音的多分形谱簇特征(Multifractal Spectrum Cluster Feature, MSCF)的提取方法。最后将几种非线性特征与短时谱特征结合用于说话人识别,基于TIMIT数据库50人的实验表明,非线性特征与短时谱特征互补性较强,特别是MSCF与MFCC、LPC特征结合,使得系统的误识率下降到0.8%。 相似文献
6.
该文针对美国国家标准与技术研究院(NIST)的 NIST评测,构建了一套多距离麦克风说话人分类及定位语音处理系统,针对NIST富标注评测中提出的说话人分类问题,提出改进的结合时延估计和聚类的说话人分类方法,在保证稳定性的前提下降低说话人分类的复杂度并提高准确率;提出一种新的相邻阵元间时延构造矩阵方程算法,可得到多个说话人的方向角。实验在标准会议环境下采集真实语音数据进行算法验证,说话人分类算法的正确率接近目前主要说话人分类系统的正确率,定位方向角误差在3以内。实验结果说明,适当条件下多距离麦克风系统可作为合适的语音信号输入设备应用于多人多方会议环境。 相似文献
7.
语音分段在基于GMM-SVM说话人确认中的应用 总被引:1,自引:1,他引:0
在说话人确认系统的实际应用中,让用户提供大量的训练语音是不现实的,所以在GMM-SVM系统中,正样本点数通常只有一个,而负样本点数远远多于正样本点数,造成SVM分类超平面严重偏向负样本,这种情况对于支持向量机的性能影响很大。针对此问题,提出了基于时间间隔对语音数据进行分段的方法,来增多正样本点数,得到更好的分类超平面。美国国家标准与技术研究所(NIST)2002年说话人识别数据库上的实验证明,语音分段的方法能在一定程度上提升整个说话者确认系统的识别精度和鲁棒性。 相似文献
8.
9.
10.
说话人辨认技术在许多领域有着广泛的应用前景。本文首先研究了两种基本的深度神经网络模型(深度信念网络和降噪自编码)在说话人辨认上的应用,深度神经网络通过逐层无监督的预训练和有监督的反向微调避免了反向传播容易陷入局部最小值的缺陷,本文通过实验证明了当神经元个数达到一定数量之后深度网络模型是优于普通BP网络的,并且其性能随着网络规模的扩大而提升。考虑到大规模的深度网络训练时间较长的缺点,本文提出使用整流线性单元(ReLU)代替传统的sigmoid类函数对说话人识别的深度模型进行改进,实验结果表明改进后的深度模型平均训练时间减少了35%,平均误识率降低了8.3%。 相似文献
11.
说话人识别对于各类机要场所、安防领域的身份认证具有得天独厚的优势。采用矢量量化(VQ)方法建立了一个文本相关的说话人识别系统。实验表明,基于VQ方法的系统简便可靠,特别是在建立识别模型时大大减少了数据的计算量与存储量,在身份测试中获得了较高的识别精度及较快的响应速度。 相似文献
12.
13.
14.
循环相关匹配滤波器设计 总被引:10,自引:0,他引:10
在谱相关分析的基础上,讨论了对循环平稳信号进行最佳滤波的问题,推导得到了基于最大输出信噪比准则的循环相关匹配滤波器的解析表式.然而,由于该滤波器性能与所选取的循环频率是相关的,单循环频率循环相关匹配滤波器存在固有的缺陷-信号能量利用不充分.为此,研究了多循环频率循环相关匹配滤波器组的设计方法,在最大输出信噪比准则约束下确定了滤波器组的优化结构.仿真实验比较了谱相关分析方法和循环相关匹配滤波方法,对调幅信号和BPSK信号的仿真实验结果证实了文章理论分析得到的结果. 相似文献
15.
Speaker adaptive test normalization (ATnorm) is the most effective approach of the widely used score normalization in text-flldependent speaker verification, which selects speaker adaptive impostor cohorts with an extra development corpus in order to enhance the recognition performance. In this paper, an improved implementation of ATnorm that can offer overall significant advantages over the original ATnorm is presented. This method adopts a novel cross similarity measurement in speaker adaptive cohort model selection without an extra development corpus. It can achieve a comparable performance with the original ATnorm and reduce the computation complexity moderately. With the full use of the saved extra development corpus, the overall system performance can be improved significantly. The results are presented on NIST 2006 Speaker Recognition Evaluation data corpora where it is shown that this method provides significant improvements in system performance, with relatively 14.4% gain on equal error rate (EER) and 14.6% gain on decision cost function (DCF) obtained as a whole. 相似文献
16.
Speaker verification: a tutorial 总被引:4,自引:0,他引:4
The task of speaker verification, a subset of the general problem of speaker recognition is defined. The feature selection and pattern matching steps of the recognition procedure are examined. Speaker verification system design and performance are discussed, and databases for evaluating them are briefly considered. An example of a speaker verification system is described. An overview of industry research in this area is given 相似文献
17.
Wireless Personal Communications - The false accept and false reject are the most vulnerable areas of speaker recognition and speaker authentication process. Speaker verification... 相似文献