排序方式: 共有24条查询结果,搜索用时 375 毫秒
1.
针对手机、电话的短语音文本无关说话人确认,本文设计了一种基于分类GMM-UBM(CGMM-UBM)的说话人确认系统。用k-means算法将训练背景模型的语音参数集分类成若干个子空间,并据此进行目标说话人语音数据的子空间分类,再采用GMM-UBM结构为每个子空间分别建立一个子系统,以各个子系统输出评分的线性加权作为系统的输出评分。分类后的模型可以采用较低的混合度,线性加权增强了贡献较大子空间对确认性能的作用。在NIST’03语音库上100个男性话者的实验表明,短语音条件下,分类系统的性能比不分类系统有显著的改进,运算效率较后者也提高很多。 相似文献
2.
实现了一个高性能、低成本、低功耗的声纹确认片上系统(SOC)。系统核心算法采用基于高斯混合模型以及通用背景模型(GMM—UBM)建模的说话人确认算法,采用了Mel倒谱系数(MFCC)作为说话人特征。此SOC系统不仅可进行声纹确认,而且包含说话人模型的训练,可实时更新说话人的人数和模型。系统的平均EER达到了0.0342。 相似文献
3.
在声纹识别系统的搭建过程中,提高识别率的一个重要做法是使语音信号中能够提取出的特征尽可能包含更多的说话人个性特征。为了探究特征参数各分量对识别系统性能的影响,文章基于高斯混合-通用背景模型(GaussianMixture Model-Universal Background Model,GMM-UBM)基线系统,研究了在无噪环境中各维特征组合下的识别率,利用增减分量法定量计算出各维特征分量对识别率的相对贡献程度,并根据贡献度的强弱对各维特征分量进行合理加权,得到了贡献度拟合权重系数,将此系数用于改进梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征参数。仿真结果表明,对特征参数进行贡献度拟合权重系数加权后,声纹识别的正确率得到了提升。 相似文献
4.
利用i-vector/PLDA模型进行说话人确认时,对于不定时间的语音,由于将长度归一化后的i-vector转化到PLDA模型时,伴随着不确定性的扭曲和缩放,影响识别率。本文通过对全变量空间矩阵T的列向量执行归一化,代替在PLDA模型上对i-vector进行长度归一化,避免因在i-vector上执行长度归一化,导致转移到PLDA模型上产生不良的扭曲。实验结果表明,该方法得到和长度归一化相似的效果,部分效果要优于长度归一化。 相似文献
5.
6.
针对说话识别领域短语音导致的训练数据不充分的问题,选择能够突出说话人个性特征的GMM-UBM作为基线系统模型,并引入SVM解决GMM-UBM导致的系统鲁棒性差的问题. 选择不同的核函数对SVM的识别性能有较大的影响,针对多项式核函数泛化能力较强、学习能力较差与径向基核函数学习能力较强、泛化能力较差的特性,对两种单核核函数进行线性加权组合,以使组合核函数兼具各单核的优点. 仿真实验结果表明,组合核函数SVM的识别率和等错误率明显优于不引入SVM的GMM-UBM的基线系统及其它三个单核函数,并在不同信噪比情况下也兼顾了系统识别准确率与鲁棒性. 相似文献
7.
研究语音动态特征参数提取问题,在话者语音识别过程中,动态特征参数可以有效提高识别率.但是传统算法在其提取过程中存在大量干扰冗余信息,造成了识别率降低并带来运算速度的降低.为解决上述副作用,提出在说话人识别系统中,使用一种动态时频倒谱系数参数的方法.上述方法在不减少反应话者个体特征分布特性的前提下,可消除冗余信息并降低样本特征的维度.利用上述方法提取语音特征参数并输入混合高斯-通用背景模型进行说话人语音分类.在Matlab上仿真结果表明,动态时频倒谱系数可有效改进话者语音识别系统的识别正确率. 相似文献
8.
在声纹密码任务中由于数据稀疏的问题难以实现区分性训练,本文以一种表征距离度量的特征矢量为基础提出新的声纹密码区分性系统框架,对正反例样本的新特征矢量实现了基于最小分类错误准则的区分性训练,将声纹密码从确认问题转化为二类分类问题。在自由说话风格的60人数据集上,声纹密码区分性系统与混合高斯模型-通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)系统融合后等错误率为4.48%,相对GMM-UBM,动态时间规划(Dynamic time warping,DTW)基线系统性能分别提升了17.95%和59.68%。 相似文献
9.
基于子带GMM-UBM的广播语音多语种识别 总被引:2,自引:0,他引:2
提出了一种基于概率统计模型的与语言内容无关的语种识别方法,它不需要掌握各语种的专业语言学知识就可以实现几十种语言的语种识别;并针对广播语音噪声干扰大的特点,采用GMM-UBM模型作为语种模型,提高了系统的噪声鲁棒性;由于广播语音的背景噪声不是简单的全频带加性白噪声,因此本文构建了一种基于子带GMM-UBM模型的多子系统结构的语种识别系统,后端采用神经网络进行系统级融合。本文通过对37种语言及方言的识别实验,证明了子带GMM-UBM方法的有效性。 相似文献
10.