排序方式: 共有5条查询结果,搜索用时 0 毫秒
1
1.
首先提出以音素合并后模型自身似然度下降为距离依据,通过聚类生成多语言通用音素的声学建模方法.在此基础上,比较聚类时增加两种约束条件(同一语种内音素不聚类、不同IPA族的音素不聚类)对性能的影响.同时,对通用音素集的规模对识别性能的影响做了一定探索.最后的实验给出建立中英文双语混合模型在关键词检测系统上的结果,比较4种聚类方法在不同通用音素个数情况下的性能优劣.结果显示,使用本文方法进行一定程度的音素合并,性能比不作聚类直接混合建模有明显提升.适当增加音素聚类的约束,有助于进一步提高性能. 相似文献
2.
将语种和说话人识别的方法应用到英语发音错误检测系统, 提出一种基于广义线性区分序列支持向量机 (Generalized linear discriminant sequence based SVM, GLDS-SVM)的发音错误检测方法. 主要创新点为: 1)提出一种基于状态拼接的特征规整方案, 增强SVM对发音特征的建模能力; 2)提出一种基于多模型融合的模型训练策略, 该策略可以更加充分地利用训练数据, 并在一定程度上解决了由于真实发音错误数据缺乏造成的正负样本不均衡的问题; 3)将GLDS-SVM与基于通用背景模型GMM (Universal background models based GMM, GMM-UBM)的方法进行融合, 以进一步提高发音检错性能. GLDS-SVM和GMM-UBM的融合系统在仿真测试集和真实测试集上的等错误率 (Equal error rate, EER)分别达到9.92%和16.35%. 同时, GLDS-SVM在模型占用空间和运算速度方面均比传统径向基函数 (Radial basic function, RBF)核方法具有明显优势. 相似文献
3.
4.
一种基于互补声学模型的多系统融合语音关键词检测方法 总被引:1,自引:0,他引:1
采用一种基于互补声学模型的多系统融合方法来获得高性能的语音关键词检测系统: 1)在基线系统的基础上, 使用不同的音素集进行声学建模, 并引入基于神经网络的声学建模方法, 获得另外两套具有建模差异性的声学系统; 2)在多套关键词检测系统的基础上, 通过选择有效的系统融合准则, 将多个系统的输出进行整合, 获得更好的语音关键词检测结果. 该方法充分利用了差异性声学建模系统之间的互补性, 在不增加训练数据的情况下, 显著地提升了最终系统的性能. 和基线系统相比, 该方法在2005年国家863电话语音关键词检测技术评测集上, 在等错误率(Equal error rate, EER)指标下, 获得相对21.6%的显著性能提升. 相似文献
5.
语言模型自适应的目的是减小模型与识别任务之间的语言差异。这些差异包括词典差异、风格和内容差异以及模型的概率分布差异。本文提出一种新的非迭代的中文新词提取方法和一种新的开放式词典的中文语言模型。基于这些技术,本文提出一个面向广播语音识别的语言模型自适应框架,该框架联合了以下技术: 一种新的非迭代的新词提取方法,一种新的中文开放式词典语言模型,一种基于困惑度( PPL) 的背景语料筛选方法和一个 N2gram 概率分布自适应模块。另外,本文还专门分析了在语言模型自适应过程中命名实体词的识别情况。实验表明,通过使用该框架,误识率相对下降了10 % ,实体词识别准确率提高了4 %。 相似文献
1