首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 74 毫秒
1.
蒙古语语音识别系统的词表很难覆盖所有的蒙古文单词,并且随着社会的发展,蒙古文的新词和外来词也越来越多。为了解决蒙古语语音关键词检测系统中的集外词检测问题,该文提出了基于音素混淆网络的蒙古语语音关键词检测方法,并采用音素混淆矩阵改进了关键词的置信度计算方法。实验结果表明,基于音素混淆网络的蒙古语语音关键词检测方法可以较好地解决集外词的检测问题。蒙古语语音关键词检测系统采用改进的置信度计算方法后精确率提高了6%,召回率提高了2.69%,性能得到明显的提升。  相似文献   

2.
To improve in-vocabulary performance in Mongolian speech keyword spotting task, we propose a Mongolian speech keyword spotting method by searching the stem according to the characteristic of Mongolian word-formation rule. First, Mongolian speech is decoded to lattice file by Segmentation-based LVCSR system, and this lattice file is converted to a confusion network. Then, we detect the keywords according to their stems among the confusion network. Experimental results show that the proposed method outperforms baselines based on word confusion network.  相似文献   

3.
语音关键词检测是指在语音文档中寻找并定位特定的词的技术,输入所需查询的关键词通常是以文本的形式给出。作为语音文档分析等技术的核心部分,语音关键词检测始终是语音处理领域研究的热点。置信测度计算是关键词检测技术的重要组成部分,对确认正确检出的关键词及拒绝误识都起到决定性作用,置信测度的优劣对检测系统性能有着直接的影响。介绍并总结了语音关键词检测中测置信测度方法的研究工作,提供了详尽的参考文献。  相似文献   

4.
为了提高蒙古语语音识别性能,该文首先将时延神经网络融合前馈型序列记忆网络应用于蒙古语语音识别任务中,通过对长序列语音帧建模来充分挖掘上下文相关信息;此外研究了前馈型序列记忆网络“记忆”模块中历史信息和未来信息长度对模型的影响;最后分析了融合的网络结构中隐藏层个数及隐藏层节点数对声学模型性能的影响。实验结果表明,时延神经网络融合前馈型序列记忆网络相比深度神经网络、时延神经网络和前馈型序列记忆网络具有更好的性能,单词错误率与基线深度神经网络模型相比降低22.2%。  相似文献   

5.
蒙古语语言中非词首音节短元音位置不确定产生了一词多音、构词音变、协同发音以及口语语流等现象,导致声学模型自适应性差。通过使用小规模的自适应数据集,结合MLLR和MAP建模方法,从τ值的选取和自适应声学模型建模的训练过程两方面对基本蒙古语声学模型的自适应性开展研究,给出了一种适合构建自适应蒙古语语音识别声学模型的MLLR-MAP方法。在Sphinx语音识别实验平台上进行建模实验,使用声学模型识别率与系统识别率评价指标对MAP、MLLR、MAP-MLLR和MLLR-MAP等建模方法进行评价。实验结果表明,在声学模型的总正确率、错误率和准确率三个评价指标上都得到了提升,明显优于基线模型。  相似文献   

6.
为了有效利用不同关键词检测系统的互补性,解决不同系统检测结果置信度得分不在同一范围的问题,提出了一种基于得分规整和系统融合的语音关键词检测方法。首先,为了克服连续语音识别系统中因剪枝错误而引起的关键词丢失问题,应用了关键词相关的软Beam宽度剪枝策略裁剪词图;其次,在系统融合前采用得分归一化方法,使得不同系统关键词检测结果置信度得分在同一范围;最后,通过系统融合处理将不同系统的关键词输出进行整合,得到最终的关键词检测结果。实验结果表明,经过得分归一化处理后,关键词检测性能的实际查询词权重代价(Actual term-weighted value, ATWV)平均相对提升30%;系统融合后关键词的检测性能,相比于得分归一化处理后的最佳单一系统,得到了10%的提升。  相似文献   

7.
给出一种适用于在线垃圾模型的基于动态排位信息的关键词确认方法,利用识别过程中声学得分的排位信息进行关键词确认,能在不降低检出率的同时有效降低系统的误警率,效果优于同类方法。该方法不依赖于具体的关键词表,计算简单,能够应用于实际工程中。  相似文献   

8.
为了高效地从大词汇量连续语音识别(LVCSR)的多候选中得到关键词结果,保证最小词错误率,提出了将混淆网络的思想应用到关键词检出系统中.在传统混淆网络生成方法基础上,提出一种改进的更加适合于关键词检出的关键词混淆网络作为关键词检出的中间结构,该方法只对所有关键词竞争候选生成带有得分标记的关键词混淆网络,突出候选之间竞争关系,并根据得分标记确定关键词.与传统的N best作为中间结构的关键词检出系统比较,基于混淆网络的关键词检出系统的召回率为87.11%,提高了21.65%.实验表明,在提高召回率的同时,所提方法具有关键词直接定位的特点,因此具有较低的时间开销.  相似文献   

9.
混合模型在进行集外词识别时,采用不同类型的子词单元通常具有性能上的互补性.基于此种情况,文中提出互补子词单元词图融合的集外词识别方法.首先分别采用音节和字母音素对搭建2套具有性能差异性的混合模型系统.然后获得这2套系统的识别词图,并合并处理词图中的子词单元.最后分别采用基于词图并集和基于词图交集的融合策略融合处理后的词图,得到更好的集外词识别结果.实验表明文中方法性能优于单系统及ROVER方法.  相似文献   

10.
一种基于互补声学模型的多系统融合语音关键词检测方法   总被引:1,自引:0,他引:1  
采用一种基于互补声学模型的多系统融合方法来获得高性能的语音关键词检测系统: 1)在基线系统的基础上, 使用不同的音素集进行声学建模, 并引入基于神经网络的声学建模方法, 获得另外两套具有建模差异性的声学系统; 2)在多套关键词检测系统的基础上, 通过选择有效的系统融合准则, 将多个系统的输出进行整合, 获得更好的语音关键词检测结果. 该方法充分利用了差异性声学建模系统之间的互补性, 在不增加训练数据的情况下, 显著地提升了最终系统的性能. 和基线系统相比, 该方法在2005年国家863电话语音关键词检测技术评测集上, 在等错误率(Equal error rate, EER)指标下, 获得相对21.6%的显著性能提升.  相似文献   

11.
斯拉夫蒙古文是蒙古国现行的文字,又称为西里尔蒙古文或新蒙古文。蒙古文词干和词缀包含着大量信息,斯拉夫蒙古文词切分是斯拉夫蒙古文信息处理众多后续工作的基础。该文尝试了将词典和规则结合的方法对斯拉夫蒙古文进行词切分。首先预处理部分蒙古文词,然后基于词典切分高频和部分不符合规则的词。最后对剩余的词,用切分规则生成多个候选的词切分方案,然后在这些方案中选出最优方案。通过两种方法的有机结合,发挥各自的优点,得到了性能较好的斯拉夫蒙古文词切分系统。  相似文献   

12.
隐马尔科夫模型(HMM)对序列数据有很强的建模能力,在语音和手写识别中都得到了广泛的应用。利用HMM研究蒙古文手写识别,首先需要解决的问题是手写文字的序列化。从蒙古文的构词和书写特点看,蒙古文由多个字素从上到下串联构成。选择字素集合和词的字素分割是手写识别的基础,也是影响识别效果的关键因素。该文根据蒙古文音节和编码知识确定了蒙古文字母集合,共包括1 171个字母。通过相关性处理、HMM排序筛选等手段得到长字素集合,共包括378个字素。对长字素经过人工分解,获得了50个短字素。最后利用两层映射给出了词转字素序列的算法。为了验证长短字素在手写识别中的效果,我们在HTK(hidden Markov model toolkit)环境下利用小规模字库实现了手写识别系统,实验结果表明短字素比长字素有更好的性能。文中给出的字素集合和词转字素序列的算法为后续基于HMM的蒙古文手写识别研究奠定了基础。  相似文献   

13.
得分规整为语音查询项检索系统中的必要过程,文中提出两阶段得分规整方法.先引入rank-p和relative-to-max这2个特征至区分性得分规整方法中,使正确候选结果和错误候选结果的置信度得分区分性更大,更易进行关键词确认.再应用基于优化查询项权重代价指标的得分规整方法得到最优的语音查询项检索性能.实验表明,文中方法同时利用区分性和基于优化查询项权重代价指标得分规整方法的优点,相比最佳单一得分规整方法性能更优.  相似文献   

14.
近年来,随着人工智能的发展与智能设备的普及,人机智能对话技术得到了广泛的关注。口语语义理解是口语对话系统中的一项重要任务,而口语意图检测是口语语义理解中的关键环节。由于多轮对话中存在语义缺失、框架表示以及意图转换等复杂的语言现象,因此面向多轮对话的意图检测任务十分具有挑战性。为了解决上述难题,文中提出了基于门控机制的信息共享网络,充分利用了多轮对话中的上下文信息来提升检测性能。具体而言,首先结合字音特征构建当前轮文本和上下文文本的初始表示,以减小语音识别错误对语义表示的影响;其次,使用基于层级化注意力机制的语义编码器得到当前轮和上下文文本的深层语义表示,包含由字到句再到多轮文本的多级语义信息;最后,通过在多任务学习框架中引入门控机制来构建基于门控机制的信息共享网络,使用上下文语义信息辅助当前轮文本的意图检测。实验结果表明,所提方法能够高效地利用上下文信息来提升口语意图检测效果,在全国知识图谱与语义计算大会(CCKS2018)技术评测任务2的数据集上达到了88.1%的准确率(Acc值)和88.0%的综合正确率(F1值),相比于已有的方法显著提升了性能。  相似文献   

15.
提出一种基于声学分段模型的无监督语音样例检测方法。该方法首先利用高斯混合模型(Gaussian mixture model, GMM)将训练数据频谱参数转换为后验概率特征向量,采用层次聚类算法确定后验概率的边界信息,得到声学分段;然后通过k means算法将片段聚类并添加标签,构建基于后验概率的声学分段模型。检索时以模型对查询样例与检索文档的解码序列代替测量矩阵以降低检索时间,通过基于最小编辑距离的动态匹配检索查询项,最小编辑距离的代价函数由模型相似度距离矩阵修正。实验结果表明,相比GMM及传统声学分段模型,本文提出的方法性能更好,检索速度得到显著提升。  相似文献   

16.
基于条件随机场的蒙古语词切分研究   总被引:1,自引:1,他引:1  
词干和构形附加成分是蒙古语词的组成成分,在构形附加成分中包含着数、格、体、时等大量语法信息。利用这些语法信息有助于使用计算机对蒙古语进行有效处理。蒙古语词在结构上表现为一个整体,为了利用其中的语法信息需要识别出词干和各构形附加成分。通过分析蒙古语词的构形特点,提出一种有效的蒙古语词标注方法,并基于条件随机场模型构建了一个实用的蒙古语词切分系统。实验表明该系统的词切分准确率比现有蒙古语词切分系统的准确率有较大提高,达到了0.992。  相似文献   

17.
An important component of a spoken term detection (STD) system involves estimating confidence measures of hypothesised detections.A potential problem of the widely used lattice-based confidence estimation,however,is that the confidence scores are treated uniformly for all search terms,regardless of how much they may differ in terms of phonetic or linguistic properties.This problem is particularly evident for out-of-vocabulary (OOV) terms which tend to exhibit high intra-term diversity.To address the impact of term diversity on confidence measures,we propose in this work a term-dependent normalisation technique which compensates for term diversity in confidence estimation.We first derive an evaluation-metric-oriented normalisation that optimises the evaluation metric by compensating for the diverse occurrence rates among terms,and then propose a linear bias compensation and a discriminative compensation to deal with the bias problem that is inherent in lattice-based confidence measurement and from which the Term Specific Threshold (TST) approach suffers.We tested the proposed technique on speech data from the multi-party meeting domain with two state-ofthe-art STD systems based on phonemes and words respectively.The experimental results demonstrate that the confidence normalisation approach leads to a significant performance improvement in STD,particularly for OOV terms with phonemebased systems.  相似文献   

18.
提出了一种融合下界估计和分段动态时间规整的语音样例快速检索方法。该方法针对缺乏合适的训练数据等语音资源较为有限的语言进行快速检索所设计。此方法首先提取查询样例和测试集的音素后验概率;然后,根据限制条件在测试语句中选定候选分段,并计算查询样例和每个候选分段之间实际动态时间规整得分的下界估计,再运用K最近邻搜索算法搜索与查询样例相似度最高的分段;最后,使用虚拟相关反馈技术对检索结果进行修正。实验结果表明:尽管此方法的检索精度略低于直接运用动态时间规整进行检索的检索精度,但其检索速度大大优于后者,且检索结果经过虚拟相关反馈技术修正后,其检索精度也得到有效提升。  相似文献   

19.
汉语语音检索的集外词问题与两阶段检索方法   总被引:2,自引:0,他引:2  
该文针对大规模汉语语音检索任务提出汉语语音检索中的集外词问题和针对集外查询词的两阶段检索方法。汉语语音识别和检索中,集外词可以以词表词序列的形式被识别和检索到,因此被认为不存在集外词问题;该文发现集外查询词性能远远低于集内查询词,将此问题定义为汉语语音检索任务的集外词问题,并提出两阶段的检索方法,第一阶段通过模糊音素匹配的方法提高查全率,第二阶段通过词格修正的方法提高查准率。实验表明,两阶段的检索方法极大的提高了典型集外查询词的检索性能,FOM指标相对基线系统提高了24.1%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号