期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吴根清郑方金凌吴文虎《中文信息学报》2002,16(1):61-66

本文针对传统统计语言模型的离线自适应方法,提出了一种在线实时的递增式自适应方法。该自适应方法需要解决几个问题。第一是要设计一种语言模型结构以适应在线的自适应;第二是如何利用在线收集到的语料对语言模型进行实时的参数修改;在我们设计的中文音转字平台中,将语言模型分成两个部分,分别是通用模型和用户模型。对于通用模型,采用高效的存储结构结合参数预取技术,提高了模型的速度;对于用户模型,使用动态的加权方法结合MAP 动态调整参数。本文所做的实验证明使用该方法能较大程度的降低中文音转字的错误率。相似文献

2.

基于主题的汉语语言模型的研究 总被引：1，自引：0，他引：1

曲卫民张俊林孙乐《计算机研究与发展》2003,40(9):1368-1374

基于主题的自适应语言模型能有效地解决语言模型跨主题应用的问题,针对其面临的两个主要问题——语料的分类和各语言模型的融合,采用了一种新的语料分类算法,突破了原有分类方法的一些局限性,并提出了一种改进的融合各语言模型的方法：概率线性插值法,该方法既改善了语言模型的性能,又提高了横型的运算效率。相似文献

3.

利用梯度投影法实现语言模型的主题自适应

苏韬汪俊杰孙甲松王作英《中文信息学报》2003,17(1):54-59

本文研究了在汉语语音识别中如何根据识别任务的主题相关性自动调整语言模型,即语言模型的主题自适应问题。提出了利用梯度投影法在最大似然估计准则下将不同主题的语言模型进行线性插值的方法。实验表明,该方法可以有效地提高系统的识别率和稳健性,特别是对于主题明确的识别任务改善尤为明显。同时,为了解决新系统识别速度较慢的问题,本文在音字转换过程中采取了多路搜索策略,在与基线系统识别速度相当的情况下识别率仍获得了明显改善。相似文献

4.

基于trigram语体特征分类的语言模型自适应方法 总被引：1，自引：0，他引：1

梁奇郑方徐明星吴文虎《中文信息学报》2006,20(4):70-76

本文从书面语和口语存在的差异出发,提出了语言模型的语体自适应方法。自适应采用了几种不同的计数意义上的插值算法。考虑Katz平滑的插值算法根据trigram单元的可信度来分配权值。基于trigram语体特征分类的自适应算法根据trigram单元的语体特征倾向动态分配权值,并选取了几种不同的权值生成函数。对口语语料做音转字的实验证明,使用这几种自适应算法可以让基准模型的性能有不同程度的提高,其中综合考虑单元可信度和特征倾向的算法效果最好,相对于本文的两个基准的汉字错误率下降率分别达到了50.2%和23.7%。相似文献

5.

基于记忆的自适应汉语语言模型的研究

曲卫民张俊林孙乐孙玉芳《中文信息学报》2003,17(5):14-18,40

基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性,但其假设过于简单,即认为一个在文章的前面部分出现过的词往往会在后面重复出现,它没有考虑到常用词的影响,以及不同单词间的相互影响。本文针对这一问题从两个方面对原有模型进行了改进,一是采用TFIDF公式代替了原有的简单频率统计法;二是建立了一种基于记忆的扩展二元模型,并采用权重过滤法以节省模型计算量。实验表明这两种改进在很大程度上提高了原有模型的性能,增强了模型的自适应性。相似文献

6.

一种基于区分性准则的模型结构优化方法

鄢志杰胡郁王仁华《中文信息学报》2008,22(2):99-105

本文提出了一种基于区分性准则的模型结构优化方法,用以调整HMM自动语音识别系统中声学模型各状态混合高斯核成分数量的分配。通过优化选定的准则,声学模型可以在使用相同参数数量的情况下得到更好的识别性能,也可以在保持相当性能的前提下降低所需要的模型参数。相对于传统的基于似然度及复杂度惩罚的模型结构优化准则来讲,基于区分性准则的优化方法能够更直接地提高模型的区分度和鉴别力,从而得到更好的识别效果。在一个面向嵌入式系统的中文连续数字串识别任务上的实验结果证明,基于最大互信息量准则的模型结构优化能够得到比传统的、基于模型似然度及复杂度的方法更好的识别效果。相似文献

7.

基于对话回合衰减的cache语言模型在线自适应研究

何伟李红莲袁保宗林碧琴《中文信息学报》2003,17(5):42-48

目前由于特定任务域语料的稀疏并且难以收集,这严重阻碍了对话系统的可移植性。如何利用在线收集的少量训练语料,实现语言模型的快速自适应,从而有效提高对话系统在新任务域的识别率是本文的目的所在。本文对传统cache模型修正后,提出了基于历史单元衰减的cache语言模型,以在线递增方式收集语料进行自适应,并与通用语言模型进行线性插值。在对话系统中,以对话回合为历史单元,也可称为基于对话回合衰减的cache语言模型。在两个完全不同任务域——颐和园导游与火车票订票任务域进行的实验表明,在自适应语料不到1千句时,与无自适应模型相比,有监督模式下的识别错误率分别降低了47.8%和74.0% ,无监督模式下的识别错误率分别降低了30.1%和51.1%。相似文献

8.

一种改善的基于语言模型的中文检索系统研究 总被引：2，自引：1，他引：2

张俊林曲为民孙乐孙玉芳《中文信息学报》2004,18(2):24-29,43

最近几年提出的语言模型检索系统将语音识别领域的语言模型技术引入信息检索领域并改善了检索系统的性能,但是其隐含的词汇间相互独立的假设并不符合实际情况。尽管统计翻译模型考虑了词汇间的同义词因素,但是由于它没有考虑词汇上下文信息,所以对于解决多义词词义的区分并无帮助。我们提出了触发语言模型检索方法来改善这一状况,通过训练语料得到词汇在一定上下文中的相关比率,同时利用查询条件所含词汇计算触发词汇集合来区别查询条件词汇的具体含义并将相关参数引入文档语言模型形成触发语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能,与经典语言模型方法相比,触发语言模型方法的平均查准率提高了约12%,召回率提高了10.8%。相似文献

9.

一个面向广播语音识别的语言模型自适应框架

王晓瑞丁鹏梁家恩徐波《中文信息学报》2007,21(4):73-79

语言模型自适应的目的是减小模型与识别任务之间的语言差异。这些差异包括词典差异、风格和内容差异以及模型的概率分布差异。本文提出一种新的非迭代的中文新词提取方法和一种新的开放式词典的中文语言模型。基于这些技术,本文提出一个面向广播语音识别的语言模型自适应框架,该框架联合了以下技术: 一种新的非迭代的新词提取方法,一种新的中文开放式词典语言模型,一种基于困惑度( PPL) 的背景语料筛选方法和一个 N2gram 概率分布自适应模块。另外,本文还专门分析了在语言模型自适应过程中命名实体词的识别情况。实验表明,通过使用该框架,误识率相对下降了10 % ,实体词识别准确率提高了4 %。相似文献

10.

一种语音识别中的环境自适应方法

韩纪庆《计算机工程与应用》2002,38(1):69-70,77

众所周知,训练和测试环境的不同严重影响了语音识别系统的性能。该文提出了一种新的测试环境自适应的方法,它能在测试进行过程中逐步地学得环境特征,而不需要事先获得测试环境的样本数据,从而改变了语音识别系统性能。相似文献

11.

基于聚类语言模型的生物文献检索技术研究

文健李舟军《中文信息学报》2008,22(1):61-66,122

近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题。这些问题在一些领域相关文献检索中显得尤其重要,比如大规模的生物文献检索。本文提出了一种新的基于聚类的主题语言模型方法进行生物文献检索,这主要包括两个方面工作,一是采用本体库中的概念表示文档,并在此基础上进行模糊聚类,把聚类的结果作为数据集中的主题,文档属于某个主题的概率由文档与聚类的模糊相似度决定。二是采用EM算法来估计主题产生项的概率。把上述方法集成到语言模型中就得到本文的语言模型。本文的语言模型能够准确描述项在不同主题中的分布概率,以及文档属于某个主题的概率,并且利用本体中概念部分地解决了同义词问题,而且项可以由不同的主题产生,这也能够部分解决词的多义问题。本文的方法在TREC 2004/05 Genomics Track数据集上进行了测试,与简单语言模型以及现有主题语言模型相比,检索性能得到一定的提高。相似文献

12.

基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 总被引：1，自引：2，他引：1

毛伟徐蔚然郭军《中文信息学报》2006,20(3):31-37

本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。相似文献

13.

盲人用计算机软件系统中的语音和自然语言处理技术 总被引：3，自引：0，他引：3

庄丽包塔朱小燕《中文信息学报》2004,18(4):73-79

本文介绍了智能技术与系统国家重点实验室开发的“北极光”盲人用计算机软件系统中涉及的语音和语言处理技术。该系统能够获取和分析需要反馈的屏幕信息,通过语音合成平台将其内容朗读出来,对用户进行语音提示;与汉语自动分词、语言模型等自然语言处理技术的结合,使系统能够进行汉字和盲文的转换,反馈信息可以通过盲文点显器输出,使用户能够摸读盲文点字来获取所需要的信息,用户也可以采用盲文输入法进行输入,输入结果可转换为汉字文本形式。相似文献

14.

基于监督学习的中文情感分类技术比较研究 总被引：6，自引：0，他引：6

唐慧丰谭松波程学旗《中文信息学报》2007,21(6):88-94

情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等因素对分类性能的影响更是亟待研究的问题。本文以n-gram以及名词、动词、形容词、副词作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,以中心向量法、KNN、Winnow、Nave Bayes和SVM作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验,并对实验结果进行了比较,对比结果表明: 采用BiGrams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。相似文献