首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
藏文词性标注是藏文信息处理中非常重要的基础性问题,该文以最大熵模型为基本框架,根据藏文的构词特征及统计分析结果,定义并选取特征模板,研究了融合语言特征的最大熵藏文词性标注模型。实验结果表明,最大熵模型能够较好的处理藏文词性标注问题,音节特征可以显著提高藏文词性标注的效果,与基准系统相比使错误率降低了6.4%。  相似文献   

2.
最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。  相似文献   

3.
基于最大熵方法的汉语词性标注   总被引:5,自引:0,他引:5  
最大熵模型的应用研究在自然语言处理领域中受到关注,文中利用语料库中词性标注的上下文信息建立基于最大熵方法的汉语词性系统。研究的重点在于其特征的选取,因为汉语不同于其它语言,有其特殊性,所以特征的选取上与英语有差别。实验结果证明该模型是有效的,词性标注正确率达到97.34%。  相似文献   

4.
融合聚类触发对特征的最大熵词性标注模型   总被引:7,自引:0,他引:7  
为解决传统HMM词性标注模型不能包含远距离词特征的问题,提出了形如“WA→WB/TB”的触发对来承载远距离词特征信息,并采用平均互信息量度对触发对特征进行选择.在最大熵框架下,将选择后的触发对特征加入到词性标注系统中.利用矢量空间模型提供的语义相似度计算功能进行词语聚类,聚类的结果和语义词典融合,建立聚类触发对特征用来解决触发词“%”的数据稀疏问题.实验结果表明,与HMM相比,融合了聚类触发对特征的最大熵模型标注错误率减少了34%.  相似文献   

5.
蒙古文自动词性标注方面的研究工作较少,制约了对蒙古文的机器翻译、语法分析及语义分析等领域的深入研究。针对于此,提出了加入lookahead学习机制的基于历史模型的蒙古文自动词性标注方法。实验表明,加入lookahead学习机制的基于历史模型的蒙古文自动词性标注方法对蒙古文的未登录词、集内词、总体词自动词性标注的准确率分别达到了71.276 6%、99.148 2%、95.301 0%,说明此方法可以较好地进行蒙古文的自动词性标注。  相似文献   

6.
最大熵模型已成为自然语言处理领域中的研究热点,但由于熟语料库规模的限制,模型参数会出现稀疏现象,影响了模型的精确度.另外最大熵模型参数众多、计算量大,一个好的参数估计算法将会有效地提高模型的效率.实验证明,采用BLMVM算法的基于Gaussian prior平滑技术的最大熵模型具有出色的表现.基于以上认识,结合汉语自身的特点,设计了一个基于词和字特征的汉语词性自动标注系统,取得了较好的标注效果.  相似文献   

7.
利用最大熵模型深入探讨了中文词性标注问题.针对低频词的性能差问题,在原有常用特征的基础上,提出了新颖的低频词特征,实验表明,低频词特征的添加能大幅度地提高低频词在测试集的标注准确率,在宾州树库2.0上的实验显示,其准确率从82.93提高到了87.54.在传统的基于句子的词性标注基础上,提出了基于篇章的词性标注,取得了不错的结果.最后,分析了词性标注结果对句法分析性能的影响,在宾州树库2.O上的实验显示,低频词特征和基于篇章的策略使得整个的词性标注准确率和句法分析F1值分别提高了0.60和O.97,说明了词性标注中低频词处理的重要性.  相似文献   

8.
词性标注是自然语言理解中很长期的问题,但对于大词性标注集的词性标注,它的标注精度还很低.为此我们应用隐含马尔可夫方法(HMM)和最大熵方法对大词性标注集的词性标注问题进行了研究,并在此基础上提出了关于词性标注的最新方法--对数线性模型,以此来提高词性标注精度.此次实验分别在运用HMM模型时,提出了新的光滑算法;在运用最大熵模型上,集成了详细的局部和远距离的上下文特征信息;在对数线性模型中,集成了HMM模型和最大熵模型,并进行了对比.结果表明综合了多源信息的对数线性模型标注精度迭81.52%,取得了比传统的HMM模型更好的结果.  相似文献   

9.
潘炜  沈超 《计算机工程》2009,35(21):197-199
网络的发展导致大量不规则短语文本的产生,针对现有词性标注工具在层次分类体系标签语料上性能不佳的问题,提出一种基于最大熵的简单算法。引入一个新标记,结合从Wordnet和维基百科提取的2类特征,使性能得到提升。实验结果表明,系统在DMoz上的准确率达到93.77%。  相似文献   

10.
基于特征的汉语词性标注模型   总被引:5,自引:0,他引:5  
在隐马尔可夫模型的基础上提出了基于词汇特征的汉语词性标注模型.此模型不但考虑系统t时刻的状态(词类)对r l时刻的状态的影响,还把t时刻的观察(词)对t l时刻的状态的影响考虑进去,使模型更加精确.由于观察的数目较大,构造观察-状态转移概率矩阵的方法难以实用,于是给观察标以特征,并训练特征-状态转移概率矩阵,使概率矩阵占用较少的存储空间,实现了模型的精确和实用性的统一.  相似文献   

11.
融合多特征的最大熵汉语命名实体识别模型   总被引:2,自引:0,他引:2  
最大熵模型能有效整合多种约束信息,对于汉语命名实体识别具有很好的适用性,因此,将其作为基本框架,提出一种融合多特征的最大熵汉语命名实体识别模型,该模型集成局部与全局多种特征,同时为降低搜索空间并提高处理效率,而引入了启发式知识,基于SIGHAN 2008命名实体评测任务测试数据的实验结果表明,所建立的混合模式是一种组合统计模型与启发式知识的有效汉语命名实体识别模式,基于不同测试数据的实验说明,该方法针对不同测试数据源具有一致性.  相似文献   

12.
语言模型中一种改进的最大熵方法及其应用   总被引:13,自引:0,他引:13  
李涓子  黄昌宁 《软件学报》1999,10(3):257-263
最大熵方法是建立统计语言模型的一种有效的方法,具有较强的知识表达能力.但是,在用现有的最大熵方法建立统计模型时存在计算量大的问题.针对这一问题,提出了一种改进的最大熵方法.该方法使用互信息的概念,通过Z-测试进行特征选择.将该方法应用于汉语的义项排歧中,实验表明,该算法具有较高的计算效率和正确率.  相似文献   

13.
将最大熵模型引入到邮件过滤中,结合邮件的半结构化特性,给出改进的特征函数定义,形成邮件特征向量。在此基础上,构造出基于最大熵模型的邮件过滤系统的基本框架。实验结果表明,这种过滤方法在召回率、准确率等方面表现出了良好的性能。  相似文献   

14.
基于特征选择和最大熵模型的汉语词义消歧   总被引:4,自引:0,他引:4  
何径舟  王厚峰 《软件学报》2010,21(6):1287-1295
词义消歧是自然语言处理中一类典型的分类问题.在分类中,特征的选择至关重要.通常情况下,特征是由人工选择的,这就要求特征选取者对于待分类的问题本身和分类模型的特点有深刻的认识.分析了汉语词义消岐中特征模板对消歧结果的影响,在此基础上提出一套基于最大熵分类模型的自动特征选择方法,包括针对所有歧义词的统一特征模板选择和针对单个歧义词的独立特征模板优化算法.实验结果表明,使用自动选择的特征,不仅简化了特征模板,而且提高了汉语词义消歧的性能.与SemEval 2007:task #5的最好成绩相比,该方法分别在微平均值MicroAve(micro-average accuracy))和宏平均值MacroAve(macro-average accuracy))上提升了3.10%和2.96%.  相似文献   

15.
基于最大熵短语重排序模型的特征抽取算法改进   总被引:1,自引:0,他引:1  
该文针对统计机器翻译中基于最大熵短语重排序模型特征抽取算法,提出一种改进算法。该算法能够抽取出更多准确的短语重排序信息,特别是逆序短语的特征信息,解决了原算法中最大熵训练时特征数据不平衡的问题,提高了翻译中短语重排序的准确率。以NIST MT 05 作为汉语到英语翻译的测试集,实验结果表明改进后的系统BLEU值比原系统提高0.65%。  相似文献   

16.
基于最大熵模型的本体概念获取方法   总被引:1,自引:0,他引:1       下载免费PDF全文
本体是语义检索的核心。本体构建主要包括领域概念获取和概念间关系获取,其中领域概念获取是本体构建的基础。采用基于最大熵模型的方法来获取概念,通过对领域文本进行挖掘而得到名词性短语,使用改进的TF-IDF公式从中抽取具有领域性的短语,并经人工修正后得到本体概念。实验表明该方法提高了概念的准确性和完整性。  相似文献   

17.
句子主干分析的主要任务是自动识别句子的主干成分。鉴于汉语句子之间成分的相关性,提出一种多层最大嫡模型,它的底层最大嫡利用句子的上下文特征识别主千词候选项,高层最大嫡利用底层最大嫡模型的计算结果,结合句子内的远距离特征和句子之间的关系,对底层最大嫡模型识别出的主干词候选集进行分析。实验证明,该模型对于简单的主干成分识别正确率较高,对训练语料有一定的依赖;随着语料规模的增长,模型性能缓慢提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号