共查询到17条相似文献,搜索用时 78 毫秒
1.
2.
最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。 相似文献
3.
4.
融合聚类触发对特征的最大熵词性标注模型 总被引:7,自引:0,他引:7
为解决传统HMM词性标注模型不能包含远距离词特征的问题,提出了形如“WA→WB/TB”的触发对来承载远距离词特征信息,并采用平均互信息量度对触发对特征进行选择.在最大熵框架下,将选择后的触发对特征加入到词性标注系统中.利用矢量空间模型提供的语义相似度计算功能进行词语聚类,聚类的结果和语义词典融合,建立聚类触发对特征用来解决触发词“%”的数据稀疏问题.实验结果表明,与HMM相比,融合了聚类触发对特征的最大熵模型标注错误率减少了34%. 相似文献
5.
6.
最大熵模型已成为自然语言处理领域中的研究热点,但由于熟语料库规模的限制,模型参数会出现稀疏现象,影响了模型的精确度.另外最大熵模型参数众多、计算量大,一个好的参数估计算法将会有效地提高模型的效率.实验证明,采用BLMVM算法的基于Gaussian prior平滑技术的最大熵模型具有出色的表现.基于以上认识,结合汉语自身的特点,设计了一个基于词和字特征的汉语词性自动标注系统,取得了较好的标注效果. 相似文献
7.
利用最大熵模型深入探讨了中文词性标注问题.针对低频词的性能差问题,在原有常用特征的基础上,提出了新颖的低频词特征,实验表明,低频词特征的添加能大幅度地提高低频词在测试集的标注准确率,在宾州树库2.0上的实验显示,其准确率从82.93提高到了87.54.在传统的基于句子的词性标注基础上,提出了基于篇章的词性标注,取得了不错的结果.最后,分析了词性标注结果对句法分析性能的影响,在宾州树库2.O上的实验显示,低频词特征和基于篇章的策略使得整个的词性标注准确率和句法分析F1值分别提高了0.60和O.97,说明了词性标注中低频词处理的重要性. 相似文献
8.
词性标注是自然语言理解中很长期的问题,但对于大词性标注集的词性标注,它的标注精度还很低.为此我们应用隐含马尔可夫方法(HMM)和最大熵方法对大词性标注集的词性标注问题进行了研究,并在此基础上提出了关于词性标注的最新方法--对数线性模型,以此来提高词性标注精度.此次实验分别在运用HMM模型时,提出了新的光滑算法;在运用最大熵模型上,集成了详细的局部和远距离的上下文特征信息;在对数线性模型中,集成了HMM模型和最大熵模型,并进行了对比.结果表明综合了多源信息的对数线性模型标注精度迭81.52%,取得了比传统的HMM模型更好的结果. 相似文献
9.
网络的发展导致大量不规则短语文本的产生,针对现有词性标注工具在层次分类体系标签语料上性能不佳的问题,提出一种基于最大熵的简单算法。引入一个新标记,结合从Wordnet和维基百科提取的2类特征,使性能得到提升。实验结果表明,系统在DMoz上的准确率达到93.77%。 相似文献
10.
基于特征的汉语词性标注模型 总被引:5,自引:0,他引:5
在隐马尔可夫模型的基础上提出了基于词汇特征的汉语词性标注模型.此模型不但考虑系统t时刻的状态(词类)对r l时刻的状态的影响,还把t时刻的观察(词)对t l时刻的状态的影响考虑进去,使模型更加精确.由于观察的数目较大,构造观察-状态转移概率矩阵的方法难以实用,于是给观察标以特征,并训练特征-状态转移概率矩阵,使概率矩阵占用较少的存储空间,实现了模型的精确和实用性的统一. 相似文献
11.
融合多特征的最大熵汉语命名实体识别模型 总被引:2,自引:0,他引:2
最大熵模型能有效整合多种约束信息,对于汉语命名实体识别具有很好的适用性,因此,将其作为基本框架,提出一种融合多特征的最大熵汉语命名实体识别模型,该模型集成局部与全局多种特征,同时为降低搜索空间并提高处理效率,而引入了启发式知识,基于SIGHAN 2008命名实体评测任务测试数据的实验结果表明,所建立的混合模式是一种组合统计模型与启发式知识的有效汉语命名实体识别模式,基于不同测试数据的实验说明,该方法针对不同测试数据源具有一致性. 相似文献
12.
语言模型中一种改进的最大熵方法及其应用 总被引:13,自引:0,他引:13
最大熵方法是建立统计语言模型的一种有效的方法,具有较强的知识表达能力.但是,在用现有的最大熵方法建立统计模型时存在计算量大的问题.针对这一问题,提出了一种改进的最大熵方法.该方法使用互信息的概念,通过Z-测试进行特征选择.将该方法应用于汉语的义项排歧中,实验表明,该算法具有较高的计算效率和正确率. 相似文献
13.
将最大熵模型引入到邮件过滤中,结合邮件的半结构化特性,给出改进的特征函数定义,形成邮件特征向量。在此基础上,构造出基于最大熵模型的邮件过滤系统的基本框架。实验结果表明,这种过滤方法在召回率、准确率等方面表现出了良好的性能。 相似文献
14.
基于特征选择和最大熵模型的汉语词义消歧 总被引:4,自引:0,他引:4
词义消歧是自然语言处理中一类典型的分类问题.在分类中,特征的选择至关重要.通常情况下,特征是由人工选择的,这就要求特征选取者对于待分类的问题本身和分类模型的特点有深刻的认识.分析了汉语词义消岐中特征模板对消歧结果的影响,在此基础上提出一套基于最大熵分类模型的自动特征选择方法,包括针对所有歧义词的统一特征模板选择和针对单个歧义词的独立特征模板优化算法.实验结果表明,使用自动选择的特征,不仅简化了特征模板,而且提高了汉语词义消歧的性能.与SemEval 2007:task #5的最好成绩相比,该方法分别在微平均值MicroAve(micro-average accuracy))和宏平均值MacroAve(macro-average accuracy))上提升了3.10%和2.96%. 相似文献
15.
16.