首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 62 毫秒
1.
基于最大熵方法的统计语言模型   总被引:2,自引:0,他引:2  
针对现有统计语言模型中存在计算量过大和系统负担过重的问题,该文提出了一种基于最大熵方法的统计语言模型。模型在参数估计阶段,引入约束最优化理论中拉格朗日乘数定理和牛顿迭代算法,以确保模型在多个约束条件中可求出最优化参数值;在特征选择阶段,采用计算近似增益的平行算法,解决模型计算量过大和系统开销问题。将该模型用于汉语句子分析的软件实验中表明:模型具有较高的计算效率和鲁棒性。  相似文献   

2.
基于最大熵模型的组块分析   总被引:39,自引:0,他引:39  
李素建  刘群  杨志峰 《计算机学报》2003,26(12):1722-1727
采用最大熵模型实现中文组块分析的任务.首先明确了中文组块的定义,并且列出了模型中所有的组块类型和组块标注符号.组块划分和识别的过程可以转化为对于每一个词语赋予一个组块标注符号的过程,我们可以把它作为一个分类问题根据最大熵模型来解决.最大熵模型的关键是如何选取有效的特征,文中给出了相关的特征选择过程和算法.最后给出了系统实现和实验结果.  相似文献   

3.
语言信息处理技术中的最大熵模型方法   总被引:6,自引:0,他引:6  
1 引言进行汉语处理时经常遇到的问题有:分词、词性标注、语法和语义分析等等。这些自然语言中的问题都可以形式化为分类问题,估计某一类y在上下文x中发生的概率,即p(y,x)。在汉语中上下文x的内容可以包括汉字、词、词性等,对于不同的任务上下文的内容也不同。这类问题可以采用统计建模的方法去处理。首先是采集大量样本进行训练,样本代表了该任务的知识和信息,选取样本的好坏确定了知识完整性的程度。然后建立一个统计模型,并把样本知识结合到模型中,来预测随机过程将来的行为。  相似文献   

4.
最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。  相似文献   

5.
基于最大熵方法的中英文基本名词短语识别   总被引:33,自引:2,他引:33  
使用了基于最大熵的方法识别中文基本名词短语。在开放语料Chinese TreeBank上,只使用词性标注,达到了平均87.43%/88.09%的查全率/准确率。由于,关于中文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别。在英文标准语料TREEBANKⅡ上,开放测试达到了93.31%/93.04%的查全率/准确率,极为接近国际最优水平。这既证明了此算法的行之有效,又表明该方法的语言无关性。  相似文献   

6.
基于最大熵模型的英文名词短语指代消解   总被引:11,自引:0,他引:11  
提出了一种新颖的基于语料库的英文名词短语指代消解算法,该算法不仅能解决传统的代词和名词/名词短语间的指代问题,还能解决名词短语间的指代问题。同时,利用最大熵模型,可以有效地综合各种互不相关的特征,算法在MUC7公开测试语料上F值达到了60.2%,极为接近文献记载的该语料库上F值的最优结果61.8%。  相似文献   

7.
基于最大熵模型的QA系统置信度评分算法   总被引:1,自引:0,他引:1  
游斓  周雅倩  黄萱菁  吴立德 《软件学报》2005,16(8):1407-1414
置信度指的是一个问题回答系统(QA系统)对其所作回答的自信程度.描述了一种基于最大熵模型的算法.首先,从训练语料中提取若干因素来训练最大熵模型;然后应用训练好的模型在测试集上计算置信度.在2002年度的文本检索会议(TREC)中,QA系统用该算法计算每个问题答案的置信度,并依此排序,获得了显著的成绩.  相似文献   

8.
实现了一个基于最大熵的中文指代消解系统。通过预处理获得相关信息,抽取出12特征,采用最大熵算法训练生成分类器。在ACE05 bnews中文测试语料上的指代消解实验结果表明,本系统是一个中文指代消解研究的较好平台。  相似文献   

9.
本文提出了一种基于最大熵马尔科夫模型的绩效评价方法.该方法采用马氏模型来定量化建模专家打分过程,采用特征函数表征打分规则,通过在训练集上最大化熵来获得符合专家经验的最优的打分模型.与传统方法相比,所提出的方法可以融合各种打分规则、专家经验和指标逻辑关系得到综合打分结果.为了提高模型的训练和打分的效率,本文提出了基于改进迭代算法的参数估计方法,并利用Viterbi算法进行快速打分计算.利用中国大洋协会绩效评价指标体系历史数据进行的仿真实验表明,与BP神经网络方法和最大熵方法进行对比,本文所提出的方法具有更高的打分正确率.  相似文献   

10.
基于最大熵方法的汉语词性标注   总被引:5,自引:0,他引:5  
最大熵模型的应用研究在自然语言处理领域中受到关注,文中利用语料库中词性标注的上下文信息建立基于最大熵方法的汉语词性系统。研究的重点在于其特征的选取,因为汉语不同于其它语言,有其特殊性,所以特征的选取上与英语有差别。实验结果证明该模型是有效的,词性标注正确率达到97.34%。  相似文献   

11.
句子主干分析的主要任务是自动识别句子的主干成分。鉴于汉语句子之间成分的相关性,提出一种多层最大嫡模型,它的底层最大嫡利用句子的上下文特征识别主千词候选项,高层最大嫡利用底层最大嫡模型的计算结果,结合句子内的远距离特征和句子之间的关系,对底层最大嫡模型识别出的主干词候选集进行分析。实验证明,该模型对于简单的主干成分识别正确率较高,对训练语料有一定的依赖;随着语料规模的增长,模型性能缓慢提升。  相似文献   

12.
Learning to Parse Natural Language with Maximum Entropy Models   总被引:5,自引:1,他引:5  
Ratnaparkhi  Adwait 《Machine Learning》1999,34(1-3):151-175
This paper presents a machine learning system for parsing natural language that learns from manually parsed example sentences, and parses unseen data at state-of-the-art accuracies. Its machine learning technology, based on the maximum entropy framework, is highly reusable and not specific to the parsing problem, while the linguistic hints that it uses to learn can be specified concisely. It therefore requires a minimal amount of human effort and linguistic knowledge for its construction. In practice, the running time of the parser on a test sentence is linear with respect to the sentence length. We also demonstrate that the parser can train from other domains without modification to the modeling framework or the linguistic hints it uses to learn. Furthermore, this paper shows that research into rescoring the top 20 parses returned by the parser might yield accuracies dramatically higher than the state-of-the-art.  相似文献   

13.
基于最大熵的依存句法分析   总被引:1,自引:0,他引:1  
该文提出并比较了三种基于最大熵模型的依存句法分析算法,其中最大生成树(MST)算法取得了最好的效果。MST算法的目标是在一个带有权重的有向图中寻找一棵最大的生成树。有向图的每条边都对应于一个句法依存关系,边的权重通过最大熵模型获得。训练和测试数据来源于CoNLL2008 Share Task的公用语料。预测的F1值在WSJ和Brown两个测试集上分别达到87.42%和80.8%,在参加评测单位中排名第6。  相似文献   

14.
庞宁  杨尔弘 《中文信息学报》2008,22(2):24-27,54
共指是突发事件新闻报道中的常见现象。良好的处理共指现象,是进行信息提取的基本必要过程。本文采用最大熵模型对汉语突发事件新闻报道中的共指现象进行消解,目的是提取出突发事件新闻报道中指向同一实体的名词、代词和名词短语。根据问题特点,算法选择了8类特征作为模型的特征,该模型在20万字的新闻语料上进行训练,在10万字规模的语料上进行测试,最终的测试得到系统的F值为64.5%。  相似文献   

15.
基于最大熵的句内时间关系识别   总被引:1,自引:0,他引:1       下载免费PDF全文
分别对句内事件-时间对关系以及事件对之间的时间关系识别进行研究。分析影响时间关系识别的语言特征,如时间关系对之间的依存关系序列、间隔词数、信号词及其位置等,并使用基于最大熵的方法进行识别。实验结果表明,运用该方法获得的事件-时间对关系识别准确率为87.83%,事件对之间的时间关系识别准确率为80.79%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号