共查询到16条相似文献,搜索用时 62 毫秒
1.
指代消解是自然语言处理领域中要研究的关键问题之一。在自然语言中,为了使语言简明,减少冗余,往往对同一意思的单词、句子或某一事件用不同的单词来代替。相对于人而言,计算机理解这些指代现象就比较困难,因此近年来关于指代消解的研究越来越多。由于中文指代消解研究起步较晚,因此关于中文名词短语指代消解的研究还比较少,大多研究是关于英文指代消解的。给出了一个基于SVM的中文名词短语指代消解平台并详细介绍了整个实现过程,语料库采用OntoNotes 3.0的中文新闻语料。利用3种评测算法对系统性能进行了评测,结果表明本系统是一个比较好的中文指代消解平台。 相似文献
2.
3.
韦丽红 《计算机光盘软件与应用》2013,(21):311-312
指代消解技术是自动文章的关键,介绍了指代消解的研究方式,分析了中文指代消解目前研究现状,并且详细阐述了语料库和所使用的此类标记,同时提出了名词短语识别和标记符号,分析了中文名词短语的确定与英文的不同,对中文指代消解的前期语料的处理和后期应用作了很好的介绍。 相似文献
4.
基于最大熵方法的中英文基本名词短语识别 总被引:33,自引:2,他引:33
使用了基于最大熵的方法识别中文基本名词短语。在开放语料Chinese TreeBank上,只使用词性标注,达到了平均87.43%/88.09%的查全率/准确率。由于,关于中文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别。在英文标准语料TREEBANKⅡ上,开放测试达到了93.31%/93.04%的查全率/准确率,极为接近国际最优水平。这既证明了此算法的行之有效,又表明该方法的语言无关性。 相似文献
5.
张惠春 《数字社区&智能家居》2009,(8)
中文名词短语识别在自然语言处理已经得到了广泛应用。该文首先对名词短语识别问题进行描述,然后利用最大熵模型建立名词短语识别系统,通过实验选取最大熵模型的特征,最后利用选取的特征进行名词短语识别,实验结果表明系统达到了较高的准确率和召回率。 相似文献
6.
指代是自然语言中一种常见的语言现象,对简化语言,减少冗余有很大的作用。指代消解是用计算机找出这些指代现象的一个过程。近几年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前还较少,一方面是由于中文自然语言处理的研究起步较晚,相关的知识较少,另外一方面就是中文相关的语料库较少,目前已知的仅有ACE2005, OntoNotes等。为了探讨语料库对中文名词短语指代消解的影响,该文实现了一个基于有监督学习方法的中文名词短语指代消解平台和一个基于无监督聚类方法的中文名词短语指代消解平台,在此平台的基础上从语料库的数量和质量两个方面来探讨语料对中文名词短语指代消解的影响。 相似文献
7.
8.
在统计机器翻译中融入有价值的句法层面的语言学知识,对于推动统计机器翻译的发展,具有重要的理论意义和应用价值。提出了三种由简到繁的把双语最大名词短语融入到统计翻译模型的策略,整体翻译性能逐步上升。Method-III采用“分而治之”的策略,以“硬约束”的方式在统计机器翻译中融入最大名词短语,并在双语最大名词短语层面上,融合了短语翻译模型和层次短语模型,对翻译系统的改善最显著。所述策略显著提高了短语翻译模型的质量,在复杂长句翻译中,Method-III的BLEU值比基于短语的基线翻译模型提高了3.03%。 相似文献
9.
最大熵方法在英语名词短语识别中的应用研究 总被引:1,自引:0,他引:1
研究英语名词短语识别不仅是句法分析的基本问题,而且是进行机器翻译的基础.针对英语名词短语传统识别算法存在速度慢,效率低的难题,为提高识别准确率,提出一种基于最大熵原理的英语基本名词短语识别方法.首先综合考虑英语短语结构特性和上下文的位置来建立特征集模板.采用改进的频次和平均互信息相结合方法提取有效特征,表示为最大熵模型形式,最大熵原理完成最后的识别过程.对Penn Treebank语料库中的英语名词短语进行仿真,证明改进方法对短语识别正确率和召回率均达90%以上,远远高于传统方法的识别率,是一种简单、快速、高效的英语名词短语识别方法. 相似文献
10.
11.
共指是突发事件新闻报道中的常见现象。良好的处理共指现象,是进行信息提取的基本必要过程。本文采用最大熵模型对汉语突发事件新闻报道中的共指现象进行消解,目的是提取出突发事件新闻报道中指向同一实体的名词、代词和名词短语。根据问题特点,算法选择了8类特征作为模型的特征,该模型在20万字的新闻语料上进行训练,在10万字规模的语料上进行测试,最终的测试得到系统的F值为64.5%。 相似文献
12.
一种基于图划分的无监督汉语指代消解算法 总被引:4,自引:2,他引:4
指代消解是自然语言处理领域中的一个重要问题。针对当前中文指代标注训练语料非常缺乏的现状,本文提出一种无监督聚类算法实现对名词短语的指代消解。引入图对名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并引入一个有效的模块函数实现对图的自动划分,使得指代消解过程并不是孤立地对每一对名词短语分别进行共指决策,而是充分考虑了多个待消解项之间的相关性,并且避免了阈值选择问题。通过在ACE中文语料上的人称代词消解和名词短语消解实验结果表明,该算法是一种有效可行的无监督指代消解算法。 相似文献
13.
Knowledge of noun phrase anaphoricity might be profitably exploited in coreference resolution to bypass the resolution of non-anaphoric noun phrases.However,it is surprising to notice that recent attempts to incorporate automatically acquired anaphoricity information into coreference resolution systems have been far from expectation.This paper proposes a global learning method in determining the anaphoricity of noun phrases via a label propagation algorithm to improve learning-based coreference resolutio... 相似文献
14.
事件作为文本信息的关键语义组件,对篇章的理解具有重要意义。由于事件具有自身包含信息丰富、表达方式多样,以及在文本中分布稀疏等特点,使得事件指代消解成为自然语言处理领域的一个难点任务。在以往的事件指代消解任务中,多借助人工提取词匹配和句法结构等信息,再基于这些抽取的特征进行消解,然而这些特征并不能有效地处理具有复杂语义的事件任务。该文提出一种端到端的神经网络模型,通过多种词表征、双向循环神经网络和注意力机制来学习上下文的语义内容,从而完成事件的指代消解任务。在KBP2015、2016数据集上进行的事件指代消解实验验证了该文给出模型的有效性。实验结果表明,该神经网络模型能很好地理解文本语义信息,捕捉关键单词,提高事件指代消解任务的性能,最终端到端的事件指代消解性能在CoNLL评测标准下达到39.9%的F1值。 相似文献
15.
16.
基于最大熵模型的韵律短语边界预测 总被引:7,自引:3,他引:7
语音合成系统中,由于韵律短语边界预测的水平不高,阻碍了合成语音自然度的进一步提高。本文根据韵律短语边界预测的特点,提出了基于最大熵模型的预测方法。为考察该方法的能力,在较大规模的数据集上,使用相同的属性集,对比了其与主流的决策树方法的预测效果。还考察了词面信息的贡献,以及选择特征时的不同阈值对最大熵模型的影响。实验表明,使用相同的属性信息,最大熵方法比传统的决策树方法在F-Score上有5.5%的提高,加入了词面信息的最大熵模型则有9.4%的提高。最后指出,最大熵模型相当于一个带权重的规则系统,可以很好的解决规则冲突问题。 相似文献