首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 453 毫秒
1.
指代消解中语义角色特征的研究   总被引:1,自引:0,他引:1  
该文实现了一个基于机器学习的指代消解平台,并在此基础上着重研究了语义角色特征对指代消解的影响。该文使用ASSERT语义角色标注系统得到语义角色标注信息,然后在原型系统的基础上加入语义角色特征。为了分析语义角色特征对指代消解的影响,该文还分析了语义角色特征和指代链特征以及代词细化特征的结合对系统的影响。通过把先行语和照应语在句子中所作的语义角色特征加入机器学习系统中进行研究,该文发现语义角色特征能够显著提高系统的性能,特别是对代词的消解有很好的效果。在ACE 2003 NWIRE基准语料上的所有类型名词短语的指代消解测试表明,召回率提高了3.4%,F值提高了1.8%。  相似文献   

2.
事件作为文本信息的关键语义组件,对篇章的理解具有重要意义。由于事件具有自身包含信息丰富、表达方式多样,以及在文本中分布稀疏等特点,使得事件指代消解成为自然语言处理领域的一个难点任务。在以往的事件指代消解任务中,多借助人工提取词匹配和句法结构等信息,再基于这些抽取的特征进行消解,然而这些特征并不能有效地处理具有复杂语义的事件任务。该文提出一种端到端的神经网络模型,通过多种词表征、双向循环神经网络和注意力机制来学习上下文的语义内容,从而完成事件的指代消解任务。在KBP2015、2016数据集上进行的事件指代消解实验验证了该文给出模型的有效性。实验结果表明,该神经网络模型能很好地理解文本语义信息,捕捉关键单词,提高事件指代消解任务的性能,最终端到端的事件指代消解性能在CoNLL评测标准下达到39.9%的F1值。  相似文献   

3.
基于中心理论的指代消解研究   总被引:1,自引:1,他引:0  
系统分析了在中心理论指导下语义角色在指代消解中的应用.首先使用性能良好的语义角色标注工具AS-SERT自动进行语义角色的识别,然后将识剐出的语义角色信息与代词类别特征相组合进行指代消解.以中心理论为基础来表示、使用语义角色信息.从ACE 2003语料库上的实验结果可以看到,引入语义角色后,与基准系统相比,系统的F值提高了2.2%.特别是代词的指代消解,从实验结果可以看到,性能得到了大大提升.  相似文献   

4.
张江  田生伟  禹龙 《计算机仿真》2020,37(4):255-259
提出了一种利用CNN_BiLSTM双重通道模型的维吾尔语名词短语指代消解。利用包含维语语言特点的Hand-crafted特征初步筛选先行语和照应语,减少不必要的负例,然后使用wordembedding将先行语和照应语向量化,并作为CNN_BiLSTM双重通道模型的输入,使用双通道模型提取空间语义特征和时间语义特征。两种特征融合之后训练softmax分类器,最终完成指代消解任务。上述方法在维吾尔语名词短语指代消解任务中的准确率为84.3召回率为78.1,F1值为81。实验结果表明,充分利用CNN和BiLSTM分别提取时间和空间双重特征的,可以有效提高维吾尔语名词短语指代消解的性能。  相似文献   

5.
针对维吾尔语名词短语指代现象,提出了一种利用栈式自编码深度学习算法进行基于语义特征的指代消解方法.通过对维吾尔语名词短语指称性的研究,提取出利于消解任务的13项特征.为提高特征对文本语义的表达,在特征集中引入富含词汇语义及上下文位置关系的Word embedding.利用深度学习机制无监督的提取隐含的深层语义特征,训练Softmax分类器进而完成指代消解任务.该方法在维吾尔语指代消解任务中的准确率为74.5%,召回率为70.6%,F值为72.4%.实验结果证明,深度学习模型较浅层的支持向量机更合适于本文的指代消解任务,对Word embedding特征项的引入,有效地提高了指代消解模型的性能.  相似文献   

6.
以基于机器学习的指代(Anaphora)消解平台为基础,研究代词待消解项识别问题.挖掘能区分代词是否为待消解项的特征集,总结归纳具有规律的代词待消解项的句法结构,使用机器学习的方法将二者结合生成代词待消解项过滤器并将其加入到代词指代消解平台.在ACE2003基准语料上测试过滤器自身性能及对代词指代消解的贡献.实验表明过滤器具有较高的准确率,能明显地提高代词指代消解系统的性能.  相似文献   

7.
与传统新闻文本相比,交互式问答中蕴含着更为丰富的语言现象。在传统的针对新闻文本的指代消解方案的基础上,融入了交互式问答特有的特征集,给出了一个适于交互式问答文本的指代消解方案。具体而言,基于浅层语义角色分析的结果进行话语结构的识别,根据识别出的话语结构进行话语中心及中心跳转的识别。将获取到的话语中心及跳转信息组织成交互式文本特有的特征集,使用交互式问答领域广泛使用的TREC2004和TREC2007的评测语料进行指代消解的实验,结果表明给出的方案能大大提高交互式问答文本中指代消解的性能,系统F值提高了3.2%。  相似文献   

8.
基于指代消解的中文事件融合方法   总被引:1,自引:0,他引:1  
事件抽取是信息抽取领域的一个重要的研究方向.针对事件抽取获得的信息不完整和语义不明确的特点,在此基础上引入指代消解和信息融合理论,通过事件元素归一化和互指事件的合并,在数据和特征两个层次上对事件信息进行融合,进一步明确和完善事件信息,并在不损失信息的情况下精简整个信息系统的信息量.在裁员事件的融合实验中正确率达到86.9%.  相似文献   

9.
语义角色标注和指代消解是自然语言处理中两个重要的基础研究任务,该文提出使用马尔科夫逻辑网络对两个任务进行联合学习推导。通过提出8条联合学习规则,在OntoNote5.0的实验中证明采用联合学习推导后,两者的标注性能都比单独标注任务有了1.6个F值的性能提升。  相似文献   

10.
针对维吾尔语零指代现象,提出采用栈式降噪自编码的深度学习机制进行维吾尔语零指代消解。首先由大规模无标注维吾尔语语料训练得到富含语义和句法信息的词嵌入表示,将其作为候选先行语和缺省零代词的语义特征;其次根据维吾尔语语言特点,抽取14项针对零指代消解任务的手工设计特征;然后融合word embedding特征和14项hand-crafted特征作为栈式降噪自编码的输入,最后经过无监督逐层贪婪的预训练和有监督的微调过程,使用softmax进行分类完成维吾尔语零指代消解任务。实验结果表明,与传统栈式自编码、浅层机器学习的支持向量机和人工神经网络相比,栈式降噪自编码的F值分别提高了4.450%、10.032%和8.140%,实验结果验证了该方法的有效性及栈式降噪自编码在任务中具备挖掘高层面鲁棒性语义特征的优势。  相似文献   

11.
名词短语识别在句法分析中有着重要的作用,而英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。研究英语功能名词短语的自动识别,则将名词短语的结构消歧问题转化成名词短语的识别问题。基于名词短语在小句中的语法功能来确定名词短语的边界,选择商务领域语料,采用了细化词性标注集和条件随机域模型结合语义信息的方法,识别了名词短语的边界和句法功能。在预处理基于宾州树库细化了词性标注集,条件随机域模型中加入语义特征主要用来识别状语类的名词短语。实验结果表明,结合金标准词性实验的F值达到了89.04%,改进词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。将功能名词短语识别信息应用到NiuTrans统计机器翻译系统,英汉翻译质量略有提高。  相似文献   

12.
针对基于机器学习的中文共指消解中不同类别名词短语特征向量的使用差异,提出一种基于特征分选策略的方法。该方法在选择特征向量时对人称代词和普通名词短语分别处理,充分利用不同名词短语的已有特征进行共指消解,并减少部分无效特征在共指消解过程中产生的“噪声”。实验结果表明,该中文共指消解方法能提高共指消解的性能, 值达到80.72%。  相似文献   

13.
汉语复合名词短语因其使用范围广泛、结构独特、内部语义复杂的特点,一直是语言学分析和中文信息处理领域的重要研究对象。国内关于复合名词短语的语言资源极其匮乏,且现有知识库只研究名名复合形式的短语,包含动词的复合名词短语的知识库构建仍处于空白阶段,同时现有的复合名词短语知识库大部分脱离了语境,没有句子级别的信息。针对这一现状,该文从多个领域搜集语料,建立了一套新的语义关系体系,标注构建了一个具有相当规模的带有句子信息的基本复合名词语义关系知识库。该库的标注重点是标注句子中基本复合名词短语的边界以及短语内部成分之间的语义关系,总共收录27 007条句子。该文对标注后的知识库做了详细的计量统计分析。最后基于标注得到的知识库,使用基线模型对基本复合名词短语进行了自动定界和语义分类实验,并对实验结果和未来可能的改进方向做了总结分析。  相似文献   

14.
最长名词短语携带着丰富的句法和语义信息,经常与句法成分对应,在句子中充当一定的语义角色。最长名词短语识别在自然语言处理中占重要地位,是分析和理解句子结构、意义的基础。该文通过梳理不同概念的最长名词短语的含义,从句法树角度界定了藏语最长名词短语的基本概念;从句法树库中抽取6 038个句子,分析了最长名词短语的结构类型、边界特征和出现频次,最后采用序列标注模型和句法分析模型对最长名词短语进行识别。序列标注模型识别结果的正确率、召回率和F1值分别为87.14%、84.72%、85.92%。句法分析模型识别结果的正确率、召回率、F1值分别为85.02%、84.51%、84.76%。  相似文献   

15.
An information retrieval system has to retrieve all and only those documents that are relevant to a user query, even if index terms and query terms are not matched exactly. However, term mismatches between index terms and query terms have been a serious obstacle to the enhancement of retrieval performance. In this article, we discuss automatic term normalization between words and phrases in text corpora and their application to a Korean information retrieval system. We perform three new types of term normalizations: transliterated word normalization, noun phrase normalization, and context-based term normalization. Transliterated words are normalized into equivalence classes by using contextual similarity to alleviate lexical term mismatches. Then, noun phrases are normalized into phrasal terms by segmenting compound nouns as well as normalizing noun phrases. Moreover, context-based terms are normalized by using a combination of mutual information and word context to establish word similarities. Next, unsupervised clustering is done by using the K-means algorithm and cooccurrence clusters are identified to alleviate semantic term mismatches. These term normalizations are used in both the indexing and the retrieval system. The experimental results show that our proposed system can alleviate three types of term mismatches and can also provide the appropriate similarity measurements. As a result, our system can improve the retrieval effectiveness of the information retrieval system.  相似文献   

16.
事件检测主要研究从非结构化文本中自动识别事件触发词,实现所属事件类型的正确分类。与英文相比,中文需要经过分词才能利用词汇信息,还存在“分词-触发词”不匹配问题。针对中文语言特性与事件检测任务的特点,本文提出一种基于多词汇特征增强的中文事件检测模型,通过外部词典为字级别模型引入包含多词汇信息的词汇集,以利用多种分词结果的词汇信息。同时采用静态文本词频统计与自动分词工具协同决策词汇集中词汇的权重,获取更加精确的词汇语义。在ACE2005中文数据集上与现有模型进行实验对比分析,结果表明本文方法取得了最好的性能,验证了该方法在中文事件检测上的有效性。  相似文献   

17.
基于树核函数的实体语义关系抽取方法研究   总被引:5,自引:2,他引:3  
该文描述了一种改进的基于树核函数的实体语义关系抽取方法,通过在原有关系实例的结构化信息中加入实体语义信息和去除冗余信息的方法来提高关系抽取的性能。该方法在最短路径包含树的基础上,首先加入实体类型、引用类型等与实体相关的语义信息,然后对树进行裁剪,去掉修饰语冗余和并列冗余信息,并扩充所有格结构,最后生成实体语义关系实例。在ACE RDC 2004基准语料上进行的关系检测和7个关系大类抽取的实验表明,该方法在较大程度上提高了实体语义关系识别和分类的效果,F值分别达到了79.1%和71.9%。  相似文献   

18.
事件抽取是信息抽取的主要任务之一,而触发词抽取是事件抽取的重要子任务.事件要素与事件触发词之间存在关联信息,现有的事件触发词抽取方法主要关注事件触发词本身,没有充分的利用事件要素信息.因此,提出一种事件要素注意力与编码层融合的事件触发词抽取模型,能够有效地利用事件要素信息,提高触发词抽取性能.通过事件要素与事件触发词之间的相关性来显示利用事件要素信息,同时利用编码层的多头自注意力机制间接学习事件要素与事件触发词之间的依赖关系,并将两个方法得到的输出向量进行处理,作为特征送入到编码层中进行训练.此外,通过词特征模型获取语义信息.该方法在ACE2005英文语料上对事件触发词抽取的F值达到71.95%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号