首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
事件检测与分类是事件抽取的关键环节,触发词抽取是完成事件检测与分类的主流方法。提出了一种事件触发词抽取方法,该方法针对单一触发词抽取方法没有充分利用依存句法分析信息且召回率不高的问题,通过综合利用依存句法分析信息和其他信息抽取触发词-实体描述对的方法来提高触发词抽取的召回率,然后将触发词-实体描述对抽取结果与单一触发词抽取结果相融合以避免召回率提高所带来的准确率下降问题。在ACE2005中文语料上进行实验,该方法在事件检测与分类任务中取得较好效果,F值分别达到了69.0%和66.2%。  相似文献   

2.
该文从中文信息处理角度对动宾型离合词自动识别进行研究。通过分析离合词在实际语料中的使用特点以及离合词离析成分在大规模语料库中的表现形式,从离合词内部入手,形式化地表示离合词的离析形式,总结自动识别的规则,设计基于规则的自动识别算法。经过优化后,该算法在20亿字的语料中达到了91.6%的正确率。离合词语素构词能力强,分词与词性标注错误,规则的不完整性,语料本身的错误,以及人工标注的疏漏等是影响实验结论的主要因素。  相似文献   

3.
事件结构性语法特征与事件语义特征各有优势,二者融合利于准确表征事件触发词,进而有利于完成事件触发词抽取任务。现有的基于特征、基于结构及基于神经网络模型等的抽取方法仅能捕捉事件的部分特征,不能够准确表征事件触发词。为解决上述问题,提出一种融合了事件结构性语法特征和事件语义特征的混合模型,完成事件触发词抽取任务。首先,在初始化向量模型中融入句子的依存句法信息,使初始向量中包含事件结构性语法特征;然后,将初始向量依次传入神经网络模型中的CNN和BiGRU-E-attention模型中,在捕获多维度事件语义特征的同时,完成事件结构性语法特征与事件语义特征的融合;最后,进行事件触发词的抽取。在CEC中文突发语料库上进行事件触发词位置识别和分类实验,该模型的F值较基准模型的分别提高了0.86%和4.07%;在ACE2005英文语料库上,该模型的F值较基准模型的分别提高了1.4%和1.5%。实验结果表明,混合模型在事件触发词抽取任务中取得了优异的效果。  相似文献   

4.
中文事件触发词的自动抽取研究*   总被引:1,自引:0,他引:1  
随着自然语言处理领域中信息抽取技术的不断发展,越来越多的学者开始关注事件的识别和抽取研究,其中触发词的识别和抽取是事件识别和抽取的关键。针对目前中文触发词抽取结果的 F值不够理想的情况,选用中文事件语料库C EC语料作为训练语料和测试语料,提出了一种基于触发词扩展表和机器学习相结合的触发词抽取方法,实验表明,该方法抽取效果比较理想,F值可达到69.7%。  相似文献   

5.
事件抽取是信息抽取的主要任务之一,而触发词抽取是事件抽取的重要子任务.事件要素与事件触发词之间存在关联信息,现有的事件触发词抽取方法主要关注事件触发词本身,没有充分的利用事件要素信息.因此,提出一种事件要素注意力与编码层融合的事件触发词抽取模型,能够有效地利用事件要素信息,提高触发词抽取性能.通过事件要素与事件触发词之间的相关性来显示利用事件要素信息,同时利用编码层的多头自注意力机制间接学习事件要素与事件触发词之间的依赖关系,并将两个方法得到的输出向量进行处理,作为特征送入到编码层中进行训练.此外,通过词特征模型获取语义信息.该方法在ACE2005英文语料上对事件触发词抽取的F值达到71.95%.  相似文献   

6.
基于神经网络的触发词抽取模型利用实体信息判别触发词,但大量无关实体会影响触发词抽取效果。提出一种借助局部实体特征的事件触发词抽取方法,该方法先初步过滤无关实体,并将保留实体分为核心与非核心2类分别进行建模。利用卷积神经网络(CNN)抽取局部特征的特性,从众多实体中定位有助于触发词识别的局部重要实体,采用注意力机制提高其权重,同时利用有效非核心实体的语义排除干扰实体,从而借助重要实体的特征信息判别触发词。在特定和通用领域事件语料库上的实验结果均表明,该方法能够减少无关实体对触发词抽取的干扰,其触发词抽取性能的F1值比基准系统最高可提升0.017。  相似文献   

7.
《软件》2017,(6):62-65
如何从大量信息中获取事件已成为关注的焦点,因此事件识别也就越来越重要。传统对于事件抽取采用字典和机器学习方法,字典包含触发词数量有限,机器学习需要大量语料和众多特征。针对传统方法的不足,提出了基于词向量和依存分析的方法。该方法利用word2vec模型找到触发词的大量同义词来进行对触发词的扩展,利用依存分析可以发现词与词间的依赖性从而为分类提供特征。最后通过实验进行验证,实验结果表明,该方法是可行的,并且在事件识别和事件要素抽取方面取得了较好结果。  相似文献   

8.
陈斌  周勇  刘兵 《计算机工程》2019,45(1):153-158
传统事件触发词抽取方法在特征提取过程中过分依赖自然语言处理工具,容易造成误差累积。为解决该问题,在卷积双向长短期记忆网络的基础上,提出一种事件触发词抽取方法。通过卷积操作提取单词上下文语境信息,同时利用长短期记忆网络保留句子级别特征,从而提高事件触发词的抽取性能。在ACE2005英文语料上的实验结果表明,该方法在事件触发词识别与分类阶段的F值达到69. 5%,具有较好的抽取性能。  相似文献   

9.
语音发音系统中,多音字的发音一直以来都是个难题。文章针对多音字中出现的一种远距离约束词语-离合词进行了研究,以此来关联多音字的发音。考虑到离合词的特点,提出了触发对的概念,然后用互信息来计算词语的相关度以此对多音字进行读音消歧,实验结果表明,从词语约束层面来考虑多音字对多音离合词的发音有很好的效果。  相似文献   

10.
生物事件抽取是生物文本挖掘领域的一个重要分支,而触发词识别作为事件抽取的重要子过程,已经吸引了众多的关注。现有的触发词识别方法多为浅层的一阶段方法,训练代价较大,且需要丰富的领域知识抽取大量特征,人工成本较高。因此,该文提出了一种基于两阶段和双向LSTM神经网络的触发词识别方法。首先,将触发词识别分为识别和分类两个阶段,有效地缓解了训练过程中存在的类不平衡问题;其次,在两个阶段中均采用目前性能较好的双向LSTM神经网络来完成二分类任务和多分类任务,避免了浅层机器学习方法抽取人工特征时的代价。此外,利用PubMed数据库下载大规模语料训练带有依存关系的词向量,获得了更加丰富的语义信息,从而有效地提高了触发词的识别性能。该文方法在生物事件抽取通用语料MLEE上已获得目前最好抽取性能,F值为78.46%。  相似文献   

11.
为了解决现有启发式日志解析方法中日志特征表示区分能力不足导致解析精度低、泛化差的问题,提出了一种启发式在线日志解析方法PosParser。该方法使用来源于触发词概念的功能词序列作为特征表示,包含解决复杂日志易过度解析问题的两阶段检测方法和处理变长参数日志的后处理流程。PosParser在16个真实日志数据集上取得了0.952的平均解析准确率,证明了功能词序列具有良好区分性、PosParser有良好的解析效果和鲁棒性。  相似文献   

12.
情感原因对抽取是情感分析任务中的子任务,旨在抽取出给定文档中的所有情感子句以及引起该情感所对应的原因子句。先前的研究在生成情感子句与原因子句表示时忽略了情感子句与原因子句之间的相互联系。为了解决上述问题,基于图依存分析的思想并融入了图注意力机制,提出了GAT-ECPE模型。该模型在获取到情感子句表示与原因子句表示时,将句向量作为节点输入图注意力层从而学习到子句之间关系的信息,而后进行双仿射映射得到情感原因对的编码表示。并且设置了多任务来将情感抽取与原因抽取任务建立联系。在ECPE数据集上的实验结果证明,本文模型相较于先前的一系列模型,在评估指标上有所提升。  相似文献   

13.
依存分析和HMM相结合的信息抽取方法   总被引:1,自引:0,他引:1  
信息抽取是文本信息处理的一个重要环节,当前的信息抽取研究工作大多针对半结构化的文本。针对自由文本,提出一种依存分析和HMM相结合的文本信息抽取算法,该算法在运用依存分析对句子进行浅层句法分析的基础上制定相应规则,形成输入序列,结合HMM易于建立、适应性好、抽取精度较高的优势,实现自由文本的信息抽取。实验结果表明,新的算法在召回率、准确率和正确率指标上均有良好的性能,说明了算法的有效性,为文本信息的抽取提供了新思路。  相似文献   

14.
基于句法语义依存分析的中文金融事件抽取   总被引:2,自引:0,他引:2  
事件抽取在自然语言处理应用中扮演着重要的角色,如股票市场趋势预测.传统事件抽取较为关注触发词和论元所属类型的正确性,较少地结合应用需求去分析研究事件抽取效果及使用价值.在财经领域,事件作用对象及动作是关注的重点.因此,本文聚焦于金融事件,抽取三元组事件ET(Sub,Pred,Obj).在中文财经新闻中,存在大量事件嵌套...  相似文献   

15.
某些“基数词+时间单位词”组成的中文时间表达式在不同语境中可能表现为时点式,也可能表现为时段式。为自动判定中文时间表达式的类型,提出一种基于依存分析的判定方法。该方法首先借助依存分析考察中文时间表达式在句中所受的句法约束,然后将这些约束转化为具有可计算性的依存规则,最后利用依存规则对中文时间表达式的类型进行判定。实验结果显示,在此方法中,时间表达式确认的正确率、召回率、F值分别达到82.3%、88.1%和85.1%;时间表达式类型判定的正确率、召回率、F值分别达到77.1%、82.5%和79.7%。  相似文献   

16.
针对目前已有的文本分类方法未考虑文本内部词之间的语义依存信息而需要大量训练数据的问题,提出基于语义依存分析的图网络文本分类模型TextSGN。首先对文本进行语义依存分析,对语义依存关系图中的节点(单个词)和边(依存关系)进行词嵌入和one-hot编码;在此基础上,为了对语义依存关系进行快速挖掘,提出一个SGN网络块,通过从结构层面定义信息传递的方式来对图中的节点和边进行更新,从而快速地挖掘语义依存信息,使得网络更快地收敛。在多组公开数据集上训练分类模型并进行分类测试,结果表明,TextSGN模型在短文本分类上的准确率达到95.2%,较次优分类法效果提升了3.6%。  相似文献   

17.
句子相似度计算是自然语言处理的重要研究内容。运用自然语言处理的概念层次网络(HNC)理论和依存句法理论提出一种句子相似度的计算方法。该方法认为句子的相似度是由词语的语义相似度和句法结构相似度共同决定的,利用HNC理论词汇层面联想的概念表述体系来计算词语之间的相似度,利用依存句法理论来获取句子中词语的词语搭配和构成特征,与现有典型的句子相似度算法和人工判断进行了比较。实验结果表明,该方法能够较好地反应句子之间的语义差别,是一种可行有效的方法。  相似文献   

18.
为了解决用户评论文本中的产品特征-观点对的提取及情感分析问题,本文利用组块分析提取产品特征,从中寻找到频繁项集,并用PMI对候选产品特征进行过滤,得到产品的特征集合;利用特征与情感词在位置上的邻接关系,提取情感词并组成特征-观点对,通过SO-PMI方法进行情感倾向分析。为验证该方法的有效性,以酒店评论文本为例,从中提取酒店的特征-观点对并进行情感分析,准确率为76.68%,召回率为70.84%。实验结果表明引入组块分析可以有效的解决商品评论的细粒度情感分类问题。  相似文献   

19.
梳理了汉语语法学界对“句式”这一术语的认识分歧;从中文信息处理角度分析了当前本领域句法分析和树库构建缺乏句式结构的现状;对黎氏语法形式化研究作了一个最新的综述,指出其在句式结构方面的优势和仍存在的不足;以黎氏语法图解法为原型改造设计出一种新型的汉语图解析句法,具体包括图形化的句法结构表示和结构化的XML存储格式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号