首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
基于双层模型的维吾尔语突发事件因果关系抽取   总被引:1,自引:0,他引:1  
针对传统事件因果关系识别覆盖范围小和人工标注代价高等不足,提出了一种基于双层模型的维吾尔语突发事件因果关系抽取方法. 该方法采用分治思想,将因果关系抽取问题转化为对事件序列的两次模式识别标注. 采用Bootstrapping算法,在第一次模式识别时,标注因果关系的语义角色,并将标注的语义角色标签作为新的特征传递给第二层模式识别,用于因果关系边界标注. 该方法用于维吾尔语突发事件显式因果关系的抽取准确率为85.39%,召回率为77.53%,证明了本文提出的方法在维吾尔语主题突发事件因果关系抽取上的有效性和实用性.  相似文献   

2.
传统的事件因果关系抽取方法只能覆盖文本中的部分显式因果关系。针对这种不足,提出一种基于层叠条件随机场模型的事件因果关系抽取方法。该方法将事件因果关系的抽取问题转化为对事件序列的标注问题,采用层叠(两层)条件随机场标注出事件之间的因果关系。第一层条件随机场模型用于标注事件在因果关系中的语义角色,标注结果传递给第二层条件随机场模型用于识别因果关系的边界。实验表明,本文方法不仅可以覆盖文本中的各类显式因果关系,并且均能取得较好的抽取效果,总体抽取效果的F1值达到85。3%。  相似文献   

3.
结合对维吾尔语语言的特点分析,该文提出一种基于深度卷积神经网络(deep convolutional neural networks,DCNNs)联合长短期记忆网络(long-short term memory,LSTM)实现的维吾尔语文本突发事件识别方法。该方法提取突发事件包含六大特征块,并在特征集中引入富含词汇语义及上下文位置关系的Word Embedding,利用DCNNs对黏着性语言特征抽象化的学习能力抽取事件句中的高阶局部特征,以此作为LSTM网络的输入,利用其对于事件句中抽象含义序列关系的捕获特性获取全局特征,训练 Softmax分类器完成维吾尔语突发事件的识别任务。该方法在维吾尔语突发事件识别中的准确率达到80.60%,召回率81.39%,F值80.99%。实验结果表明,与不同层数的DCNNs和独立的LSTM网络相比,DCNNs-LSTM模型更具备挖掘隐含上下文深层语义信息的能力,对Word Embedding特征项的引入有效地提高了模型识别性能。  相似文献   

4.
定义抽取是从非结构化文本中自动识别定义句的任务,定义抽取问题可建模为句子中术语及相应定义的序列标注问题,并利用标注结果完成抽取任务。针对传统的定义抽取方法在抽取定义特征过程中费时且容易造成错误传播的不足,提出一个基于双向长短时记忆(BiLSTM)的序列标注神经网络模型,对输入文本进行自动化定义抽取。通过将原始数据输入到BiLSTM神经网络中,完成输入句的特征表示,并采用基于LSTM的解码器进行解码得到标注结果。在Wikipedia英文数据集上的实验结果表明,该方法的精确率、召回率和F1值分别为94.21%、90.10%和92.11%,有效提升了基准模型效果。  相似文献   

5.
事件结构性语法特征与事件语义特征各有优势,二者融合利于准确表征事件触发词,进而有利于完成事件触发词抽取任务。现有的基于特征、基于结构及基于神经网络模型等的抽取方法仅能捕捉事件的部分特征,不能够准确表征事件触发词。为解决上述问题,提出一种融合了事件结构性语法特征和事件语义特征的混合模型,完成事件触发词抽取任务。首先,在初始化向量模型中融入句子的依存句法信息,使初始向量中包含事件结构性语法特征;然后,将初始向量依次传入神经网络模型中的CNN和BiGRU-E-attention模型中,在捕获多维度事件语义特征的同时,完成事件结构性语法特征与事件语义特征的融合;最后,进行事件触发词的抽取。在CEC中文突发语料库上进行事件触发词位置识别和分类实验,该模型的F值较基准模型的分别提高了0.86%和4.07%;在ACE2005英文语料库上,该模型的F值较基准模型的分别提高了1.4%和1.5%。实验结果表明,混合模型在事件触发词抽取任务中取得了优异的效果。  相似文献   

6.
针对现有中文因果关系抽取方法对因果事件边界难以识别和文本特征表示不充分的问题,该文提出了一种基于外部词汇信息和注意力机制的中文因果关系抽取模型BiLSTM-TWAM+CRF。该模型使用SoftLexicon方法引入外部词汇信息构建词集,解决了因果事件边界难以识别的问题。通过构建的双路关注模块TWAM(Two Way Attention Module),实现了从局部和全局两个角度充分刻画文本特征。实验结果表明,与当前中文因果关系抽取模型相比较,该文所提方法表现出更优的抽取效果。  相似文献   

7.
信息抽取技术用于从非结构化文本数据中提取关注度较高的信息。事件抽取技术是信息抽取研究领域中具有挑战的研究方向。事件抽取的目的是从非结构化文本数据中抽取描述事件的关键元素,并以结构化的方式呈现。事件抽取被看作序列标注任务,首先采用ALBERT预训练模型学习特征,其次引入条件随机场CRF模型提高序列标注性能,最后完成事件类型以及事件要素的识别分类。在ACE2005标准语料库上的实验结果表明,与现有模型相比,ALBERT-CRF模型在触发词识别和分类任务上的召回率和F值均有所提高。  相似文献   

8.
针对高速公路突发事件实体识别和事件分类任务中文本表征时存在的一词多义问题,提出使用层次多头注意力网络HMAN来学习文本字向量的高层次特征表示,结合经典的BiLSTM-CRF模型,构建一个称为HMAN-BiLSTM-CRF的多任务联合学习模型.模型共享文本特征表示模块,使用CRF对共享表征进行解码获得最优实体标注序列,而...  相似文献   

9.
命名实体识别作为信息抽取领域的一个基础任务,能为机器翻译、关系抽取等下游任务提供有效支撑,具有重要的研究意义。针对中文命名实体识别方法中存在的实体边界模糊的问题,提出了一种结合实体边界线索的命名实体识别模型,模型由边界检测、线索生成、实体分类三个模块组成。利用边界检测模块识别实体边界。在线索生成模块中依据边界信息生成实体跨度,得到带边界线索标签的文本序列,使模型通过边界线索标签感知句子中的实体边界,学习实体边界和上下文的语义依赖特征。将带有边界线索标签的文本序列作为实体分类模块的输入,使用双仿射机制增强标签之间的语义交互,并结合双仿射机制与多层感知机的共同预测作为实体识别的结果。该模型在ACE2005中文数据集和Weibo数据集上的F1值分别达到了90.47%和73.54%,验证了模型对中文命名实体识别的有效性。  相似文献   

10.
目前实体识别和关系抽取任务大多采用流水线方式,但该方法存在错误累积、忽略两个任务相关性和信息冗余等诸多问题。结合中医文本的特点,提出一种基于深度学习的中医实体关系联合抽取方法。该方法使用改进的序列标注策略,将中医的实体关系联合抽取转换成序列标注任务,词向量与字符向量并联拼接作为双向LSTM-CRF输入,利用双向LSTM神经网络强大的特征提取能力,以及CRF在序列标注上的突出优势,结合优化的抽取规则完成中医实体关系联合抽取。在中医语料库上的实验结果表明,实体关系联合抽取的F1值可以达到80.42%,与传统流水线方法以及其他方法相比,实验效果更佳。  相似文献   

11.
基于句子级别的抽取方法不足以解决中文事件元素分散问题。针对该问题,提出基于上下文融合的文档级事件抽取方法。首先将文档分割为多个段落,利用双向长短期记忆网络提取段落序列特征;其次采用自注意力机制捕获段落上下文的交互信息;然后与文档序列特征融合以更新语义表示;最后采用序列标注方式抽取事件元素并匹配事件类型。与其他事件抽取方法在相同的中文数据集上进行对比,实验结果表明,该方法能有效抽取文档中分散的事件元素,并提升模型的抽取性能。  相似文献   

12.
短文本的表示方法和特征提取方法是自然语言处理基础研究的一个重要方向,具有广泛的应用价值.本文提出了BERT_BLSTM_TCNN模型,该神经网络模型利用BERT的迁移学习,并在词向量编码阶段引入对抗训练方法,训练出包括句的语义和结构特征的且泛化性能更优的句特征,并将这些特征输入BLSTM_TCNN层中进行特征抽取以完成...  相似文献   

13.
在方面级情感分类任务中,现有方法强化方面词信息能力较弱,局部特征信息利用不充分.针对上述问题,文中提出面向方面级情感分类的特征融合学习网络.首先,将评论处理为文本、方面和文本-方面的输入序列,通过双向Transformer的表征编码器得到输入的向量表示后,使用注意力编码器进行上下文和方面词的建模,获取隐藏状态,提取语义信息.然后,基于隐藏状态特征,采用方面转换组件生成方面级特定的文本向量表示,将方面信息融入上下文表示中.最后,对于方面级特定的文本向量通过文本位置加权模块提取局部特征后,与全局特征进行融合学习,得到最终的表示特征,并进行情感分类.在英文数据集和中文评论数据集上的实验表明,文中网络提升分类效果.  相似文献   

14.
武国亮  徐继宁 《计算机应用》2021,41(7):1891-1896
针对基于双向长短期记忆网络-条件随机场(BiLSTM-CRF)的事件抽取模型仅能获取字粒度语义信息,可学习特征维度较低致使模型上限低的问题,以开放领域的中文公共突发事件数据为研究对象,提出了一种基于命名实体识别任务反馈增强的中文突发事件抽取方法FB-Latiice-BiLSTM-CRF.首先,将Lattice(点阵)机...  相似文献   

15.
事件抽取是项重要的信息抽取任务,旨在抽取文本中的事件信息。目前基于多任务学习的事件联合抽取方法大多基于硬参数共享,此类方法往往会导致跷跷板现象的出现,即一项任务的性能往往通过损害另一项任务的性能来提高。为了解决这一问题,提出了一种基于软参数共享的事件联合抽取方法,该方法明确地分离了共享参数和任务特定参数,并通过双层门控网络增强模型提取和筛选语义知识的能力,使模型能同时为两个任务学习到合适的特征表示,实现了更高效的信息共享和联合表示学习。在DuEE1.0公共数据集上进行了实验,使用准确率、召回率、F1值作为评价指标,并通过对比实验和消融实验验证了方法的有效性。对比基于硬参数共享的联合抽取模型事件识别任务F1值提高了2.0%,论元角色分类任务F1值提高了0.9%,有效地缓解了跷跷板现象的出现,验证了方法的有效性。  相似文献   

16.
韵律边界的正确预测是连续语音合成系统中首要解决的关键问题。针对维吾尔语分层韵律结构,通过基于条件随机场(CRF)的分层自底向上方法预测了维吾尔语的韵律词和韵律短语边界,并将维吾尔语形态特征作为韵律边界预测模型的重要特征。根据不同韵律边界层次的特点,对分层韵律边界预测方法进行了改进,针对分层方法的不同层次进行独立特征模板筛选,从而进一步提高韵律边界预测性能。通过对不同的特征模板和不同韵律边界预测模型进行反复实验,得到了最好的预测性能。实验结果表明,该方法明显提高了韵律边界预测结果。  相似文献   

17.
政务热线承接了海量市民诉求,人工对工单分类耗时费力。现有工单分类方法大多基于机器学习或单一神经网络模型,难以有效理解上下文语义信息,且文本特征提取不全面。针对这一问题,本文提出一种融合RoBERTa和特征提取的政务热线工单分类方法。该方法首先通过基于RoBERTa预训练语言模型的语义编码层获取政务热线工单文本中的语义表征向量,然后通过由CNN-BiGRU-Self-Attention定义的特征提取层获取工单文本的局部特征和全局特征,并对全局特征进行处理以凸显重要性高的语义特征,最后将融合后的特征向量输入分类器来完成工单分类。实验结果表明,相较于其他基线分类方法,本文提出的方法能够取得更好的工单分类效果。  相似文献   

18.
传统事件触发词抽取方法在特征提取过程中对自然语言处理工具产生过度依赖的方法,耗费大量人力,容易出现错误传播和数据稀疏性等问题。为此,提出采用CNN-BiGRU模型进行事件触发词抽取的方法。将词向量和位置向量进行拼接作为输入,提取词级别特征和句子全局特征,提高触发词抽取效果,并通过CNN提取词汇级别特征,利用BiGRU获取文本上下文语义信息。在ACE2005英文语料库和中文突发事件语料库CEC上的实验结果表明,该模型事件触发词识别F1值分别达到74.9%和79.29%,有效提升事件触发词的抽取性能。  相似文献   

19.
评价对象抽取是对象级情感分析的关键任务之一,评价对象抽取结果会直接影响对象级情感分类的准确率在评价对象抽取任务中,借助手工特征加强模型性能的方式既消耗时间又耗费人力s对数据规模小、特征信息不充分等问题,提出一种基于交互特征表示的评价对象抽取模型(aspect extraction model based on inte...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号