首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 314 毫秒
1.
在信息抽取领域,从非结构化文本中抽取实体关系是一项基础且重要的任务,且面临实体重叠和模型误差累积等挑战.本文以关系为导向,提出一种改进的实体关系联合抽取方法.该方法将实体关系抽取任务分为关系抽取与实体抽取两个子任务.在关系抽取任务上采用自注意力机制关注词与词之间的重要程度从而模拟实体信息,并使用平均池化来表征整个句子信息;在实体抽取任务上结合关系信息使用条件随机场识别该关系下的实体对.本模型不仅能够利用存在关系必定存在实体对的思想解决实体对重叠问题,还能够在训练过程中利用数据集中已知的关系使实体抽取模块不依赖于关系抽取模块的结果来训练,从而在训练阶段避免误差累积.最后,在WebNLG和NYT公开数据集上验证了该模型的有效性.  相似文献   

2.
传统事件主体抽取方法着重依赖句子级信息进行抽取,不能完全解决事件的模糊性问题.提出一种基于门控多层次注意机制的ELMo-BiGRU深度学习模型对事件主体抽取进行研究.使用ELMo预训练模型生成上下文相关的动态词向量,在一定程度上缓解一词多义的问题;为了处理句子中存在事件模糊性的问题,采用门控多层次注意力机制动态融合每个词的句子级信息和文档级信息.实验结果表明,该方法的抽取效果明显优于传统抽取方法,可以有效解决事件主体抽取的问题.  相似文献   

3.
事件抽取是信息抽取的主要任务之一,而触发词抽取是事件抽取的重要子任务.事件要素与事件触发词之间存在关联信息,现有的事件触发词抽取方法主要关注事件触发词本身,没有充分的利用事件要素信息.因此,提出一种事件要素注意力与编码层融合的事件触发词抽取模型,能够有效地利用事件要素信息,提高触发词抽取性能.通过事件要素与事件触发词之间的相关性来显示利用事件要素信息,同时利用编码层的多头自注意力机制间接学习事件要素与事件触发词之间的依赖关系,并将两个方法得到的输出向量进行处理,作为特征送入到编码层中进行训练.此外,通过词特征模型获取语义信息.该方法在ACE2005英文语料上对事件触发词抽取的F值达到71.95%.  相似文献   

4.
事件抽取是自然语言处理的重要任务,而事件检测是事件抽取的关键步骤之一,其目标是检测事件的发生并对其进行分类。目前基于触发器识别的中文事件检测方法存在一词多义、词与触发词不匹配的问题,影响了事件检测模型的精度。针对此问题,提出基于双重注意力的无触发词事件检测模型(Event Detection Without Triggers based on Dual Attention, EDWTDA),该模型可跳过触发词识别过程,实现在无触发词标记情况下直接判断事件类型。EDWTDA利用ALBERT改善词嵌入向量的语义表示能力,缓解一词多义问题,提高模型预测能力;采用局部注意力融合事件类型捕捉句中关键语义信息并模拟隐藏的事件触发词,解决词与触发词不匹配的问题;借助全局注意力挖掘文档中的语境信息,解决一词多义问题;最后将事件检测转化成二分类任务,解决多标签问题。同时,采用Focal loss损失函数解决转化成二分类后产生的样本不均衡问题。在ACE2005中文语料库上的实验结果表明,所提模型相比最佳基线模型JMCEE在精确率、召回率和F1-score评价指标上分别提高了3.40%,3.90%,3.67...  相似文献   

5.
由于历史典籍术语存在普遍的多义性且缺少古汉语分词算法,使用基于双语平行语料的对齐方法来自动获取典籍术语翻译对困难重重。针对上述问题,该文提出一种基于子词的最大熵模型来进行典籍术语对齐。该方法结合两种统计信息抽取频繁在一起出现的字作为子词,使用子词对典籍进行分词,解决了缺少古汉语分词算法的问题。针对典籍术语的多义性,根据典籍术语的音译模式制定音译特征函数,并结合其他特征使用最大熵模型来确定术语的翻译。在《史记》双语平行语料上的实验表明,使用子词的方法远远优于未使用子词的方法,而结合三种特征的最大熵模型能有效的提高术语对齐的准确率。
  相似文献   

6.
基于远程监督的关系抽取方法可以明显地减少人工标注数据集的成本,已经被广泛应用于领域知识图谱的构建任务中.然而,现有的远程监督关系抽取方法领域针对性不强,同时也忽略了对领域实体特征信息的利用.为了解决上述问题,提出了一种融合实体特征和多种类注意力机制的关系抽取模型PCNN-EFMA.模型采用远程监督和多实例技术,不再受限于人工标注.同时,为了减少远程监督中噪声的影响,模型使用了句子注意力和包间注意力这两类注意力,并在词嵌入层和句子注意力中融合实体特征信息,增强了模型的特征选择能力.实验表明,该模型在领域数据集上的PR曲线更好,并在P@N上的平均准确率优于PCNN-ATT模型.  相似文献   

7.
实体关系联合抽取作为信息抽取领域的核心任务,能够从非结构化或半结构化的文本中自动识别实体、实体类型以及实体之间特定的关系类型,为知识图谱构建、智能问答和语义搜索等下游任务提供基础支持.传统的流水线方法将实体关系联合抽取分解成命名实体识别和关系抽取两个独立的子任务,由于两个子任务之间缺少交互,流水线方法存在误差传播等问题...  相似文献   

8.
事件抽取是信息抽取的重要任务之一,在知识图谱构建、金融行业分析、内容安全分析等领域均有重要应用。现有中文事件抽取方法一般为实体识别、关系抽取、实体分类等任务的级联。将事件抽取转化为阅读理解任务,可为模型引入问题所含的先验信息。提出一种基于预训练模型的机器阅读理解式中文事件抽取方法(Chinese event extraction by machine reading comprehension,CEEMRC),将中文事件抽取简化为两个问答模型的级联。首先对事件触发词抽取、事件类型判定、属性抽取构建相应的问答任务问题。以RoBERTa为基础构建触发词抽取和事件类型识别联合模型、事件属性抽取两个问答模型,并融入触发词先验特征、分词信息、触发词相对位置等信息来提升模型效果。最后以模型预测回答的起始和结束位置完成所需的抽取。实验使用DuEE中文事件数据集,触发词抽取和属性抽取的F1值均优于同类方法,验证了该方法的有效性。  相似文献   

9.
从文本信息中抽取关系三元组是构建知识图谱的关键任务,近年来受到工业界和学术界的广泛关注。针对旅游领域信息抽取过程中出现的实体嵌套和关系重叠问题,提出了一种基于双仿射注意力机制的实体关系联合抽取模型BAMRel,该模型通过共享编码层参数利用双仿射注意力机制在实体识别部分和关系抽取部分构建分类矩阵,并在关系抽取部分融合实体类型信息,提升关系抽取效果的同时增加了两个任务之间的交互。此外,通过远程监督和人工校验构建了旅游领域关系抽取数据集TFRED,BAMRel模型在此数据集上F1值达到了91.8%,有效地解决了实体嵌套和关系重叠问题。为了验证模型的鲁棒性,在百度DuIE数据集上与主流联合抽取模型进行了对比实验,BAMRel模型取得了最高的F1值80.2%。  相似文献   

10.
实体关系抽取是信息抽取的关键任务之一,是一种包含实体抽取和关系抽取的级联任务.传统的实体关系抽取方式是将实体与关系抽取任务分离的Pipeline方式,忽略了两个任务的内在联系,导致关系抽取的效果严重依赖实体抽取,容易引起误差的累积.为了规避这种问题,我们提出一种端到端的实体关系联合抽取模型,通过自注意力机制学习单词特征,基于句法依存图蕴含的依赖信息构建依存约束,然后将约束信息融入图注意力网络来实现实体与关系的抽取.通过在公共数据集NYT上进行实验证明了我们工作的先进性和显著性,我们的模型在保持高精度的情况下,召回率有了显著的提升,比以往工作中的方法具有更好的抽取性能.  相似文献   

11.
远程监督关系抽取方法能够大幅减少标注成本,但现有方法忽略了关系间的关联信息和实体背景知识。结合实体描述信息提出一种新的跨句包关系抽取方法。引入分段卷积神经网络进行句编码,解决特征提取的误差传播问题。同时设计跨关系跨句包注意力机制获取关系特征,更好地从远程监督的噪声数据中鉴别有效实例,从而充分利用关系之间丰富的相关信息并降低噪音句子的影响。在此基础上,利用卷积神经网络提取实体描述信息,补充关系抽取任务所需的背景知识,为跨关系跨句包注意力模块提供更好的实体表示。在NYT公共数据集上的实验结果表明,该方法在句子层面抽取任务上的F1值较结合句注意力与实体描述信息的分段卷积方法提高了4%左右,能够有效改善远程监督关系抽取效果。  相似文献   

12.
孙亚茹  杨莹  王永剑 《计算机工程》2022,48(10):116-122
解决多源知识对齐和知识冗余问题是在开放数据域自动构建知识图谱的关键。建立一种融合知信学习与深度学习的知识图谱自动构建模型。分析图卷积神经网络(GCN)模型与知信学习之间的理论联系,以先验知识与深度学习相结合的方式构建实体语义联合空间,将先验知识对模型的干预形式化,并利用自动编码器实现一个细粒度的实体对齐和关系抽取模型。同时,采用GCN与多头注意力相结合的方式,缓解因结构数据中多跳推理造成实体依赖信息丢失的影响。在开源数据集SemEval、FB15k和收集整理的MD数据集上的实验结果表明,该模型针对关系抽取、实体对齐和三元组抽取任务的F1值分别达到89.5%、86.6%和84.2%,较BERT-Softmax模型分别提升了0.3、2.4和0.3个百分点,具有更好的信息学习能力。  相似文献   

13.
谭道强  曾诚  乔金霞  张俊 《计算机应用》2021,41(7):2076-2081
图像中阴影区域的存在会导致图像内容的不确定性,不利于其他计算机视觉任务,因此常将阴影检测作为计算机视觉算法的预处理过程。然而,现有的阴影检测算法大多采用多级网络结构,导致模型训练困难,虽然已经提出了一些采用单级网络结构的算法,但它们只关注了局部的阴影,忽略了阴影之间的联系。针对该问题,为提升阴影检测的准确率和鲁棒性,提出了基于混合注意力模型的阴影检测方法。首先将预训练后的深层网络ResNext101作为前端特征提取网络,提取图像的基本特征;其次采用双向金字塔结构由浅入深、由深到浅的方式进行特征融合,并提出信息补偿机制减少深层语义信息丢失;然后结合空间注意力和通道注意力提出混合注意力模型进行特征融合,捕捉阴影区域和非阴影区域的差异;最后融合两个方向的预测结果从而得到最终的阴影检测结果。在公开数据集SBU、UCF上对所提方法进行可行性对比实验,结果表明,相较于DSC算法,所提方法的平衡误差率(BER)分别降低了30%和11%,说明它能够较好地抑制阴影错误检测并增强阴影细节。  相似文献   

14.
代劲  张磊  王国胤 《控制与决策》2021,36(10):2359-2368
以大规模物联网为支撑的新一代信息技术的深入应用,为基于海量大数据挖掘的煤矿安全知识发现提供了实现的可能.现有的针对煤矿安全大数据的研究大多基于定量模型,其解决问题的角度单一且一定程度上忽略了煤矿监管中多时空、多粒度的管控需求,使得数据中蕴含的煤矿风险知识未得到客观、全面的发现.从煤矿监管中的多粒度需求出发,借助云模型定量数据与定性概念间良好的转换能力,从煤矿监管中的时间、空间监管架构角度,提出基于自适应混合云变换的面向煤矿安全大数据的多粒度表示方法.该方法能够有效满足煤矿监管中其基于宏观、微观,不同时间、空间维度的变粒度需求,实现煤矿安全大数据在不同粒度认知结构中特性的深入挖掘. 通过在煤矿数据概念提取中的应用并与高斯云变换算法对比,其提取的概念覆盖度更全且更客观,验证了所提方法的合理性;在煤矿监测数据预测应用中,其预测精度相较于ARIMA算法更高,验证了所提方法的可行性.  相似文献   

15.
针对旅游信息呈现出散乱、无序和关联性不强的问题,提出一种融合BERT-WWM(BERT with whole word masking)和指针网络的实体关系联合抽取模型构建旅游知识图谱。借助BERT-WWM预训练语言模型从爬取的旅游评论中获得含有先验语义知识的句子编码。针对传统的实体关系抽取方法存在错误传播、实体冗余、交互缺失等问题,以及旅游评论中的实体关系存在一词多义、关系重叠等特征,提出直接对三元组建模,利用句子编码抽取头实体,根据关系类别抽取尾实体,并建立级联结构和指针网络解码输出三元组。基于Neo4j图数据库存储三元组构建旅游知识图谱。实验在建立的旅游数据集上进行,融合BERT-WWM与指针网络的实体关系联合抽取模型的准确率、召回率和F1值分别为93.42%、86.59%和89.88%,与现有模型相比三项指标均显示出优越性,验证了该方法进行实体关系联合抽取的有效性。构建的旅游知识图谱实现了旅游景区信息的整合与存储,对进一步促进旅游业发展具有一定的实际参考意义。  相似文献   

16.
文章结合煤矿井下环境信息的特征,介绍了一种基于多传感器信息融合(MSF)的煤矿井下环境信息危险评价系统。该系统建立了用于煤矿井下环境信息危险预测的3层误差反向传播神经网络模型,并采用神经网络信息融合算法对样本数据进行了分析和处理。仿真结果表明,该系统能够比较准确地评价煤矿井下环境危险的程度,且具有较好的鲁棒性和泛化能力。  相似文献   

17.
在知识库构建中,最重要的部分就是提取文本中的三元组,而三元组的提取需要实体抽取和实体关系抽取技术。针对实体抽取提出了一种CWATT-BiLSTM-LSTMd(character word attention-bidirectional long short-term memory-long short-term memory)模型。该模型可以有效解决实体抽取中一词多义问题,并且可以模拟标签的依赖问题。在实体抽取的基础上进行实体关系的抽取,为解决实体关系抽取中远程监督的局限性,提出一种基于强化深度学习的RL-TreeLSTM(reinforcement learning tree long short-term memory)模型。该模型分为选择器和分类器,选择器选择有效的句子传入分类器,分类器对句子中实体对的关系标签进行预测。选择器和分类器共同训练以优化选择和分类过程,可以有效降低远程监督带来的噪音。实验结果表明,提出的模型和方法能有效地提高实体及其关系的抽取性能。  相似文献   

18.
语音是一种重要的信息资源传递与交流方式,人们经常使用语音作为交流信息的媒介,在语音的声学信号中包含大量的说话者信息、语义信息和丰富的情感信息,因此形成了解决语音学任务的3个不同方向,即声纹识别(Speaker Recognition,SR)、语音识别(Auto Speech Recognition,ASR)和情感识别(Speech Emotion Recognition,SER),3个任务均在各自的领域使用不同的技术与特定的方法进行信息提取与模型设计。文中首先综述了3个任务在国内外早期的发展历史路线,将语音任务的发展归纳为4个不同阶段,同时总结了3个语音学任务在特征提取时所采用的公共语音学特征,并针对每类特征的侧重点进行了说明。然后,随着近年来深度学习技术在各个领域中的广泛应用,语音任务也得到了很好的发展,文中针对目前流行的深度学习模型在声学建模中的应用分别进行了分析,按照有监督、无监督的方式总结了针对3种不同语音任务的声学特征提取方式及技术路线,还总结了基于多通道并融合注意力机制的模型,用于语音的特征提取。为了同时完成语音识别、声纹识别和情感识别任务,针对声学信号的个性化特征提出了一个基于多任务的Tandem模型;此外,提出了一个多通道协作网络模型,利用这种设计思路可以提升多任务特征提取的准确度。  相似文献   

19.
针对煤矿安全监控历史数据及监测参数特点,提出了一种煤矿安全监控信息特征快速发现方法。该方法采用基于误差带的历史数据压缩算法分析采样数据,发现并存储包含重要特征的信息片段,分析该信息片段的含义,并进行主题抽取和关联分析,研究瓦斯序列的相关分析,从而可得出煤矿安全监控系统重要数据的信息特征。该方法对完善煤矿科学管理、挖掘煤矿多传感器信息和煤矿瓦斯涌出规律有一定参考价值。  相似文献   

20.
中文短文本通常使用单词序列而非字符序列进行语义匹配,以获得更好的语义匹配性能。然而,中文分词可能是错误或模糊的,容易引入噪声或者错误传播,从而损害模型的匹配性能。此外,多数中文词汇具有一词多义的特点,短文本由于缺少上下文环境,相比一词多义的长文本更难理解,这对于模型正确捕获语义信息是一个更大的挑战。提出一种短文本匹配模型,使用词格长短期记忆网络(Lattice LSTM)融合字符和字符序列的多粒度信息。引入外部知识HowNet解决多义词的问题,使用软注意力机制获取2个句子间的交互信息,并利用均值池化和最大池化算法进一步提取句子的特征信息,获取句子级语义编码表示。在数据集LCQMC和BQ上的实验结果表明,与ESIM、BIMPM和Lattice-CNN模型相比,该模型能有效提升中文短文本语义匹配的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号