首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
从无结构文本中抽取实体与实体之间的关系是自然语言处理领域的重要研究内容,同时也为构建知识图谱、问答系统等应用提供重要支撑。基于联合模型的实体关系抽取任务将实体识别和关系抽取同时进行,克服了传统实体关系抽取任务中先识别句子中的实体,然后再进行实体关系判断这两次任务中的错误累加。该文针对藏文语料匮乏、实体识别准确率不高等问题,提出了基于联合模型抽取藏文实体关系的方法。基于藏文实体关系抽取任务,提出以下方案: ①针对藏文分词准确率不高的问题,对藏文进行字级和词级两种方式进行预处理,并给出对比实验,结果表明采用字级处理方式较词级处理方式效果有所提高。②藏文是一种语法规则比较强的语言,名词、格助词等能明确指示句子各组块之间的语法和语义结构关系,因此该文将藏文的词性标注特征加入到藏文的字词向量中,实验结果证明了方法的有效性。③该文借鉴了联合模型处理的优势,提出基于联合模型处理方式,采用端到端的BiLSTM框架将藏文实体关系抽取任务转变为藏文序列标注的问题,实验结果表明,该文的方法较传统的基于藏文处理方式,如SVM算法和LR算法,准确率提高了30%~40%。  相似文献   

2.
关系抽取任务是对句子中的实体对进行关系分类。基于远程监督的关系抽取是用预先构建的知识库来对齐朴素文本,自动标注数据,在一定程度上减少了人工标注的成本,缓解了藏文材料语料不足的问题。但是基于远程监督的实体关系抽取还存在错误标记、提取特征时出现噪声等问题。该文用远程监督方法进行藏文实体关系抽取,基于已经构建的藏文知识库,利用分段卷积神经网络结构,加入语言模型和注意力机制来改善语义歧义问题以及学习句子的信息;在训练过程中加入联合得分函数来动态修正错误标签问题。实验结果表明改进的模型有效提高了藏文实体关系抽取的准确率,且优于基线模型效果。  相似文献   

3.
杨肖  肖蓉 《中文信息学报》2024,(2):109-120+131
传统的文档级关系抽取方法在特征表示的有效性和噪声消除方面存在局限,不能准确地找出证据句子和实体对的关系。为了进一步提升文档级关系抽取和证据句子抽取的准确性,该文提出了一种使用小波变换对预训练语言模型生成的文本向量进行特征提取、清洗和去噪处理的方法。首先利用预训练语言模型对文档进行编码,将得到的初始文本向量应用小波变换出更精确的特征,其次引入多头注意力机制对小波变换的数据进行加权处理,以凸显与实体对关系相关的重要特征。为了充分利用原始数据和清洗后的数据,采用残差连接的方式将它们进行融合。在DocRED数据集上对模型进行了实验,结果表明,该文所提模型能够更好地抽取实体对的关系。  相似文献   

4.
实体关系抽取是构建知识图谱过程中至关重要的一步。将注意力机制引入卷积神经网络或循环神经网络是目前关系抽取任务中比较主流的解决方法,谷歌最新提出的BERT模型在多项自然语言处理任务中都取得了非常好的效果。为了充分融合局部信息和全局信息,并提高处理效率,该文提出了滑动窗口注意力网络模型(Sliding Window Attention Network, SWAN)。该模型首先通过预训练的word2vec生成词向量,加入位置表示并使用TransE模型对实体进行表征以充分突出实体信息,再采用基于BERT的SBERT模型对句子进行表征,在此基础上采用多种滑动窗口注意力机制捕获局部信息,然后在聚集层对抽取到的局部信息进行聚合,最后利用softmax函数来实现实体关系的分类。实验结果表明,提出的SWAN模型在SemEval2010 Task 8数据集上取得了较高的准确率,优于对比的现有关系抽取模型,同时模型训练效率也得到极大提升。  相似文献   

5.
当前基于图神经网络的事件抽取模型无法很好解决长距离依赖问题,并且图的构造中没有考虑实体之间的关系,实体也需要结合文档中的多个句子进行推理。为解决这些问题,该文首先使用预训练模型RoBERTa对文档进行编码并输出所有句子的特征表示和文档的上下文信息嵌入表示,能更好地学习中文金融数据的语义特征。其次,构建一个包含文档节点和实体节点的全局图神经网络使不同节点和边的交互有更丰富的表示,加强了文档和实体信息之间的联系。最后,应用图卷积网络捕获了它们之间的全局交互得到实体级图,在此基础上通过改进的路径推理机制来推断实体之间的关系,更好地解决了长距离文档上下文感知表示和跨句子论元分散问题。在CFA数据集上进行了模型验证,实验结果表明,该文所提模型F1值优于对比模型,综合性能得到有效提升。  相似文献   

6.
针对藏文情感分析研究中,由于藏文构字规则以及数据集不统一导致深度学习模型效果欠佳的问题,该文提出了一种结合图神经网络以及预训练模型的藏文情感分析模型,应用于藏文短文本。首先,采用Albert预训练模型对藏文文本进行词向量构建;其次,为对应句中标注出的藏文情感词构建表征,并且通过构建后的词向量与情感词表征进行融合;最后,将融合后的表征进行图数据构建并输入到图神经网络模型中,得到最终的分类效果。实验结果表明,该文提出的藏文情感分类模型准确率达到98.60%,优于其他基线模型。数据集公开网址为:https://github.com/TU-NLP/TU_SA/。  相似文献   

7.
实体关系联合抽取任务旨在识别命名实体的同时可抽取实体间的语义关系。该文提出了一种基于多特征融合及奖惩机制的藏医药领域实体关系联合抽取方法,针对基于序列标注的联合抽取方法中标注策略的局限性及特征单一、模型学习能力有限的问题,提出以下解决方案:(1)使用嵌套实体标注策略突破原有标注方法的局限;(2)使用类别特征静态融合、多特征动态融合方法及奖惩机制分别用于特征增强及模型优化。实验结果表明,该文方法提升了藏医药领域联合抽取模型的效果,模型最终的F1值为79.23%。同时,为了证明该文模型的鲁棒性及有效性,还在SKE及NYT领域数据上进行了相关实验,实验结果验证该模型的有效性,且优于基线方法。  相似文献   

8.
为研究包含多个实体的关系抽取,提出聚合实体间不同长度路径的方案。考虑不同实体之间的相互关联,将整个句子表示为一个有向图,图中的节点为句子中的实体,边通过实体对和实体对的上下文来表示;将实体对间相同长度的路径通过注意力机制聚合成单一向量表示,不同长度路径对应的单一向量拼接,作为softmax分类器的输入。实验结果表明,在ACE 2005英文数据集上基于注意力机制的实体图路径聚合方案能显著提高多实体关系抽取的F1值。  相似文献   

9.
实体关系抽取是实现海量文本数据知识化、自动构建大规模知识图谱的关键技术。考虑到头尾实体信息对关系抽取有重要影响,该文采用注意力机制将实体对信息融合到关系抽取过程中,提出了基于实体对注意力机制的实体关系联合抽取模型(EPSA)。首先,使用双向长短时记忆网络(Bi-LSTM)结合条件随机场(CRF)完成实体的识别;其次,将抽取的实体配对,信息融合成统一的嵌入式表示形式,用于计算句子中各词的注意力值;然后,使用基于实体对注意力机制的句子编码模块得到句子表示,再利用显式融合实体对的信息得到增强型句子表示;最后,通过分类方式完成实体关系的抽取。在公开数据集NYT和WebNLG上对提出的EPSA模型进行评估,实现结果表明,与目前主流联合抽取模型相比,EPSA模型在F1值上均得到提升,分别达到84.5%和88.5%,并解决了单一实体重叠问题。  相似文献   

10.
从非结构化文本中进行实体和关系抽取已经成为自然语言处理的一项关键任务,然而命名实体识别(NER)和关系抽取(RE)两个任务经常被分开考虑,从而丢失了大量的关联信息。鉴于此,该文提出了一种端到端的基于多层感知机SGM模块进行信息过滤的实体关系联合抽取方法。该方法在不引入外部其他复杂特征的情况下获得了丰富的语义,充分利用了实体和关系之间的关联。该文从句子级、词语级和字符级三个级别输入信息,利用SGM模块进行信息提取以获得高效的语义表示,之后利用Span-attention进行融合得到Span的具体表示,最后利用全连接层进行实体和关系的联合抽取。该文使用NYT10和NYT11数据集验证所提方法的有效性。实验结果表明,在NYT10和NYT11数据集上,该文提出的模型在关系抽取任务中的F1值分别达到了70.6%和68.3%,相比于其他模型有较大提升。  相似文献   

11.
叶育鑫  薛环  王璐  欧阳丹彤 《软件学报》2020,31(4):1025-1038
远监督关系抽取的最大优势是通过知识库和自然语言文本的自动对齐生成标记数据.这种简单的自动对齐机制在将人从繁重的样本标注工作中解放出来的同时,不可避免地会产生各种错误数据标记,进而影响构建高质量的关系抽取模型.针对远监督关系抽取任务中的标记噪声问题,提出"最终句子对齐的标签是基于某些未知因素所生成的带噪观测结果"这一假设.并在此假设的基础上,构建由编码层、基于噪声分布的注意力层、真实标签输出层和带噪观测层的新型关系抽取模型.模型利用自动标记的数据学习真实标签到噪声标签的转移概率,并在测试阶段,通过真实标签输出层得到最终的关系分类.随后,研究带噪观测模型与深度神经网络的结合,重点讨论基于深度神经网络编码的噪声分布注意力机制以及深度神经网络框架下不均衡样本的降噪处理.通过以上研究,进一步提升基于带噪观测远监督关系抽取模型的抽取精度和鲁棒性.最后,在公测数据集和同等参数设置下进行带噪观测远监督关系抽取模型的验证实验,通过分析样本噪声的分布情况,对在各种样本噪声分布下的带噪观测模型进行性能评价,并与现有的主流基线方法进行比较.结果显示,所提出的带噪观测模型具有更高的准确率和召回率.  相似文献   

12.
针对目前远程监督关系抽取任务中存在的错误标注问题,提出使用强化学习策略设计噪声指示器,通过与由关系分类器和噪声数据组成的环境相交互,动态识别每个关系类别的假正例与假负例,并为其重新分配正确的关系标签,从而将噪声数据转换成有用的训练样本,有利于提高远程监督关系抽取模型的性能;另外,在训练过程中,通过在策略网络权重上添加噪声,平衡策略网络的探索和利用问题,从而增强噪声指示器的探索能力,使噪声指示器更准确地选择出能够正确表达实体-关系的句子。在Freebase对齐NYT公共数据集上的实验结果表明,提出的方法可以显著提高远程监督关系抽取模型的性能,表明模型拥有识别并纠正噪声数据标签的能力,可以更好地学习关系特征。  相似文献   

13.
招投标网站资源中蕴含着丰富的情报信息。“远程监督”方法借助知识库自动标注数据,弥补了传统信息抽取方法在语料准备阶段对人工强依赖的缺陷,可有效提高信息抽取效率。该方法会引入噪声数据,导致信息抽取效果不够理想。因此,提出一种基于因子图模型的远程监督实体关系抽取方法,并结合领域特征,采用知识融合技术提高实体抽取质量,进而针对远程监督的缺陷提出基于负例数据学习的降噪方法。实验结果表明,该方法能够有效减少“噪声”干扰,提高关系抽取性能。  相似文献   

14.
针对交通流预测过程中城市道路路网的空间特征难以充分提取,导致预测结果精度不高的问题,提出图卷积网络(GCN)与门控循环单元(GRU)组合短时交通流预测模型。利用GCN对拓扑结构数据处理的优势,将城市道路路网空间排列结构转换为拓扑关系建模,通过解决拓扑关系问题有效提取出路网间的空间特征。采用GraphSAGE算法改进GCN模型,通过加和聚合算子和图注意力机制(GAT)聚合空间特征,将包含空间特征的输出作为GRU模型的输入提取时间特征。利用真实道路车流量数据进行模型验证,结果表明该模型相较于不具有GCN的模型预测准确率提升约8%,均方误差缩小约0.010?37,说明所提模型具有相对较高的稳定性及预测精度,可以为大型城市路网提供重要的交通诱导依据。  相似文献   

15.
目前基于传统深度学习的关系抽取方法在复杂语境下抽取较为困难, 且未考虑语境中非目标关系对关系抽取所带来的影响. 针对这一问题, 本文提出了控制输入长短期记忆网络CI-LSTM (control input long short-term memory), 该网络在传统LSTM的基础上增加了由注意力机制和控制门阀单元组成的输入控制单元, 控制门阀单元可依据控制向量进行关键位置上的重点学习, 注意力机制对单个LSTM的输入的不同特征进行计算. 本文通过实验最终选择使用句法依存关系生成控制向量并构建关系抽取模型, 同时使用SemEval-2010 Task8关系数据集以及该数据集中具有复杂语境的样本对所提方法进行实验. 结果表明, 相比于传统的关系抽取方法, 本文所提CI-LSTM在准确率上有进一步提升, 并在复杂语境中具有更好的表现.  相似文献   

16.
针对基于机器学习的人物关系抽取需要人工选取特征的问题,提出一种基于卷积神经网络的中文人物关系抽取方法。采用搜狗实验室公开的中文全网新闻语料库来训练Word2vec模型,得到基于分布式表示的词向量表达,并完成了对百度百科数据集的词向量转化工作。设计一种基于经典CNN模型的中文人物关系抽取系统方案,用CNN模型自动提取特征并进行人物关系的分类,实现了5类常见人物关系的提取,准确率达到92.87%,平均召回率达到86.92%。实验结果表明,该方法无需人工构建复杂特征即可得到较好的人物关系抽取效果。  相似文献   

17.
实体关系联合抽取的目的是从非结构化文本中同时提取实体提及和关系事实,是知识图构建的关键步骤,也是许多自然语言处理中高级任务的基础.现有工作大都采用了分阶段的联合抽取方法来处理文本中同时存在的多个三元组和实体重叠情况下的三元组抽取问题,虽然取得了合理的性能提升,但都存在严重的曝光偏差问题.对此,提出了一种名为融合关系表达向量(fusional relation expression embedding, FREE)的新方法,通过融合关系表达向量来有效缓解曝光偏差问题.此外,提出了一种称为条件层规范化层的新特征融合层来更有效地融合先验信息.在2个广泛使用的数据集上进行了大量对比实验,结果表明该方法相较于当前最先进的基线方法具有显著优势,可以更有效地处理各种情况,并在不牺牲效率的前提下取得了与当前针对曝光偏差问题的先进方法相当的性能.  相似文献   

18.
关系抽取是自然语言处理的重要研究内容,短语成分结构则是学界普遍认为能对关系抽取有重要影响的特征信息。然而目前短语成分应用于关系抽取任务时没有明显效果。这主要有两个原因:短语成分分析模型的泛化能力较差,会在关系抽取上造成错误传播,从而影响了它对关系抽取的有效性;关系抽取任务上使用短语成分特征的方式存在缺陷,即丧失短语成分分析学习到的句子结构信息,或者加大其对关系抽取的错误影响。本文在提升短语成分分析效果的基础上,提出了基于短语成分表示的中文关系抽取方法。该方法将短语成分分析模型学习到的文本表示嵌入到关系抽取模型中,从而提升关系抽取的性能。本文在公开的中文关系抽取数据集上验证了该方法的有效性。  相似文献   

19.
关系抽取是信息抽取中的一项基础任务,对信息检索、问答系统、知识图谱等有非常重要的意义。现有的关系抽取数据集存在包含类别太少、句子标注困难、不易扩展等缺陷,且只有英文数据集,不能很好地解决中文关系抽取任务。该文采用弱监督和半自动的方法,构建了一份中文关系抽取数据集,弥补了上述不足。首先借助维基百科抽取出丰富的关系对,从百度搜索返回结果及搜狗新闻语料中抽取包含实体对的句子,完成弱监督句子抽取过程。将句子放入RNN关系抽取系统进行打分,选取标注价值高的句子提交人工标注,对标注结果进行处理,最终得到中文关系抽取数据集。  相似文献   

20.
针对传统基于协同过滤的推荐算法信息提取能力有限的问题,提出基于网络表示学习的卷积协同过滤推荐算法。将二分网络分成物品与用户同质网络,在各自的同质网络上使用GraphSAGE模型得到融合网络空间信息和用户与物品属性信息的矩阵。在此基础上,利用外积运算丰富用户和物品特征向量各维度的相关表示,通过卷积神经网络训练物品和用户的交互信息得到算法模型。实验结果验证了该算法的有效性,且相比ConvNCF算法,其在Movielens数据集上HR@5和NDCG@5分别提升了1.89和2.19个百分点,在Last.fm数据集上HR@5和NDCG@5分别提升了1.09和2.32个百分点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号