期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

温清华朱洪银侯磊李涓子《中文信息学报》2023,(1):88-96

开放关系抽取从海量数据中获取知识,是自然语言处理的一个关键技术。开放关系抽取可以实现多种关系的抽取,由于中文领域可供训练的标注数据较少且语义句式较为复杂,面向中文的开放关系抽取存在较多困难。现有的中文开放关系抽取方法存在实体识别覆盖率较低且抽取关系种类单一的问题,无法满足知识图谱扩展等应用需求。该文提出了多策略的开放关系抽取方法,该方法综合利用知识图谱提高了实体识别的覆盖度,依靠实体上下文信息实现了实体对关系的抽取,根据依存句法分析抽取得到全要素三元组,并实现了从文本中抽取实体属性的方法。实验证明,该文的抽取方法准确率高,抽取关系种类多样,可以服务于知识图谱扩展等任务。相似文献

2.

限定域关系抽取技术研究综述

侯景邓晓梅汉鹏武《计算机科学》2024,(1):252-265

限定域关系抽取技术是在预定义实体类型和关系类型的前提下，从文本中捕获关键信息的技术，多采用由头尾实体和关系构成的三元组作为信息表示形式。作为信息抽取领域的重要研究方向之一，其在知识问答、信息检索等任务中被广泛应用。文中在介绍相关概念和任务范式的基础上，分析了深度学习背景下限定域关系抽取任务的研究进展，根据句中实体是否可见，分为关系分类任务和三元组抽取任务，依据任务表现特征，前者可细分为有监督条件下的关系分类任务、小样本关系分类任务和远程监督条件下的关系分类任务。文中探讨和分析了以上任务中常用的技术方法及其优缺点，最后归纳总结了关系抽取技术在低资源、多模态等更为接近真实情景下的发展潜力和现存的挑战。相似文献

3.

深度学习生物医学实体关系抽取研究综述

下载免费PDF全文

隗昊周爱张益嘉陈飞屈雯鲁明羽《计算机工程与应用》2021,57(21):14-23

随着生命科学技术的发展,生物医学领域文献呈指数级增长,如何从海量文献中挖掘、抽取有价值的信息成为生物医学领域新的研究契机。作为信息抽取的核心技术,命名实体识别和关系抽取成为生物医学文本挖掘的基础和关键,其主要工作为识别生物医学文本中的实体,并提取实体间存在的生物医学语义关系。当前深度学习技术在各领域自然语言处理任务中取得了长足的发展,旨在总结基于神经网络的生物医学实体识别和关系抽取的方法,从概念、进展、现状等多角度全面阐述各项技术在生物医学领域的发展历程,进一步明确生物医学文本信息抽取工作的探索方向。相似文献

4.

面向开放文本的逻辑推理知识抽取与事件影响推理探索

刘焕勇薛云志李瑞任红萍陈贺张鹏《中文信息学报》2021,35(10):56-63

开放文本中蕴含着大量的逻辑性知识,以刻画事物之间逻辑传导关系的逻辑类知识库是推动知识推理发展的重要基础,研发大规模逻辑推理知识库有助于支持由实体或事件等传导驱动的决策任务。该文围绕逻辑推理知识库,论述了知识库的概念、类别和基本构成,提出了一种面向大规模开放文本的实体描述、事件因果逻辑知识快速抽取方法;面向金融领域,探索了一套基于逻辑推理知识库的可解释性路径推理方法和金融实体影响生成系统。算法模型和系统均取得了不错的效果。相似文献

5.

命名实体识别、排歧和跨语言关联 总被引：5，自引：0，他引：5

赵军《中文信息学报》2009,23(2):3-17

命名实体是文本中承载信息的重要语言单位,命名实体的识别和分析在网络信息抽取、网络内容管理和知识工程等领域都占有非常重要的地位。有关命名实体的研究任务包括实体识别、实体排歧、实体跨语言关联、实体属性抽取、实体关系检测等,该文重点介绍命名实体识别、排歧和跨语言关联等任务的研究现状,包括难点、评测、现有方法和技术水平,并对下一步需要重点解决的问题进行分析和讨论。该文认为,命名实体识别、排歧和跨语言关联目前的技术水平还远远不能满足大规模真实应用的需求,需要更加深入的研究。在研究方法上,要突破自然语言文本的限制,直接面向海量、冗余、异构、不规范、含有大量噪声的网页信息处理。相似文献

6.

开放式信息抽取研究进展

杨博蔡东风杨华《中文信息学报》2014,28(4):1-11

从大规模非结构化文本中自动地抽取有用信息是自然语言处理和人工智能的一个重要目标。开放式信息抽取在高效挖掘网络文本信息方面已成为必然趋势,按关系参数可分为二元、多元实体关系抽取,该文按此路线对典型方法的现状和存在问题进行分析与总结。目前多数开放式实体关系抽取仍是浅层语义处理,对隐含关系抽取很少涉及。采用马尔科夫逻辑、本体结构推理等联合推理方法可综合多种特征,有效推断细微完整信息,为深入理解文本打开新局面。相似文献

7.

基于岩石文本信息的命名实体识别

杜睿山陈思路刘文豪《计算机技术与发展》2022,(9):188-192

命名实体识别技术是自然语言处理领域的重要任务之一。但岩石文本信息中的命名实体存在边界不清、分词困难、误差传播、计算效率慢等问题。基于岩石文本信息进行知识抽取对油气勘探领域的研究具有重大意义。为此,该文首先构建岩石文本数据集,并提出Lexicon-BiLSTM-CRF网络模型应用于非结构化的岩石文本上,该模型首先经过Lexicon机制获得每个字符的所有匹配词,从而解决了边界不清、分词困难的问题,在此基础上提升了计算效率。然后通过双向长短期记忆网络(BiLSTM)提取上下文语义特征,将语义向量传入条件随机场(CRF)层并采用维特比算法解码,降低了错误标签的输出概率并预测实体标注标签,最终实现岩石文本的命名实体抽取任务。在构建的岩石文本数据集的基础上进行几组对比实验,验证了该方法在准确率和召回率上具有一定提升。相似文献

8.

有监督实体关系联合抽取方法研究综述

张少伟王鑫陈子睿王林徐大为贾勇哲《计算机科学与探索》2022,16(4):713-733

实体关系联合抽取作为信息抽取领域的核心任务,能够从非结构化或半结构化的文本中自动识别实体、实体类型以及实体之间特定的关系类型,为知识图谱构建、智能问答和语义搜索等下游任务提供基础支持.传统的流水线方法将实体关系联合抽取分解成命名实体识别和关系抽取两个独立的子任务,由于两个子任务之间缺少交互,流水线方法存在误差传播等问题... 相似文献

9.

面向武器装备领域的复杂三元组抽取方法

游新冬刘陌村葛昊杰肖刚吕学强《小型微型计算机系统》2024,(3):521-528

为解决武器装备领域中单实体重叠和实体对重叠的复杂三元组的抽取问题,提出了挂载武器装备领域知识结合多轮对抗攻击的复杂三元组抽取方法(RDA),该方法通过武器装备领域微调后的Bert获取更具领域语义的文本向量;利用在嵌入层发起多轮对抗的方式,实现模型层面的数据增强,减少模型对标注样本规模的依赖;采用单层指针网络获取头实体对头实体的类别进行判定,利用维基百科知识库对武器装备领域的实体类别解释信息的向量,对武器装备类别信息以字为最小粒度进行融合,缓解分层标注的天然缺陷;最后在横纵两个维度基于不同粒度的序列标注实现复杂三元组的抽取.在武器装备领域的数据集上精准率达到88.54%,召回率达到75.88%,F1值达到81.72%,取得了SOTA效果.实验表明提出的RDA方法对武器装备领域的信息利用更加充分,有效地缓解武器装备领域遇到的单实体重叠问题(SEO)和实体对重叠(EPO)问题. 相似文献

10.

中文开放式多元实体关系抽取

李颖郝晓燕王勇《计算机科学》2017,44(Z6):80-83

传统信息抽取针对特定的领域。当转换到新领域时,需要人工编写新的抽取规则和人工标记新的训练样本。开放信息抽取突破了传统信息抽取的局限性。现有的开放式信息抽取系统大多针对英文,然而,目前对于中文的研究相对较少,并主要以抽取三元组为主,没有针对中文抽取多元组的方法。因此提出了一种基于依存分析的中文开放式多元实体关系抽取方法。首先,对文本集进行预处理和依存关系分析;然后将动词视为候选关系词,将与此动词有满足条件的有效依存路径的基本名词短语视为实体词,关联两个及两个以上的实体词的关系词可与实体词组成候选多元实体关系组;最后,使用经过训练的逻辑回归分类器对多元实体关系组进行过滤。对百度百科数据集的抽取结果显示,所提方法在抽取大量实体关系多元组时准确性可达到81%。相似文献

11.

基于Bi-LSTM的医疗事件识别研究

侯伟涛《计算机应用研究》2018,35(7)

文本的深度语义分析近年来已经成为自然语言处理研究领域的一个热点,文本的信息抽取及属性识别是文本语义分析的一项重要任务。随着机器学习技术近年来在自然语言处理领域取得了成功,部分学者将该技术推广到了医疗领域的信息抽取任务上面,并且在标准测试集上得到了比传统统计学方法更好的结果,然而这些模型方法仍然存在信息获取不充分等问题。因而,本文在已有工作基础上提出了双向LSTM与MLP集成的深度神经网络模型。在2016年SemEval的医疗事件抽取以及事件属性预测任务中,该模型将医疗文本的词性以及命名实体的描述信息当作附加属性,使用双向LSTM神经网络学习文本的隐藏特征,解决了传统方法通用性不强以及无法捕捉前后文隐含信息的缺点,然后,再使用全连接的方式去判断候选词汇是否属于医疗事件以及识别其相关属性。实验结果表明,本文提出的神经网络模型对医疗文本的抽取效果优于以往学者的方法。相似文献

12.

人脸检测研究综述 总被引：228，自引：1，他引：228

梁路宏艾海舟徐光档张钹《计算机学报》2002,25(5):449-458

人脸检测问题最初作为自动人脸识别系统的定位环节被提出，近年来由于其在安全访问控制，视觉监测、基于内容和检索和新一代人机界面等领域的应用价值，开始作为一个独立的课题受到研究者的普遍重视。该文从人脸检测问题的分类、人脸模式的分析、特征提取与特征综合、性能评价等角度，系统地整理分析了人脸检测问题的研究文献，将人脸检测方法主要划分为基于知识的人脸验证方法和基于统计的学习方法，指出统计学习方法优于启发式验证方法。相似文献

13.

实体关系抽取综述

下载免费PDF全文

王传栋徐娇张永《计算机工程与应用》2020,56(12):25-36

实体关系抽取作为信息抽取任务的重要组成之一，能够对更小粒度的信息进行语义分析，为更多任务提供数据支持。关系抽取发展至今，总体可分为基于传统机器学习和基于深度学习两种方式。基于传统机器学习的关系抽取研究主要以统计和基于规则相结合的方法为主。基于深度学习的框架通过引入远程监督、小样本学习、注意力机制、强化学习、多示例多标记学习等方法取得了丰富的研究成果。回顾实体关系抽取的发展历程，对每种模型进行分析和讨论；结合深度学习方法的最新动态，对实体关系抽取未来的研究方向和趋势进行展望。相似文献

14.

基于知信图卷积神经网络的开放域知识图谱自动构建模型

孙亚茹杨莹王永剑《计算机工程》2022,48(10):116-122

解决多源知识对齐和知识冗余问题是在开放数据域自动构建知识图谱的关键。建立一种融合知信学习与深度学习的知识图谱自动构建模型。分析图卷积神经网络（GCN）模型与知信学习之间的理论联系,以先验知识与深度学习相结合的方式构建实体语义联合空间,将先验知识对模型的干预形式化,并利用自动编码器实现一个细粒度的实体对齐和关系抽取模型。同时,采用GCN与多头注意力相结合的方式,缓解因结构数据中多跳推理造成实体依赖信息丢失的影响。在开源数据集SemEval、FB15k和收集整理的MD数据集上的实验结果表明,该模型针对关系抽取、实体对齐和三元组抽取任务的F1值分别达到89.5%、86.6%和84.2%,较BERT-Softmax模型分别提升了0.3、2.4和0.3个百分点,具有更好的信息学习能力。相似文献

15.

面向招投标领域的远程监督实体关系抽取研究

下载免费PDF全文

陈雨婷刘旭红刘秀磊《计算机工程与应用》2020,56(17):243-250

招投标网站资源中蕴含着丰富的情报信息。“远程监督”方法借助知识库自动标注数据,弥补了传统信息抽取方法在语料准备阶段对人工强依赖的缺陷,可有效提高信息抽取效率。该方法会引入噪声数据,导致信息抽取效果不够理想。因此,提出一种基于因子图模型的远程监督实体关系抽取方法,并结合领域特征,采用知识融合技术提高实体抽取质量,进而针对远程监督的缺陷提出基于负例数据学习的降噪方法。实验结果表明,该方法能够有效减少“噪声”干扰,提高关系抽取性能。相似文献

16.

自然语言信息抽取中的机器学习方法研究 总被引：3，自引：0，他引：3

周俊生戴新宇尹存燕陈家骏《计算机科学》2005,32(3):186-189

信息抽取是一种用于处理各种类型文本文档的非常有效的方法,然而建立一个文本信息抽取系统却是非常困难和耗费时间的。近年来,基于统计的机器学习方法在信息抽取领域的研究受到了广泛关注。本文深入探讨了当前自然语言信息抽取领域广泛采用的几种非常有效的统计学习方法,比较分析了各种方法的统计推断过程和学习算法及其优缺点,讨论了各种统计学习方法所面临的训练语料匮乏问题的主要解决方法,并指出了今后进一步研究的方向。相似文献

17.

HMM在自然语言处理领域中的应用研究

韩普姜杰《微机发展》2010,(2):245-248,252

隐马尔可夫模型（HMM）是一种强大的统计学机器学习技术,该模型已经成功地应用于连续语音识别、在线手写识别,在生物学信息中也得到了广泛的应用。由于该模型的强大的学习能力,在自然语言处理领域逐渐得到了应用。对隐马尔可夫模型在词性标注、命名实体识别、信息抽取应用中的关键问题进行了分析。着重分析了在信息抽取时使用隐马尔可夫模型的重点和难点问题,期望让更多的研究人员进一步认识和了解HMM。最后分析了隐马尔可夫模型在应用中的不足之处和改进研究。相似文献

18.

可重用、个性化网络课程的设计与实现

杨艳霞邹家应《计算机与网络》2009,(14):39-41

学习对象技术是关于可重用网络课程内容开发的相关理论,SCORM标准给出了其技术实现框架,在此基础上,本丈结合用户模型的建立,设计了一个以可重用学习单元为核心构成适应学习者个人需求的网络课程内容定制系统,根据用户要求和已经具备的背景知识,系统能够检索到适应用户学习水平的学习单元,形成既可重用、又具有个性化的网络课程学习内容。相似文献

19.

Image attribute learning with ontology guided fused lasso

Chao Li Zhiyong Feng Yahong Han 《Multimedia Tools and Applications》2016,75(12):7029-7043

Extended from the traditional pure statistical learning methods, we propose to augment the statistical learning methods with ontology and apply this idea for image attribute learning. In order to capture structural information among attributes, the graph-guided fused lasso model is adopted and improved by a new distance metric based on WordNet. The novelty of our method is that we find the semantic correlation with the ontology-guided attribute space and integrate inter-attribute similarity information into the learning model. The hierarchy of ImageNet is exploited to define the image attributes and a dataset from ImageNet including over 30,000 images is collected. The experimental results show that this method can both improve the accuracy and accelerate the algorithm convergency. Moreover, the learned semantic correlation owns transfer ability to related applications. 相似文献

20.

基于多时相Sentinel-2影像的黑河中游玉米种植面积提取研究 总被引：1，自引：0，他引：1

陈彦四黄春林侯金亮韩伟孝冯娅娅李翔华王静《遥感技术与应用》2021,36(2):324-331

玉米是黑河中游种植面积最大的农作物,生长期需水量大、蒸散量高.准确获取玉米种植面积对该区域农作物种植结构调整、水资源合理规划有重要参考意义.基于2019年4月至9月Sentinel-2多时相影像,采用随机森林算法开展了黑河中游玉米种植面积提取研究.研究方法分为两类—直接提取法和两步提取法.进一步探讨了多时间信息量对玉米... 相似文献