共查询到13条相似文献,搜索用时 109 毫秒
1.
随着生命科学技术的发展,生物医学领域文献呈指数级增长,如何从海量文献中挖掘、抽取有价值的信息成为生物医学领域新的研究契机。作为信息抽取的核心技术,命名实体识别和关系抽取成为生物医学文本挖掘的基础和关键,其主要工作为识别生物医学文本中的实体,并提取实体间存在的生物医学语义关系。当前深度学习技术在各领域自然语言处理任务中取得了长足的发展,旨在总结基于神经网络的生物医学实体识别和关系抽取的方法,从概念、进展、现状等多角度全面阐述各项技术在生物医学领域的发展历程,进一步明确生物医学文本信息抽取工作的探索方向。 相似文献
2.
面向法律文本的实体关系联合抽取技术对于案情关键信息的智能提取至关重要,是智慧司法领域应用中的重要环节。目前的联合抽取方法虽然已经在特定罪名案件的数据集上取得了较好的效果,但是由于模型在训练时只关注了特定罪名类型文本数据的特点,使得模型的泛化能力有限,在应用到多罪名案件的情况下常常使得模型的效果下降。因此引入多任务学习的方法对多罪名情形下的实体关系联合抽取进行了研究,以涉毒类案件和盗窃类案件两大类罪名的文书数据为基础,构建了一个罪名分类任务作为联合抽取的辅助任务,通过基于特征筛选的动态加权多任务模型同时对两个任务进行学习,在单任务模型的基础上整体F1值提升了2.4个百分点,在涉毒类案件和盗窃类案件上的F1值分别提升了1.6和3.2个百分点。 相似文献
3.
在非结构化生物医学文本数据中提取出实体之间的关系,对生物医学的信息化发展有着重大意义,同时也是自然语言处理领域的研究热点。目前,在生物医学数据中正确地提取出实体间的关系面临着两个难点:1)由于在生物医学数据中实体单词大多由复合词、未知词组成,模型难以学习到实体内部的语义特征;2)由于生物医学带标注数据较少,而神经网络的参数量较大,使得神经网络容易过拟合。因此,文中提出了基于提示学习的生物医学关系抽取方法,增加了一种针对实体的注解标签,来对实体进行提示以达到实体语义增强以及联系上下文信息的目的。此外,在传统提示调优方法的基础上,文中使用连续性模板来缓解人工设计模板所带来的性能偏差,同时结合深度前缀控制attention的深度提示能力,使模型在处理较少数据的情况时仍能取得良好的效果。 相似文献
4.
事件抽取旨在从非结构化的文本中提取人们感兴趣的信息,并以结构化的形式呈现给用户.当前,大多数中文事件抽取系统采用连续的管道模型,即:先识别事件触发词,后识别事件元素.其容易产生级联错误,且处于下游的任务无法将信息反馈至上游任务,辅助上游任务的识别.将事件抽取看作序列标注任务,构建了基于CRF多任务学习的中文事件抽取联合模型.针对仅基于CRF的事件抽取联合模型的缺陷进行了两个扩展:首先,采用分类训练策略解决联合模型中事件元素的多标签问题(即:当一个事件提及中包含多个事件时,同一个实体往往会在不同的事件中扮演不同的角色).其次,由于处于同一事件大类下的事件子类,其事件元素存在高度的相互关联性.为此,提出采用多任务学习方法对各事件子类进行互增强的联合学习,进而有效缓解分类训练后的语料稀疏问题.在ACE 2005中文语料上的实验证明了该方法的有效性. 相似文献
5.
6.
7.
常用的神经网络,如卷积神经网络(CNN)和循环神经网络(RNN),在关系抽取任务中都表现出了很不错的效果。然而,卷积神经网络擅长捕获局部特征,但不太适合处理序列特征;传统的循环神经网络虽然可以有效提取长距离词之间的特征,但容易出现梯度消失或梯度爆炸问题。针对这些问题,提出了一种结合BiLSTM-CNN-Attention的混合神经网络模型。BiLSTM和CNN的结合使它们优劣互补,而Attention的引入能够突出实体间关系词在整个句子中的重要性。并且,在词嵌入层使用拼接词向量,克服了词向量单一表示的问题。实验结果表明,相比word2vec词向量,拼接词向量能够获取语义更丰富的词向量,使词向量的健壮性更强。与BiLSTM-CNN、CNN-Attention和BiLSTM-Attention模型相比,BiLSTM-CNN-Attention混合模型的准确率和F1值都有所提升。 相似文献
8.
中文电子病历NER是医疗信息抽取的难点。本文提出一种多任务学习的实体识别方法,联合实体识别和分词训练模型,使用基于Bi-LSTM的私有层提取专有信息,融合注意力网络作为共享层并增加通用特征增强机制来筛选全局信息,降低过拟合风险并增强模型的泛化能力。此外提出均衡样本过采样方法扩充数据集,有效解决实体类别不平衡所带来的问题。使用CCKS2017/CCKS2020电子病历实体识别语料和Medicine医药分词语料联合训练,实验结果显示本文提出的模型整体性能提升明显,同时也显著提高了Medicine语料的分词实验效果,F1值较基线提升了3个百分点。实验表明本文提出的模型能够有效改善因电子病历中数据不规范、无结构或专有名词等原因造成的实体切分错误等问题。 相似文献
9.
实体关系抽取作为信息抽取任务的重要组成之一,能够对更小粒度的信息进行语义分析,为更多任务提供数据支持。关系抽取发展至今,总体可分为基于传统机器学习和基于深度学习两种方式。基于传统机器学习的关系抽取研究主要以统计和基于规则相结合的方法为主。基于深度学习的框架通过引入远程监督、小样本学习、注意力机制、强化学习、多示例多标记学习等方法取得了丰富的研究成果。回顾实体关系抽取的发展历程,对每种模型进行分析和讨论;结合深度学习方法的最新动态,对实体关系抽取未来的研究方向和趋势进行展望。 相似文献
10.
实体关系抽取作为文本挖掘和信息抽取的核心任务,意图从自然语言文本中识别并判定实体对之间存在的特定关系,为智能检索、语义分析等提供了基础支持,有助于提高搜索效率,是自然语言处理领域中的研究热点。相比从单句中进行抽取,文档中包含了更加丰富的实体关系语义,因此近年来很多新的抽取方法纷纷将研究重点从句子层次转移到文档层次,并取得了丰富的研究成果。文中系统地总结了近年来文档级实体关系抽取的主流方法和研究进展。首先概述了文档级关系抽取问题及面临的挑战,然后从基于序列、基于图和基于预训练语言模型3个方面介绍多种文档级关系抽取方法,最后对各种方法使用的数据集及实验进行对比分析,并对未来可能的研究方向进行了探讨和展望。 相似文献
11.
生物医学因果关系抽取是BioCreative社区提出的一项评测任务,旨在挖掘生物医学实体间丰富的语义关系,并用生物医学表征语言(biological expression language, BEL)来表示。与传统的实体关系抽取不同,该任务不仅包含实体间因果关系的抽取,还包含实体功能的识别。此前已经提出了一些该任务的解决方法,但均未考虑这两个子任务间的关联性。该文基于多任务的思想,提出一种二元关系抽取和一元功能识别共同决策的联合学习模式。首先两个任务共享底层向量表示,然后利用长短期记忆(long short-term memory, LSTM)网络和门控机制学习两个任务之间的交互表示,最后分别进行分类预测。实验结果表明,该方法能够融合两个子任务的信息,在2015 BC-V测试集上获得了45.3%的F值。 相似文献
12.
针对非结构化自由文本中关系模式比较复杂,关系抽取性能不高的问题,该文提出了利用BP神经网络的优化算法-LM算法,对非结构化自由文本信息中的领域概念实体属性关系进行抽取。首先对语料进行预处理,然后利用CRFs模型对领域概念的实例、属性和属性值进行实体识别,然后根据领域中各类关系的特点分别进行特征提取,构造BP神经网络模型,利用LM算法抽取相应关系。和适用于二分类问题的SVM相比,人工神经网络优化算法自主学习能力强,识别精度高,更适用于多分类的问题。通过几组实验表明,该方法在领域概念实体属性关系抽取方面取得了良好的效果, F值提高了12.8%。 相似文献
13.
在自然语言处理领域,信息抽取一直以来受到人们的关注.信息抽取主要包括3项子任务:实体抽取、关系抽取和事件抽取,而关系抽取是信息抽取领域的核心任务和重要环节.实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系,这为智能检索、语义分析等提供了基础支持,有助于提高搜索效率,促进知识库的自动构建.综合阐述了实体关系抽取的发展历史,介绍了常用的中文和英文关系抽取工具和评价体系.主要从4个方面展开介绍了实体关系抽取方法,包括:早期的传统关系抽取方法、基于传统机器学习、基于深度学习和基于开放领域的关系抽取方法,总结了在不同历史阶段的主流研究方法以及相应的代表性成果,并对各种实体关系抽取技术进行对比分析.最后,对实体关系抽取的未来重点研究内容和发展趋势进行了总结和展望. 相似文献