期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

电子病历命名实体识别和实体关系抽取研究综述 总被引：2，自引：0，他引：2

杨锦锋于秋滨关毅蒋志鹏《自动化学报》2014,40(8):1537-1562

电子病历（Electronic medical records,EMR）产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含了大量与患者健康状况密切相关的医疗知识,因而对它们的识别和抽取是信息抽取研究在医疗领域的重要扩展. 本文首先讨论了电子病历文本的语言特点和结构特点,然后在梳理了命名实体识别和实体关系抽取研究一般思路的基础上,分析了电子病历命名实体识别、实体修饰识别和实体关系抽取研究的具体任务和对应任务的主要研究方法. 本文还介绍了相关的共享评测任务和标注语料库以及医疗领域几个重要的词典和知识库等资源. 最后对这一研究领域仍需解决的问题和未来的发展方向作了展望. 相似文献

2.

电子病历命名实体识别研究进展

刘安栋彭琳叶青杜建强程春雷查青林《计算机工程与应用》2023,(21):39-51

电子病历命名实体识别（named entity recognition,NER）旨在识别电子病历文本中的医疗实体,并将其归为预定义的医疗实体类别,为进一步的医疗关系抽取、医疗信息检索、医疗智能问答等自然语言处理任务提供支持。系统梳理了电子病历命名实体识别的定义、标注方法、评价指标及难点;从电子病历命名实体识别难点及技术发展历程两个角度,综述了每类电子病历命名实体识别方法的优势与不足;详细梳理了国内医疗领域命名实体识别的评测任务及数据集;详细讨论和总结电子病历命名实体识别每一类难点的解决方案;总结全文并展望了医疗领域命名实体识别的发展方向。相似文献

3.

深度学习生物医学实体关系抽取研究综述

下载免费PDF全文

隗昊周爱张益嘉陈飞屈雯鲁明羽《计算机工程与应用》2021,57(21):14-23

随着生命科学技术的发展,生物医学领域文献呈指数级增长,如何从海量文献中挖掘、抽取有价值的信息成为生物医学领域新的研究契机。作为信息抽取的核心技术,命名实体识别和关系抽取成为生物医学文本挖掘的基础和关键,其主要工作为识别生物医学文本中的实体,并提取实体间存在的生物医学语义关系。当前深度学习技术在各领域自然语言处理任务中取得了长足的发展,旨在总结基于神经网络的生物医学实体识别和关系抽取的方法,从概念、进展、现状等多角度全面阐述各项技术在生物医学领域的发展历程,进一步明确生物医学文本信息抽取工作的探索方向。相似文献

4.

基于RoBERTa-WWM的中文电子病历命名实体识别

朱岩张利王煜《计算机与现代化》2021,(2):51-55

电子病历（EMRs）中包含着丰富的信息,如临床症状、诊断结果和药物疗效。命名实体识别（Named Entity Recognition, NER）旨在从非结构化文本中抽取命名实体,这也是从电子病历中抽取有价值信息的初始步骤。本文提出一种基于预训练模型RoBERTa-WWM（A Robustly Optimized BERT Pre-training Approach-Whole Word Masking）的命名实体识别方法。该方法引入预训练模型RoBERTa-WWM,利用其生成含有先验知识的语义表示。与BERT（Bidirectional Encoder Representations from Transformers）相比,RoBERTa-WWM生成的语义表示更适用于中文的命名实体识别任务,因为其在预训练阶段会进行全词掩码。RoBERTa-WWM生成的语义表示被依次输入双向长短时记忆（Bidirectional Long Short-Term Memory, BiLSTM）和条件随机场（Conditional Random Field, CRF）模型。实验结果表明,该方法在“2019全国知识图谱与语义计算大会（CCKS 2019）”数据集上可以有效提升F1值,提高中文电子病历中命名实体的识别效果。相似文献

5.

信息抽取研究综述 总被引：3，自引：2，他引：1

郭喜跃何婷婷《计算机科学》2015,42(2):14-17,38

信息抽取的任务是从大量数据中准确、快速地获取目标信息,提高信息的利用率。目前,信息抽取已经成为NLP领域的一个重要分支。随着互联网应用的发展,其价值也正日益显现,学术界和工业界对此都寄予厚望。首先回顾了信息抽取的发展历程;接着从命名实体识别、指代消解、关系抽取和事件抽取4个方面总结了信息抽取关键技术的研究进展;然后分析了信息抽取目前面临的若干主要问题;最后对信息抽取的研究趋势作了预测。相似文献

6.

基于条件提示与序列标注的电子病历关系三元组识别

郭宇捷唐珂轲付立军于碧辉韩振桥《计算机系统应用》2022,31(8):338-344

电子病历是诊疗过程中记录患者健康状况的档案, 文本中分布着大量的医学实体, 其中蕴含着丰富的医学信息. 目前医学领域的关系抽取模型主要是通过关系分类的方法识别两个给定医学实体之间的语义关系. 中文电子病历具有实体高密度分布的特点. 针对这个问题, 本文提出了一种基于条件提示与序列标注的关系三元组识别方法, 将关系三元组识别任务转换为序列标注任务. 关系三元组中的头实体和关系类型作为条件提示信息, 通过序列标注方法识别电子病历文本中与条件提示信息有关联的尾实体. 在中文电子病历数据集上的实验证明本文方法能有效识别中文电子病历中的关系三元组. 相似文献

7.

电子病历关系抽取综述

下载免费PDF全文

王辰李明马金刚《计算机工程与应用》2023,(16):63-73

信息抽取在电子病历上的应用取得丰富的研究成果，使得非结构化的生物医学数据得以利用。关系抽取是信息抽取的重要子任务，是从数据转化为知识的桥梁。根据关系抽取存在的不同问题以及不同解决方案，对关系抽取进行详细分类。整理了电子病历关系抽取领域的相关评测任务和具有代表性的数据集。分阶段对关系抽取在电子病历文本上的应用进展进行综述，重点介绍了深度学习方法在关系抽取上的广泛应用，以及现阶段预训练模型在电子病历关系抽取任务上的进展。对该领域进行展望，提出了未解决的问题以及未来的研究方向。相似文献

8.

地名实体识别研究与展望

王文涛奚雪峰崔志明徐川《计算机工程与应用》2023,(21):66-82

地名作为一种常见的命名实体,广泛存在于非结构化文本中。是非结构化数据转为结构化过程中重要的关联实体。为了全面了解地名识别的最新研究成果和现状,概述了地名识别现有的应用场景、地名识别技术在具体场景的详细应用以及地名识别数据集和评价指标。总结分析了现有的地名识别方法：基于规则和地名词典匹配的方法、基于统计机器学习的方法、基于深度学习模型和混合模型方法。归纳总结了每一种地名识别方法的关键思路、优缺点和具体模型。同时对混合方法的融合特征和模型特点进行了总结归纳。并从模型性能展开比对分析,以及对词嵌入模型和预训练模型的模型特点进行了总结归纳。对地名实体识别研究方向进行总结和展望。相似文献

9.

知识图谱在海洋领域的应用及前景分析综述

下载免费PDF全文

熊中敏马海宇李帅张娜《计算机工程与应用》2022,58(3):15-33

知识图谱主要用于从复杂数据中抽取出关键信息以生成关系网络,其对于复杂关系出色的识别能力以及对于数据较强的描述能力使得知识图谱技术具有很高的应用价值。为给知识图谱在海洋领域的应用提供理论支撑,对知识图谱相关技术进行了总体概述。阐述Citespace文献分析工具的出色应用,针对海洋领域半结构化和非结构化数据抽取技术进行了系统整理,并分析了诸如命名实体识别、关系抽取、事件抽取、知识融合以及知识推理等关键性技术的原理及后续改进,对海洋领域应用知识图谱技术的落地场景及未来前景进行总结与展望。相似文献

10.

部首感知的中文医疗命名实体识别

李丹徐童郑毅王喆锋陈恩红《中文信息学报》2021,34(12):54-64

人工智能技术的发展推动了医疗领域的智能化,为提升医疗效率、改善医疗水平提供了新的助力。同时,这一新的趋势也催生了海量的电子病历文本,其所蕴含的丰富信息具有巨大的潜在挖掘与应用价值。然而,当前中文电子病历的命名实体识别研究工作并没有全面考虑中文及中文医疗领域的特殊性,而是将面向通用数据集的模型迁移到医疗领域的实体类型中,分析效果较为有限。针对这一问题,该文设计了长短期记忆网络与条件随机场的联合模型并引入BERT模型;在此基础之上,考虑到医疗领域命名实体鲜明的部首特征,通过将部首信息编码到字向量中,并且结合部首信息修改条件随机场层得分函数的计算方式,有效地提升了医疗领域命名实体的抽取能力。通过两项电子病历数据集的实验结果表明,该文提出的模型整体效果略高于通用的实体识别模型,并对疾病诊断等特定类型的实体词的识别效果具有较为明显的提升。相似文献

11.

电子病历命名实体识别技术研究综述

下载免费PDF全文

吴智妍金卫岳路生慧《计算机工程与应用》2022,58(21):13-29

电子病历（EMR）是医疗信息快速发展的产物,目前以非结构化文本形式存储。通过使用自然语言处理（NLP）技术,在非结构化文本中提取出大量医学实体,将有助于提升医务人员查阅病历效率,同时识别的成果也将辅助于接下来的关系提取和知识图谱构建等研究。介绍常用的若干个数据集、语料标注标准和评价指标。从早期传统方法、深度学习方法、预训练模型、小样本问题处理四个方面详细阐述电子病历命名实体识别方法,对比分析各模型自身的优势及局限性。探讨了目前研究的不足,并对未来发展方向提出展望。相似文献

12.

基于电子病历的实体识别和知识图谱构建的研究

黄梦醒李梦龙韩惠蕊《计算机应用研究》2019,36(12)

针对中文电子病历中命名实体识别和实体关系抽取研究方法中存在的问题,提出了一种基于双向长短时记忆网络（bidirectional long short term memory）与CRF（conditional random field）结合的实体识别和实体关系抽取方法。该方法首先使用词嵌入技术将文本转换为数值向量,作为神经网络BiLSTM的输入,再结合CRF链式结构进行序列标注,输出最大概率序列,并对识别结果知识图谱化。实验证明,该方法对中文电子病历进行实体识别和实体关系抽取时的准确率、召回率、◢F◣值有明显的提升。实验结果满足临床中系统应用需求,对帮助研究构建临床决策支持系统、个性化医疗推荐服务有引导作用。相似文献

13.

中文电子病历命名实体和实体关系语料库构建 总被引：1，自引：0，他引：1

杨锦锋关毅何彬曲春燕于秋滨刘雅欣赵永杰《软件学报》2016,27(11):2725-2746

电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础. 相似文献

14.

基于条件随机场的中医临床病历命名实体抽取

刘凯 ;周雪忠 ;于剑 ;张润顺《计算机工程》2014,(9):312-316

中医临床病历是中医重要的科研数据资源,但目前临床病历仍以文本为主要表达形式,对病历数据深入分析的前提是进行结构化信息抽取,而命名实体抽取是其基础性步骤。针对中医临床病历的命名实体,如症状、疾病和诱因等的抽取问题,通过手工标注的413份病历数据(以中文字为特征)与4类特征模版,将条件随机场(CRF)、隐马尔科夫模型(HMM)和最大熵马尔科夫模型(MEMM)用于中医病历命名实体抽取的实验,并进行比较分析。结果表明,结合合适的特征模版,CRF命名实体抽取方法取得了较好的性能,F1值的症状达到0.80,疾病名称达到0.74,诱因0.74。与HMM和MEMM相比,CRF有最高的准确率和召回率,是一种较为适用的中医临床病历命名实体抽取方法。相似文献

15.

基于知识增强的中文电子病历命名实体识别

下载免费PDF全文

李宛泽宋波齐岳山《计算机系统应用》2023,32(12):112-119

针对中文电子病历中医疗嵌套实体难以处理的问题, 本文基于RoBERTa-wwm-ext-large预训练模型提出一种知识增强的中文电子病历命名实体识别模型ERBEGP. RoBERTa-wwm-ext-large采用的全词掩码策略能够获得词级别的语义表示, 更适用于中文文本. 首先结合知识图谱, 使模型学习到了大量的医疗实体名词, 进一步提高模型对电子病历实体识别的准确性. 然后通过BiLSTM对电子病历输入序列编码, 能够更好捕获病历的中上下语义信息. 最后利用全局指针网络模型EGP (efficient GlobalPointer)同时考虑实体的头部和尾部的特征信息来预测嵌套实体, 更加有效地解决中文电子病历命名实体识别任务中嵌套实体难以处理的问题. 在CBLUE中的4个数据集上本文方法均取得了更好的识别效果, 证明了ERBEGP模型的有效性. 相似文献

16.

健康领域Web信息抽取

李汝君张俊张晓民桂小庆《计算机应用》2016,36(1):163-170

针对Web信息抽取(WIE)技术在健康领域应用的问题,提出了一种基于WebHarvest的健康领域Web信息抽取方法。通过对不同健康网站的结构分析设计健康实体的抽取规则,实现了基于WebHarvest的自动抽取健康实体及其属性的算法;再把抽取的实体及其属性进行一致性检查后存入关系数据库中,然后对关系数据库中隐含健康实体的属性值利用Ansj自然语言处理方法进行实体识别, 进而抽取健康实体之间的联系。该技术在健康实体抽取实验中,平均F值达到99.9%,在实体联系抽取实验中,平均F值达到80.51%。实验结果表明提出的Web信息抽取技术在健康领域抽取的健康信息具有较高的质量和可信性。相似文献

17.

基于语义先验知识与类型嵌入的复杂实体识别

下载免费PDF全文

姜小波何昆阎广瑜《软件学报》2023,34(12):5649-5669

实体识别是信息抽取的关键任务.随着信息抽取技术的发展,研究人员从简单实体的识别转向复杂实体的识别.然而,复杂实体缺乏明显的特征且在句法结构与词性组成上更加复杂多样,给实体识别带来了巨大挑战.此外,现有模型广泛采用基于跨度的方法来识别嵌套实体,在实体边界检测方面呈现出模糊化,影响识别的性能.针对这些问题和挑战,提出了一种基于语义先验知识与类型嵌入的实体识别模型GIA-2DPE.该模型使用实体类别的关键词序列作为语义先验知识来提升对实体的认知,并通过类型嵌入捕获不同实体类型的潜在特征,然后通过门控交互注意力机制将先验知识与类型特征相融合以辅助复杂实体识别.另外,模型通过2D概率编码来预测实体边界,并利用边界特征和上下文特征来增强对边界的精准检测,从而提升嵌套实体的识别效果.在7个英文数据集和2个中文数据集上进行了广泛实验.结果表明, GIA-2DPE超越了目前最先进的模型;并且在ScienceIE数据集的实体识别任务中,相对基线F1分数取得了最高10.4%的提升. 相似文献

18.

基于多神经网络协作的电子病历命名实体识别方法

张运中纪斌余杰刘慧君《计算机应用与软件》2021,38(2):179-184

随着电子病历在医疗领域的推广应用,越来越多的研究者关注如何高效地从电子病历中抽取高价值科研信息。CHIP2018将中文电子病历临床医疗命名实体识别作为评测任务,即从中文电子病历中抽取三种恶性肿瘤相关的实体。结合三种实体的特点和实体间的依赖关系,提出基于多神经网络协作的复杂医疗命名实体识别方法,并实现了句子级别的模型迁移,解决了训练数据集数量和质量问题,最终获得了该评测任务的第二名。此外,该方法的改进方法取得了CCKS2019评测任务一的第一名,印证了其有效性和泛化能力。相似文献

19.

实体关系抽取综述

下载免费PDF全文

王传栋徐娇张永《计算机工程与应用》2020,56(12):25-36

实体关系抽取作为信息抽取任务的重要组成之一，能够对更小粒度的信息进行语义分析，为更多任务提供数据支持。关系抽取发展至今，总体可分为基于传统机器学习和基于深度学习两种方式。基于传统机器学习的关系抽取研究主要以统计和基于规则相结合的方法为主。基于深度学习的框架通过引入远程监督、小样本学习、注意力机制、强化学习、多示例多标记学习等方法取得了丰富的研究成果。回顾实体关系抽取的发展历程，对每种模型进行分析和讨论；结合深度学习方法的最新动态，对实体关系抽取未来的研究方向和趋势进行展望。相似文献