首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
电子病历命名实体识别和实体关系抽取研究综述   总被引:2,自引:0,他引:2  
电子病历(Electronic medical records,EMR)产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含了大量与患者健康状况密切相关的医疗知识,因而对它们的识别和抽取是信息抽取研究在医疗领域的重要扩展. 本文首先讨论了电子病历文本的语言特点和结构特点,然后在梳理了命名实体识别和实体关系抽取研究一般思路的基础上,分析了电子病历命名实体识别、实体修饰识别和实体关系抽取研究的具体任务和对应任务的主要研究方法. 本文还介绍了相关的共享评测任务和标注语料库以及医疗领域几个重要的词典和知识库等资源. 最后对这一研究领域仍需解决的问题和未来的发展方向作了展望.  相似文献   

2.
人工智能技术的发展推动了医疗领域的智能化,为提升医疗效率、改善医疗水平提供了新的助力。同时,这一新的趋势也催生了海量的电子病历文本,其所蕴含的丰富信息具有巨大的潜在挖掘与应用价值。然而,当前中文电子病历的命名实体识别研究工作并没有全面考虑中文及中文医疗领域的特殊性,而是将面向通用数据集的模型迁移到医疗领域的实体类型中,分析效果较为有限。针对这一问题,该文设计了长短期记忆网络与条件随机场的联合模型并引入BERT模型;在此基础之上,考虑到医疗领域命名实体鲜明的部首特征,通过将部首信息编码到字向量中,并且结合部首信息修改条件随机场层得分函数的计算方式,有效地提升了医疗领域命名实体的抽取能力。通过两项电子病历数据集的实验结果表明,该文提出的模型整体效果略高于通用的实体识别模型,并对疾病诊断等特定类型的实体词的识别效果具有较为明显的提升。  相似文献   

3.
随着电子病历在医疗领域的推广应用,越来越多的研究者关注如何高效地从电子病历中抽取高价值科研信息。CHIP2018将中文电子病历临床医疗命名实体识别作为评测任务,即从中文电子病历中抽取三种恶性肿瘤相关的实体。结合三种实体的特点和实体间的依赖关系,提出基于多神经网络协作的复杂医疗命名实体识别方法,并实现了句子级别的模型迁移,解决了训练数据集数量和质量问题,最终获得了该评测任务的第二名。此外,该方法的改进方法取得了CCKS2019评测任务一的第一名,印证了其有效性和泛化能力。  相似文献   

4.
中文电子病历命名实体和实体关系语料库构建   总被引:1,自引:0,他引:1  
电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础.  相似文献   

5.
电子病历文本挖掘研究综述   总被引:1,自引:0,他引:1  
电子病历是医院信息化发展的产物,其中包含了丰富的医疗信息和临床知识,是辅助临床决策和药物挖掘等的重要资源.因此,如何高效地挖掘大量电子病历数据中的信息是一个重要的研究课题.近些年来,随着计算机技术尤其是机器学习以及深度学习的蓬勃发展,对电子病历这一特殊领域数据的挖掘有了更高的要求.电子病历综述旨在通过对电子病历研究现状的分析来指导未来电子病历文本挖掘领域的发展.具体而言,综述首先介绍了电子病历数据的特点和电子病历的数据预处理的常用方法;然后总结了电子病历数据挖掘的4个典型任务(医学命名实体识别、关系抽取、文本分类和智能问诊),并且围绕典型任务介绍了常用的基本模型以及研究人员在任务上的部分探索;最后结合糖尿病和心脑血管疾病2类特定疾病,对电子病历的现有应用场景做了简单介绍.  相似文献   

6.
准确的命名实体识别是结构化电子病历的基础, 对于电子病历规范化编写有着重要的作用, 而现今的分词工具对于专业的医疗术语无法做到完全正确的区分, 使得结构化电子病历难以实现. 针对医疗实体识别中出现的问题, 本文提出了一种在命名实体识别领域中改进的BiLSTM-CRF深度学习模型. 模型将文字和标签结合作为输入, 在多头注意力机制中使模型关注更多的有用信息, BiLSTM对输入进行特征提取, 得到每个文字在所有标签上的概率, CRF在训练过程中学习到数据集中的约束, 进行解码时可以提高结果的准确率. 实验使用人工标注的1000份电子病历作为数据集, 使用BIO标注方式. 从测试集的结果来看, 相对于传统的BiLSTM-CRF模型, 该模型在实体类别上的F1值提升了3%–11%, 验证了该模型在医疗命名实体识别中的有效性.  相似文献   

7.
针对中文电子病历中医疗嵌套实体难以处理的问题, 本文基于RoBERTa-wwm-ext-large预训练模型提出一种知识增强的中文电子病历命名实体识别模型ERBEGP. RoBERTa-wwm-ext-large采用的全词掩码策略能够获得词级别的语义表示, 更适用于中文文本. 首先结合知识图谱, 使模型学习到了大量的医疗实体名词, 进一步提高模型对电子病历实体识别的准确性. 然后通过BiLSTM对电子病历输入序列编码, 能够更好捕获病历的中上下语义信息. 最后利用全局指针网络模型EGP (efficient GlobalPointer)同时考虑实体的头部和尾部的特征信息来预测嵌套实体, 更加有效地解决中文电子病历命名实体识别任务中嵌套实体难以处理的问题. 在CBLUE中的4个数据集上本文方法均取得了更好的识别效果, 证明了ERBEGP模型的有效性.  相似文献   

8.
中文命名实体识别(CNER)任务是问答系统、机器翻译、信息抽取等自然语言应用的基础底层任务。传统的CNER系统借助人工设计的领域词典和语法规则,取得了不错的实验效果,但存在泛化能力弱、鲁棒性差、维护难等缺点。近年来兴起的深度学习技术通过端到端的方式自动提取文本特征,弥补了上述不足。该文对基于深度学习的中文命名实体识别任务最新研究进展进行了综述,先介绍中文命名实体识别任务的概念、应用现状和难点,接着简要介绍中文命名实体识别任务的常用数据集和评估方法,并按照主要网络架构对中文命名实体识别任务上的深度学习模型进行分类和梳理,最后对这一任务的未来研究方向进行了展望。  相似文献   

9.
医疗命名实体识别指从海量的非结构化的医疗数据中提取关键信息, 为医学研究的发展和智慧医疗系统的普及提供了基础. 深度学习运用深层非线性的神经网络结构能够学习到复杂、抽象的特征, 可实现对数据更本质的表征. 医疗命名实体识别采用深度学习模型可明显提升效果. 首先, 本文综述了医疗命名实体识别特有的难点以及传统的识别方法; 其次, 总结了基于深度学习方法的模型并介绍了较为流行的模型改进方法, 包括针对特征向量的改进, 针对数据匮乏、 复杂命名实体识别等问题的改进; 最后, 通过综合论述对未来的研究方向进行展望.  相似文献   

10.
电子病历(EMR)是医疗信息快速发展的产物,目前以非结构化文本形式存储。通过使用自然语言处理(NLP)技术,在非结构化文本中提取出大量医学实体,将有助于提升医务人员查阅病历效率,同时识别的成果也将辅助于接下来的关系提取和知识图谱构建等研究。介绍常用的若干个数据集、语料标注标准和评价指标。从早期传统方法、深度学习方法、预训练模型、小样本问题处理四个方面详细阐述电子病历命名实体识别方法,对比分析各模型自身的优势及局限性。探讨了目前研究的不足,并对未来发展方向提出展望。  相似文献   

11.
面向商务信息抽取的产品命名实体识别研究   总被引:12,自引:5,他引:12  
市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchical hidden Markov model)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统。实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7% ,86.9% ,75.8%。通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力。  相似文献   

12.
实体消歧是指在一个具体的知识库中,把一个被标识的实体指称链向它对应条目的过程。实体消歧的任务是根据上下文信息解决一个命名实体指称项对应多个实体概念的一词多义问题,它在从海量数据准确提取信息的知识图谱构建过程中起到重要作用,是自然语言处理中的一项基本任务。该文主要对实体消歧技术的相关研究内容进行综述。首先,阐述了实体消歧的国内外研究背景,并对命名实体识别、候选实体生成、候选实体排序等实体消歧相关理论进行全面梳理。其次,对实体消歧的具体含义及其研究内容进行详细综述,并对实体消歧研究内容的特点进行了分析。再次,将实体消歧技术的实现方法划分为三类并对涉及到的数据集进行归纳,并从四个方面讨论了实体消歧领域存在的难点和提高实体消歧准确率的途径,对消歧方法的优缺点及评价指标进行了总结,意在为改善实体消歧效果提供新的解决思路。最后,对实体消歧技术的应用和发展前景进行总结。  相似文献   

13.
深入了解医疗实体识别的现状和进展,有助于进一步提升医疗实体识别的效果。通过梳理国内外医疗实体识别的相关研究进展和研究成果,并分别从医疗实体概念和分类、国内外重要医疗实体识别评测会议,以及传统的和当代的医疗实体识别方法三方面进行归纳和总结,系统全面地阐述了医疗实体识别的研究现状,指出了当前研究存在的问题,并对医疗实体识别的未来发展趋势进行了展望。从深度学习的视角,仅仅对循环神经网络、长短时记忆神经网络等主流的神经网络模型在医疗实体识别领域的应用进行了分析和总结。在医疗大数据和人工智能背景下,医疗实体识别是医疗领域信息处理和人工智能的基础,并且该研究已经发展成为自然语言处理中新的研究方向,对医疗大数据分析和医疗人工智能具有重要意义。  相似文献   

14.
《软件》2019,(8):208-211
电子病历是医疗单位对门诊部、住院患者临床诊疗与指导干预的、数字化的医疗服务工作的相关记录[1]。为了完成电子病历的高效的信息提取工作,本文使用深度学习的相关算法对电子病历中的文本进行命名实体的识别工作。其算法选择LSTM(Long-Short Term Memory,长短期记忆人工神经网络)和MLP(Multi-Layer Perception,多层神经网络),其用于构建算法模型。该本使用BP网络(Back—PropagationNetwork,后向传播)训练数据模型,应用已经标注的病历数据进行相应的训练与测试。该本通过实验证明,深度学习的算法在电子病历命名实体识别中是高效的[2]。  相似文献   

15.
命名实体识别是自然语言处理领域中的关键技术,地名实体识别是命名实体识别中的重点和难点.结合英文地名具有构成随意、类型复杂繁多的特点,将地名实体识别问题转化为词序列标注的问题,结合条件随机场模型(Conditional Random Fields,CRF),完成英文地名识别任务.  相似文献   

16.
电子病历是诊疗过程中记录患者健康状况的档案, 文本中分布着大量的医学实体, 其中蕴含着丰富的医学信息. 目前医学领域的关系抽取模型主要是通过关系分类的方法识别两个给定医学实体之间的语义关系. 中文电子病历具有实体高密度分布的特点. 针对这个问题, 本文提出了一种基于条件提示与序列标注的关系三元组识别方法, 将关系三元组识别任务转换为序列标注任务. 关系三元组中的头实体和关系类型作为条件提示信息, 通过序列标注方法识别电子病历文本中与条件提示信息有关联的尾实体. 在中文电子病历数据集上的实验证明本文方法能有效识别中文电子病历中的关系三元组.  相似文献   

17.
命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。  相似文献   

18.
为提升传统中文电子病历实体识别预训练模型的语义特征提取能力并增强中文隐含特征表示,提出基于改进预训练语言模型的医疗命名实体识别方法。提出动态词长的逆向最大匹配算法对病历文本进行标注歧义处理,在此基础上构建用户自定义医疗实体字典辅助PKU分词,提高预训练模型掩码效果。输入向量层加入字向量,引入注意力机制学习字向量的全局语义特征。改进预训练模型mask策略和机制并去掉下一句预测,提升词向量语义表征能力。实验结果表明,该方法有效提高了医疗实体的识别效果,F1值达到90.57%。  相似文献   

19.
针对中文电子病历中命名实体识别和实体关系抽取研究方法中存在的问题,提出了一种基于双向长短时记忆网络(bidirectional long short term memory)与CRF(conditional random field)结合的实体识别和实体关系抽取方法。该方法首先使用词嵌入技术将文本转换为数值向量,作为神经网络BiLSTM的输入,再结合CRF链式结构进行序列标注,输出最大概率序列,并对识别结果知识图谱化。实验证明,该方法对中文电子病历进行实体识别和实体关系抽取时的准确率、召回率、◢F◣值有明显的提升。实验结果满足临床中系统应用需求,对帮助研究构建临床决策支持系统、个性化医疗推荐服务有引导作用。  相似文献   

20.
随着各国政府对健康医疗信息系统的投入,电子病历信息挖掘得到越来越多学者的关注。与传统的文本相比,电子病历有其自身的特点.。在2010年i2b2举办的评测中,概念抽取任务最好系统的F值为0.8523,与传统的命名实体识别效果有一定差距。使用了CRF、最大熵两种模型建立了baseline系统并且使用堆积策略综合两者的结果,使得系统的F值达到了91.1%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号