首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 93 毫秒
1.
电子病历命名实体识别和实体关系抽取研究综述   总被引:2,自引:0,他引:2  
电子病历(Electronic medical records,EMR)产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含了大量与患者健康状况密切相关的医疗知识,因而对它们的识别和抽取是信息抽取研究在医疗领域的重要扩展. 本文首先讨论了电子病历文本的语言特点和结构特点,然后在梳理了命名实体识别和实体关系抽取研究一般思路的基础上,分析了电子病历命名实体识别、实体修饰识别和实体关系抽取研究的具体任务和对应任务的主要研究方法. 本文还介绍了相关的共享评测任务和标注语料库以及医疗领域几个重要的词典和知识库等资源. 最后对这一研究领域仍需解决的问题和未来的发展方向作了展望.  相似文献   

2.
该文探讨了在脑卒中疾病中文电子病历文本中实体及实体间关系的标注问题,提出了适用于脑卒中疾病电子病历文本的实体及实体关系标注体系和规范。在标注体系和规范的指导下,进行了多轮的人工标注及校正工作,完成了158万余字的脑卒中电子病历文本实体及实体关系的标注工作。构建了脑卒中电子病历实体及实体关系标注语料库(Stroke Electronic Medical Record entity and entity related Corpus, SEMRC)。该文所构建的语料库共包含命名实体10 594个,实体关系14 457个。实体名标注一致率达到85.16%,实体关系标注一致率达到94.16%。  相似文献   

3.
电子病历命名实体识别(named entity recognition,NER)旨在识别电子病历文本中的医疗实体,并将其归为预定义的医疗实体类别,为进一步的医疗关系抽取、医疗信息检索、医疗智能问答等自然语言处理任务提供支持。系统梳理了电子病历命名实体识别的定义、标注方法、评价指标及难点;从电子病历命名实体识别难点及技术发展历程两个角度,综述了每类电子病历命名实体识别方法的优势与不足;详细梳理了国内医疗领域命名实体识别的评测任务及数据集;详细讨论和总结电子病历命名实体识别每一类难点的解决方案;总结全文并展望了医疗领域命名实体识别的发展方向。  相似文献   

4.
电子病历(EMRs)中包含着丰富的信息,如临床症状、诊断结果和药物疗效.命名实体识别(Named Entity Recognition,NER)旨在从非结构化文本中抽取命名实体,这也是从电子病历中抽取有价值信息的初始步骤.本文提出一种基于预训练模型RoBERTa-WWM (A Robustly Optimized BE...  相似文献   

5.
本文讨论了从中文电子病历中标注心血管疾病风险因素及其相关信息的问题,提出了适应中文电子病历内容特点的心血管疾病风险因素标注体系,构建了中文健康信息处理领域首份关于心血管疾病风险因素的标注语料库.  相似文献   

6.
针对中文电子病历中医疗嵌套实体难以处理的问题, 本文基于RoBERTa-wwm-ext-large预训练模型提出一种知识增强的中文电子病历命名实体识别模型ERBEGP. RoBERTa-wwm-ext-large采用的全词掩码策略能够获得词级别的语义表示, 更适用于中文文本. 首先结合知识图谱, 使模型学习到了大量的医疗实体名词, 进一步提高模型对电子病历实体识别的准确性. 然后通过BiLSTM对电子病历输入序列编码, 能够更好捕获病历的中上下语义信息. 最后利用全局指针网络模型EGP (efficient GlobalPointer)同时考虑实体的头部和尾部的特征信息来预测嵌套实体, 更加有效地解决中文电子病历命名实体识别任务中嵌套实体难以处理的问题. 在CBLUE中的4个数据集上本文方法均取得了更好的识别效果, 证明了ERBEGP模型的有效性.  相似文献   

7.
针对中文电子病历命名实体识别过程中实体特征利用率低,语义表示不充分等问题,提出一种基于BERT语言模型的命名实体识别方法。运用Char-CNN学习字符的多种特征,将特征加入BERT预训练生成的词向量中,获得融合领域信息和汉字特征的词向量表示,将词向量输入迭代扩张卷积神经网络中进行特征抽取,引入注意力机制加强实体特征的关注度,通过CRF解码标注命名实体。实验结果表明,该方法在CCKS17中取得91.64%的F1值,识别性能优于现有方法。  相似文献   

8.
电子病历(EMR)是医疗信息快速发展的产物,目前以非结构化文本形式存储。通过使用自然语言处理(NLP)技术,在非结构化文本中提取出大量医学实体,将有助于提升医务人员查阅病历效率,同时识别的成果也将辅助于接下来的关系提取和知识图谱构建等研究。介绍常用的若干个数据集、语料标注标准和评价指标。从早期传统方法、深度学习方法、预训练模型、小样本问题处理四个方面详细阐述电子病历命名实体识别方法,对比分析各模型自身的优势及局限性。探讨了目前研究的不足,并对未来发展方向提出展望。  相似文献   

9.
命名实体识别是自然语言处理的基本任务之一。针对中文电子病历命名实体识别传统模型识别效果不佳的问题,提出一种完全基于注意力机制的神经网络模型。实验采用自建真实中文电子病历数据集并对数据集进行人工标注、分词等预处理;对Transformer模型进行训练优化,以提取文本特征;利用条件随机场对提取到的文本特征进行分类识别。为验证所提方法的有效性,将构建的Transformer-CRF神经网络模型与其他7种传统模型进行比较研究,实验采用精确率、召回率和[F1]值三个指标评估模型的识别性能。实验结果显示,在同一语料集下,Transformer-CRF模型对身体部位类的命名实体识别效果较好,[F1]值高达95.02%;且与其他7种传统模型相比,Transformer-CRF模型的精确率、召回率和[F1]值均较高,在一定程度上验证了所构建模型具有较好的识别性能。  相似文献   

10.
随着电子病历在医疗领域的推广应用,越来越多的研究者关注如何高效地从电子病历中抽取高价值科研信息.CHIP2018将中文电子病历临床医疗命名实体识别作为评测任务,即从中文电子病历中抽取三种恶性肿瘤相关的实体.结合三种实体的特点和实体间的依赖关系,提出基于多神经网络协作的复杂医疗命名实体识别方法,并实现了句子级别的模型迁移...  相似文献   

11.
当前医学语料库实体及实体关系的分类体系难以满足精准医学发展需求的问题,该文针对儿科疾病开展研究。在医学领域专家的指导下制定了适合儿科学的命名实体和实体关系的标注体系及详细标注规范;融合国内外相关医学标准资源,利用标注工具对298余万字儿科医学文本中实体及实体关系进行机器预标注、人工标注及人工校对,构建了面向儿科疾病的医学实体及关系语料库。所构建的语料库包含504种儿科常见疾病,共标注命名实体23 603个,实体关系36 513个,多轮标注一致性分别为0.85和0.82。基于该语料库构建了儿科医学知识图谱,并开发了基于知识图谱的儿科医学知识问答系统。  相似文献   

12.
准确的命名实体识别是结构化电子病历的基础,对于电子病历规范化编写有着重要的作用,而现今的分词工具对于专业的医疗术语无法做到完全正确的区分,使得结构化电子病历难以实现.针对医疗实体识别中出现的问题,本文提出了一种在命名实体识别领域中改进的BiLSTM-CRF深度学习模型.模型将文字和标签结合作为输入,在多头注意力机制中使模型关注更多的有用信息, BiLSTM对输入进行特征提取,得到每个文字在所有标签上的概率, CRF在训练过程中学习到数据集中的约束,进行解码时可以提高结果的准确率.实验使用人工标注的1 000份电子病历作为数据集,使用BIO标注方式.从测试集的结果来看,相对于传统的BiLSTM-CRF模型,该模型在实体类别上的F1值提升了3%–11%,验证了该模型在医疗命名实体识别中的有效性.  相似文献   

13.
嵌套命名实体含有丰富的实体和实体间语义关系,有助于提高信息抽取的效率。由于缺少统一的标准中文嵌套命名实体语料库,目前中文嵌套命名实体的研究工作难于比较。该文在已有命名实体语料的基础上采用半自动化方法构建了两个中文嵌套命名实体语料库。首先利用已有中文命名实体语料库中的标注信息自动地构造出尽可能多的嵌套命名实体,然后再进行手工调整以满足对中文嵌套实体的标注要求,从而构建高质量的中文嵌套命名实体识别语料库。语料内和跨语料嵌套实体识别的初步实验表明,中文嵌套命名实体识别仍是一个比较困难的问题,需要进一步研究。  相似文献   

14.
中医临床病历是中医重要的科研数据资源,但目前临床病历仍以文本为主要表达形式,对病历数据深入分析的前提是进行结构化信息抽取,而命名实体抽取是其基础性步骤。针对中医临床病历的命名实体,如症状、疾病和诱因等的抽取问题,通过手工标注的413份病历数据(以中文字为特征)与4类特征模版,将条件随机场(CRF)、隐马尔科夫模型(HMM)和最大熵马尔科夫模型(MEMM)用于中医病历命名实体抽取的实验,并进行比较分析。结果表明,结合合适的特征模版,CRF命名实体抽取方法取得了较好的性能,F1值的症状达到0.80,疾病名称达到0.74,诱因0.74。与HMM和MEMM相比,CRF有最高的准确率和召回率,是一种较为适用的中医临床病历命名实体抽取方法。  相似文献   

15.
在现有的面向中文临床电子病历的命名实体识别任务中,实体标注粒度通常过细或过粗,过细的标注结果难以找到实际应用场景,而过粗的标注结果通常需要在进行复杂的处理后,才能明确实体的规范形式和语义类型,以便于后续的数据挖掘应用.为简化处理步骤,根据常见的7类粗粒度临床实体的特点,定义了用以解释粗粒度实体的9类细粒度解析实体.同时...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号