首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
特定领域实体具有分布稀疏、类型有限、领域性强等特点,与普通命名实体具有较大差别,在使用神经网络模型构建识别模型中面临训练语料规模有限、带标实体稀疏等困难。以武器装备名识别为例,研究深度学习框架下,词性、句法和领域知识融入神经网络模型的方法和效果。实验结果表明,在融入词性和领域知识后,武器装备名识别的F值分别提升了0.97%与9.5%。此外,通过在不同语料规模下进行实验并定量分析不同类型特征的分布特点,初步给出造成不同类型特征对深度学习模型有着不同支持作用的原因。  相似文献   

2.
准确的命名实体识别是结构化电子病历的基础,对于电子病历规范化编写有着重要的作用,而现今的分词工具对于专业的医疗术语无法做到完全正确的区分,使得结构化电子病历难以实现.针对医疗实体识别中出现的问题,本文提出了一种在命名实体识别领域中改进的BiLSTM-CRF深度学习模型.模型将文字和标签结合作为输入,在多头注意力机制中使模型关注更多的有用信息, BiLSTM对输入进行特征提取,得到每个文字在所有标签上的概率, CRF在训练过程中学习到数据集中的约束,进行解码时可以提高结果的准确率.实验使用人工标注的1 000份电子病历作为数据集,使用BIO标注方式.从测试集的结果来看,相对于传统的BiLSTM-CRF模型,该模型在实体类别上的F1值提升了3%–11%,验证了该模型在医疗命名实体识别中的有效性.  相似文献   

3.
针对中文电子病历中医疗嵌套实体难以处理的问题, 本文基于RoBERTa-wwm-ext-large预训练模型提出一种知识增强的中文电子病历命名实体识别模型ERBEGP. RoBERTa-wwm-ext-large采用的全词掩码策略能够获得词级别的语义表示, 更适用于中文文本. 首先结合知识图谱, 使模型学习到了大量的医疗实体名词, 进一步提高模型对电子病历实体识别的准确性. 然后通过BiLSTM对电子病历输入序列编码, 能够更好捕获病历的中上下语义信息. 最后利用全局指针网络模型EGP (efficient GlobalPointer)同时考虑实体的头部和尾部的特征信息来预测嵌套实体, 更加有效地解决中文电子病历命名实体识别任务中嵌套实体难以处理的问题. 在CBLUE中的4个数据集上本文方法均取得了更好的识别效果, 证明了ERBEGP模型的有效性.  相似文献   

4.
命名实体识别是自然语言处理任务的重要环节。近年来,基于深度学习的通用命名实体识别模型取得显著效果。而在旅游领域,中文旅游景点实体识别主要依赖于特征工程的方法。提出一种基于CNN-BiLSTM-CRF的网络模型,该模型不使用任何人工特征,通过神经网络充分对文本的局部信息特征进行抽象化抽取和表示,并学习和利用文本的上下文信息,实现对景点实体的识别。实验结果显示,该方法能够有效识别中文旅游景点实体,并在实验中取得[F1]值93.9%的效果。  相似文献   

5.
在知识图谱的知识表示学习中,绝大多数方法都是将知识图谱中实体和关系映射到低维的连续向量空间中,但数据的稀疏和信息的不足仍会导致实体和关系语义表示的不完整性.针对这个问题,提出基于图上下文的知识表示学习模型(Context_RL).将知识图谱中实体和关系的上下文信息作为可靠数据来源和输入.通过计算实体和关系的语义相似度,将图上下文信息融入向量表示中,在语义的层面上提高了知识图谱表示学习的能力.通过实体预测和三元组分类实验,在有关数据集上,Context_RL的实验结果比其他模型更好.  相似文献   

6.
人工智能技术的发展推动了医疗领域的智能化,为提升医疗效率、改善医疗水平提供了新的助力。同时,这一新的趋势也催生了海量的电子病历文本,其所蕴含的丰富信息具有巨大的潜在挖掘与应用价值。然而,当前中文电子病历的命名实体识别研究工作并没有全面考虑中文及中文医疗领域的特殊性,而是将面向通用数据集的模型迁移到医疗领域的实体类型中,分析效果较为有限。针对这一问题,该文设计了长短期记忆网络与条件随机场的联合模型并引入BERT模型;在此基础之上,考虑到医疗领域命名实体鲜明的部首特征,通过将部首信息编码到字向量中,并且结合部首信息修改条件随机场层得分函数的计算方式,有效地提升了医疗领域命名实体的抽取能力。通过两项电子病历数据集的实验结果表明,该文提出的模型整体效果略高于通用的实体识别模型,并对疾病诊断等特定类型的实体词的识别效果具有较为明显的提升。  相似文献   

7.
电子病历命名实体识别(named entity recognition,NER)旨在识别电子病历文本中的医疗实体,并将其归为预定义的医疗实体类别,为进一步的医疗关系抽取、医疗信息检索、医疗智能问答等自然语言处理任务提供支持。系统梳理了电子病历命名实体识别的定义、标注方法、评价指标及难点;从电子病历命名实体识别难点及技术发展历程两个角度,综述了每类电子病历命名实体识别方法的优势与不足;详细梳理了国内医疗领域命名实体识别的评测任务及数据集;详细讨论和总结电子病历命名实体识别每一类难点的解决方案;总结全文并展望了医疗领域命名实体识别的发展方向。  相似文献   

8.
《软件》2019,(8):208-211
电子病历是医疗单位对门诊部、住院患者临床诊疗与指导干预的、数字化的医疗服务工作的相关记录[1]。为了完成电子病历的高效的信息提取工作,本文使用深度学习的相关算法对电子病历中的文本进行命名实体的识别工作。其算法选择LSTM(Long-Short Term Memory,长短期记忆人工神经网络)和MLP(Multi-Layer Perception,多层神经网络),其用于构建算法模型。该本使用BP网络(Back—PropagationNetwork,后向传播)训练数据模型,应用已经标注的病历数据进行相应的训练与测试。该本通过实验证明,深度学习的算法在电子病历命名实体识别中是高效的[2]。  相似文献   

9.
电子病历命名实体识别和实体关系抽取研究综述   总被引:2,自引:0,他引:2  
电子病历(Electronic medical records,EMR)产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含了大量与患者健康状况密切相关的医疗知识,因而对它们的识别和抽取是信息抽取研究在医疗领域的重要扩展. 本文首先讨论了电子病历文本的语言特点和结构特点,然后在梳理了命名实体识别和实体关系抽取研究一般思路的基础上,分析了电子病历命名实体识别、实体修饰识别和实体关系抽取研究的具体任务和对应任务的主要研究方法. 本文还介绍了相关的共享评测任务和标注语料库以及医疗领域几个重要的词典和知识库等资源. 最后对这一研究领域仍需解决的问题和未来的发展方向作了展望.  相似文献   

10.
中文电子病历命名实体和实体关系语料库构建   总被引:1,自引:0,他引:1  
电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础.  相似文献   

11.
李玘  刘瑞 《信息与电脑》2023,(23):156-158
医疗命名实体识别是指自动从医疗文本中识别和标记与医疗领域相关的实体名称,对提高医学信息处理的效率和准确性具有重要意义。分析医疗命名实体识别面临的挑战,介绍基于传统机器学习和深度学习的识别模型,并展望医疗命名实体识别在自然语言处理领域的发展趋势。  相似文献   

12.
为提升传统中文电子病历实体识别预训练模型的语义特征提取能力并增强中文隐含特征表示,提出基于改进预训练语言模型的医疗命名实体识别方法。提出动态词长的逆向最大匹配算法对病历文本进行标注歧义处理,在此基础上构建用户自定义医疗实体字典辅助PKU分词,提高预训练模型掩码效果。输入向量层加入字向量,引入注意力机制学习字向量的全局语义特征。改进预训练模型mask策略和机制并去掉下一句预测,提升词向量语义表征能力。实验结果表明,该方法有效提高了医疗实体的识别效果,F1值达到90.57%。  相似文献   

13.
针对中文电子病历命名实体识别过程中实体特征利用率低,语义表示不充分等问题,提出一种基于BERT语言模型的命名实体识别方法。运用Char-CNN学习字符的多种特征,将特征加入BERT预训练生成的词向量中,获得融合领域信息和汉字特征的词向量表示,将词向量输入迭代扩张卷积神经网络中进行特征抽取,引入注意力机制加强实体特征的关注度,通过CRF解码标注命名实体。实验结果表明,该方法在CCKS17中取得91.64%的F1值,识别性能优于现有方法。  相似文献   

14.
电子病历中包含大量有用的医疗知识,抽取这些知识对于构建临床决策支持系统和个性化医疗健康信息服务具有重要意义。自动分词是分析和挖掘中文电子病历的关键基础。为了克服获取标注语料的困难,提出了一种基于无监督学习的中文电子病历分词方法。首先,使用通用领域的词典对电子病历进行初步的切分,为了更好地解决歧义问题,引入概率模型,并通过EM算法从生语料中估计词的出现概率。然后,利用字串的左右分支信息熵构建良度,将未登录词识别转化为最优化问题,并使用动态规划算法进行求解。最后,在3 000来自神经内科的中文电子病历上进行实验,证明了该方法的有效性。  相似文献   

15.
医疗命名实体识别指从海量的非结构化的医疗数据中提取关键信息,为医学研究的发展和智慧医疗系统的普及提供了基础.深度学习运用深层非线性的神经网络结构能够学习到复杂、抽象的特征,可实现对数据更本质的表征.医疗命名实体识别采用深度学习模型可明显提升效果.首先,本文综述了医疗命名实体识别特有的难点以及传统的识别方法;其次,总结了基于深度学习方法的模型并介绍了较为流行的模型改进方法,包括针对特征向量的改进,针对数据匮乏、复杂命名实体识别等问题的改进;最后,通过综合论述对未来的研究方向进行展望.  相似文献   

16.
基于BLSTM的命名实体识别方法   总被引:1,自引:0,他引:1  
传统的命名实体识别方法直接依靠大量的人工特征和专门的领域知识,解决了监督学习语料不足的问题,但设计人工特征和获取领域知识的代价昂贵。针对该问题,提出一种基于BLSTM(Bidirectional Long Short-Term Memory)的神经网络结构的命名实体识别方法。该方法不再直接依赖于人工特征和领域知识,而是利用基于上下文的词向量和基于字的词向量,前者表达命名实体的上下文信息,后者表达构成命名实体的前缀、后缀和领域信息;同时,利用标注序列中标签之间的相关性对BLSTM的代价函数进行约束,并将领域知识嵌入模型的代价函数中,进一步增强模型的识别能力。实验表明,所提方法的识别效果优于传统方法。  相似文献   

17.
针对中文电子病历中命名实体识别和实体关系抽取研究方法中存在的问题,提出了一种基于双向长短时记忆网络(bidirectional long short term memory)与CRF(conditional random field)结合的实体识别和实体关系抽取方法。该方法首先使用词嵌入技术将文本转换为数值向量,作为神经网络BiLSTM的输入,再结合CRF链式结构进行序列标注,输出最大概率序列,并对识别结果知识图谱化。实验证明,该方法对中文电子病历进行实体识别和实体关系抽取时的准确率、召回率、◢F◣值有明显的提升。实验结果满足临床中系统应用需求,对帮助研究构建临床决策支持系统、个性化医疗推荐服务有引导作用。  相似文献   

18.
电子病历文本挖掘研究综述   总被引:1,自引:0,他引:1  
电子病历是医院信息化发展的产物,其中包含了丰富的医疗信息和临床知识,是辅助临床决策和药物挖掘等的重要资源.因此,如何高效地挖掘大量电子病历数据中的信息是一个重要的研究课题.近些年来,随着计算机技术尤其是机器学习以及深度学习的蓬勃发展,对电子病历这一特殊领域数据的挖掘有了更高的要求.电子病历综述旨在通过对电子病历研究现状的分析来指导未来电子病历文本挖掘领域的发展.具体而言,综述首先介绍了电子病历数据的特点和电子病历的数据预处理的常用方法;然后总结了电子病历数据挖掘的4个典型任务(医学命名实体识别、关系抽取、文本分类和智能问诊),并且围绕典型任务介绍了常用的基本模型以及研究人员在任务上的部分探索;最后结合糖尿病和心脑血管疾病2类特定疾病,对电子病历的现有应用场景做了简单介绍.  相似文献   

19.
随着医疗信息化水平的不断提高,电子病历得到了越来越广泛的应用,其中的非结构化文本包含大量蕴含患者病况信息的可度量数量信息,由于实体与数量信息表述的复杂性,从非结构化电子病历文档中精准抽取可度量数量信息是一个重要的挑战.本文基于双向门控循环单元提出了结合相对位置特征与注意力机制的RPA-GRU模型,通过将相对位置特征融入注意力机制更新双向门控循环单元输出,识别实体与数量信息.并基于重构句法依存树的图注意力网络学习图级表示提出GATM模型,实现实体与数量信息的关联.实验基于1 359份三甲医院烧伤科电子病历数据,结果表明RPA-GRU模型与GATM模型在可度量数量信息识别和关联上分别获得97.58%与97.86%的F1值,比表现最好的基线模型分别高出2.17%与1.74%,验证了所提出模型的有效性.  相似文献   

20.
构建地质领域的知识图谱有助于便捷高效地共享和应用多源地质知识,而地质关系三元组抽取对地质领域知识图谱构建具有重要意义。针对现有实体关系联合抽取模型无法有效识别重叠三元组的问题,考虑地质领域专业知识的特殊性,基于预训练语言模型BERT建立一种用于地质领域关系三元组抽取的层级标注模型HtERT。采用中文预训练语言模型BERT-wwm替代原始的BERT模型作为底层编码器,以提高模型对中文的编码能力。在实体识别阶段,引入关于实体起始位置的嵌入表示来限制实体的抽取长度,从而提升实体识别的准确度。引入全局上下文信息和BiLSTM网络使得模型抽取到的特征能更精确地表示地质样本信息,增强模型对地质关系三元组以及重叠三元组的抽取能力。在地质领域数据集上的实验结果表明,HtERT模型相比于PCNN、BiLSTM、PCNN+ATT、CASREL等基线模型具有明显优势,精确率、召回率以及F1值分别平均提升15.24、10.96和13.20个百分点,验证了该模型在地质领域实体关系联合抽取任务中的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号