首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 312 毫秒
1.
医疗病历命名实体识别的主要任务是将临床电子病历中的非结构化文本转化为结构化数据,进而为面向医疗领域任务开展的数据挖掘提供基础支撑. 提出一种基于ALBERT模型融合学习的中文医疗病历命名实体识别模型. 首先,采用人工标注方式扩展样本数据集,结合ALBERT模型对数据集进行微调; 其次,采用双向长短记忆网络(BiLSTM)提取文本的全局特征; 最后,基于条件随机场模型(CRF)命名实体的序列标记. 在标准数据集上的实验结果表明,该方法进一步提高了医疗文本命名识别精度,减少了时间开销.  相似文献   

2.
针对中文电子病历命名实体识别过程中文本语义表示不充分、特征抽取效率低等缺陷,提出一种融合多特征和迭代扩张卷积的命名实体识别方法。该方法首先构建基于卷积神经网络(CNN)的字嵌入算法,将生成的字向量与词向量等外部特征信息融合后送入迭代扩张卷积神经网络(IDCNN)中进行特征抽取,引入注意力机制加强序列间依赖关系,最后通过CRF解码最优标签序列。该方法在CCKS2017中文电子病历数据集中取得了91.36%的F1值,识别性能优于现有方法,同时验证了融合多特征的语义表示对中文实体识别有一定性能提升。  相似文献   

3.
针对中文医疗电子病历命名实体识别中,传统的字或词向量无法很好地表示上下文语义以及传统RNN并行计算能力不足等问题,提出了一个基于BERT的医疗电子病历命名实体识别模型。该模型中的BERT预训练语言模型可以更好地表示电子病历句子中的上下文语义,迭代膨胀卷积神经网络(IDCNN)对局部实体的卷积编码有更好的识别效果,多头注意力(MHA)多次计算每个字和所有字的注意力概率以获取电子病历句子的长距离依赖。实验结果表明,BERT-IDCNN-MHA-CRF模型能够较好地识别电子病历中的医疗实体,模型的精确率、召回率和F_1值相比于基线模型分别提高了1.80%,0.41%,1.11%。  相似文献   

4.
为了避免问句理解阶段过度依赖命名实体,通过语义关系理解中文自然语言问句中关键信息的逻辑关系,提出基于依赖结构的语义关系识别方法,从问句的依赖结构集中识别出对生成语义关系有价值的三类依赖结构集,将三类依赖结构集组合或转换得到语义关系。在中文标准问答数据集上的试验结果验证了本语义关系识别方法的有效性和可扩展性,本方法在命名实体识别失败时也可以理解中文自然语言问句。  相似文献   

5.
基于医疗类别的电子病历命名实体识别研究   总被引:2,自引:2,他引:0  
基于电子病历命名实体识别对智慧医疗和医疗知识图谱的构建具有重要意义,提出一种基于医疗类别的命名实体识别方法。首先,针对电子病历语料中实体特点进行深度挖掘,将电子病历分为4类医疗类别;然后,对各医疗类别分别构建特征集,并使用条件随机场模型对身体部位、症状和体征、检查与检验、疾病与诊断、治疗等5类命名实体进行命名实体识别;最后,将基于医疗类别特征集识别效果和通用特征集的识别结果进行对比。实验结果表明,基于医疗类别的电子病历命名实体识别效果显著提升,可以满足应用需求。  相似文献   

6.
为了解决在中文电子病历命名实体识别任务中,基于字符粒度 NER 方法对序列信息遗漏的 问题,以及引入外部词典资源方法所带来的运算效率问题,提出一种基于 SoftLexicon 的医疗实体识别模 型。首先,将输入序列中的每个字符映射到一个稠密向量中;接下来,引入外部词典资源,为每个字符构造 SoftLexicon特征,并将其添加到对应的字向量表示中;然后,将这些增强的字符表示放入Bi-LSTM和CRF层, 以获得最终的识别结果。该模型既能有效捕捉句子序列中字符的特征,提取上下文之间的依赖关系,又能实 现标签预测的顺序性。以 CCKS-2020 医疗命名实体识别评测任务提供的电子病历数据作为实验数据集,实 验结果表明,与基于字符粒度的传统 NER 方法相比,所提方法在实体识别性能和效率上都显著提高。  相似文献   

7.
命名实体识别是自然语言处理的核心任务。在基于深度学习的中文命名实体识别方法中,静态字向量无法表征字的多义性。针对该问题,提出了基于XLnet嵌入的中文命名实体识别方法。该方法首先通过XLnet(Generalized Autoregressive Pretraining for Language Understanding,XLnet)模型获取字级别的上下文表示。其次,利用BiLSTM-CRF模型获取文本依赖信息和标签信息。实验结果表明,该方法在人民日报、MSRA、Boson等3种数据集上分别达到91.9%、89.8%、74%的F1值,均高于其他主流的中文命名实体识别方法。  相似文献   

8.
命名实体识别(Name Entity Recognition,NER)是文本信息抽取的关键步骤之一。近年来,结合词汇信息与字符信息的命名实体识别方法表现优异,引起了众多学者的广泛注意。然而目前的字词融合策略还存在可迁移性差、词汇信息遗失、难以明确词汇边界信息等问题。基于此,提出一种动态字词信息融合的中文命名实体识别方法,首先利用多头自注意力机制动态融合对应位置的词汇信息与字符信息形成词汇集合信息,其次动态融合词汇集合信息确定对应的词汇边界,利用词汇向量优化字符向量表示,最后利用BiLSTM-CRF完成序列解码识别命名实体。实验证明,在MSRA、ONTO、WEIBO等3个公开数据集上,中文命名实体识别方法较之字粒度的命名实体识别方法性能大幅提升,同时可与BERT等预训练模型有效结合,具有良好的可迁移性、可完整而动态的融合词汇信息与字符信息提升命名实体识别性能。  相似文献   

9.
命名实体识别是自然语言处理中一项非常重要的任务, 一句话中可以正确理解其中的实体, 对于是否能正确理解这句话至关重要, 而中文的命名实体识别相比英文更有难度, 原因在于中文没有英文中类似空格的边界标示词, 且存在复杂的嵌套现象。针对现有的中文命名实体识别方法中大多只利用单一层次的特征这一问题, 利用Bert中文预训练集和额外的词汇数据集的融合模型增强词意和中文上下文联系, 采用BiGRU 网络获取序列特征矩阵,通过条件随机场模型生成全局最优序列, 从而提升实体识别准确率。实验结果表明该方法在公开数据集上的效果优于现有模型。  相似文献   

10.
提出了一种基于Transformer编码器和BiLSTM的字级别中文命名实体识别方法,将字向量与位置编码向量拼接成联合向量作为字表示层,避免了字向量信息的损失和位置信息的丢失;利用BiLSTM为联合向量融入方向性信息,引入Transformer编码器进一步抽取字间关系特征。实验结果表明,该方法在MSRA数据集和唐卡数据集上的F1值分别达到了81.39%和86.99%,有效提升了中文命名实体识别的效果。  相似文献   

11.
提出了一种基于多特征的中文文本蕴含识别方法,首先对文本进行预处理、中文分词、词性标注、命名实体识别、依存分析等处理;然后提取字符串特征、句法特征、语义特征等,使用贝叶斯逻辑回归模型进行预测;最后再使用规则进行修正,得到最终的识别结果.该方法在2014年RITE-VAL 评测任务的CS 数据上的MacroF1为0.625,超过目前最好的研究现状(MacroF1:0.615, BUPTTeam-CS-SVBC-05).  相似文献   

12.
由于缺乏大量已标注数据,在中文医疗命名实体识别中,主要利用外部资源来改善医疗实体识别的性能,这需要大量的时间和有效的规则加入外部资源.为了解决标注数据不足的问题,提出了一种基于生成对抗网络的数据增强算法,自动生成大量标注数据,提高医疗实体识别的性能.实验结果表明,该算法在性能方面优于实验中的基准模型,证明了该算法在医疗实体识别上的有效性.  相似文献   

13.
为了改善通用预训练模型不适应医疗领域的命名实体识别任务这一不足,提出了一种融合医疗领域知识图谱的神经网络架构,该架构利用弹性位置和遮盖矩阵使预训练模型计算自注意力时避免语义混淆和语义干扰,在微调时使用多任务学习的思想,利用回忆学习的优化算法使预训练模型均衡通用语义表达和目标任务的学习,最终得到更为高效的向量表示并进行标签预测。实验结果表明:本文提出的命名实体识别架构在医疗领域上取得了优于主流预训练模型的效果,在通用领域也有较为良好的效果。该架构避免了重新训练针对某个领域的预训练模型和引入额外的编码结构从而精简了计算代价和模型大小。此外,通过消融实验对比,医疗领域对于知识图谱的依赖程度较通用领域依赖程度更大,这说明在医疗领域中融合知识图谱方法的有效性。通过参数分析,证明本文使用回忆学习的优化算法可以有效控制模型参数的更新,使模型可以保留更多的通用语义信息并得到更符合语义的向量表达。本文也通过实验分析说明了所提方法在实体数量少的种类上具有更优的表现。  相似文献   

14.
为提高传统命名实体识别模型在中文电子病历上的准确性,提出一种在基线模型B E RT-BiLSTM-CRF中加入对抗训练的方法,该方法在词嵌入层添加扰动因子从而生成对抗样本,并利用对抗样本进行迭代训练,从而优化模型参数.CCKS2021评测数据集实验结果表明,加入FGM和PGD两个对抗训练模型后,其精准率、召回率以及F1...  相似文献   

15.
为获取新的气味识别方法以提高智能传感器模式分类识别准确率和速度,使用了内置10个传感器的便携式电子鼻PEN3对辛味中药材进行气味采集检测.将辛味中药材在烧杯中进行密封静置待其形成稳定的气味顶空环境时,运用电子鼻对其进行检测采样得到样品高维气味数据信息.与传统的线性数据分析方法不同,针对气味蕴含多种诸如浓度、各种挥发性物质成分等特征,可知气味非线性的本质特征,在本次分析中采用了流形算法中的非线性的局部线性嵌入(Locally Linear Embedding,LLE)算法对非线性的气味数据进行特征提取与降维,再采用基于Fisher的线性判别分析(Linear Discriminant Analysis,LDA)实现对特征子空间的模式聚类与分类,通过多次实验优化LLE算法的参数,得到了最佳的辛味中药材的模式识别效果.分析结果表明,运用LLE和LDA相结合的算法(即LLE_LDA)可以很好地完成不同种类辛味中药材的挥发性气味信息的模式分类,为深层次地分析基于电子鼻的气味数据信息提供了一种新方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号