首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
在应对中文电子病历文本分析时,面临着一词多义、识别不完整等挑战。为此,构建了RoBERTa-WWM模型与BiLSTM-CRF模块相结合的深度学习框架。首先,将经过预训练的RoBERTa-WWM语言模型与Transformer层产生的语义特征进行深度融合,以捕获文本的复杂语境信息。接着,将融合后的语义表示输入至BiLSTM以及CRF模块,进一步细化了实体的辨识范围与准确性。最后,在CCKS2019数据集上进行了实证分析,F1值高达82.94%。这一数据有力地证实了RoBERTa-WWM-BiLSTM-CRF模型在中文电子病历命名实体的识别工作上的优越性能。  相似文献   

2.
3.
随着各国政府对健康医疗信息系统的投入,电子病历信息挖掘得到越来越多学者的关注。与传统的文本相比,电子病历有其自身的特点.。在2010年i2b2举办的评测中,概念抽取任务最好系统的F值为0.8523,与传统的命名实体识别效果有一定差距。使用了CRF、最大熵两种模型建立了baseline系统并且使用堆积策略综合两者的结果,使得系统的F值达到了91.1%。  相似文献   

4.
为提高中文电子病历中命名实体识别模型鲁棒性和准确性,为此提出一种基于BERT模型融入对抗网络的中文电子命名实体识别模型,该方法使用BERT预训练模型动态生成字向量,通过对抗训练生成扰动,将字向量与扰动相加生成对抗样本,再通过膨胀卷积网络(IDCNN)捕捉句子单词间的依赖,最后通过条件随机场(CRF)得到最终预测结果。在CCKS2019数据集上的实验表明,模型的F1值达到83.19%,证明该模型的有效性。  相似文献   

5.
中文临床电子病历命名实体识别是实现智慧医疗的基本任务之一.本文针对传统的词向量模型文本语义表示不充分,以及循环神经网络(RNN)模型无法解决长时间依赖等问题,提出一个基于XLNet的中文临床电子病历命名实体识别模型XLNet-BiLSTM-MHA-CRF,将XLNet预训练语言模型作为嵌入层,对病历文本进行向量化表示,解决一词多义等问题;利用双向长短时记忆网络(BiLSTM)门控制单元获取句子的前向和后向语义特征信息,将特征序列输入到多头注意力层(multi-head attention,MHA);利用MHA获得特征序列不同子空间表示的信息,增强上下文语义的关联性,同时剔除噪声;最后输入条件随机场CRF识别全局最优序列.实验结果表明,XLNet-BiLSTM-Attention-CRF模型在CCKS-2017命名实体识别数据集上取得了良好的效果.  相似文献   

6.
7.
随着互联网技术的快速发展,人类已经习惯于从网络上获取知识,然而伴随着网络资源爆炸式增长,网络资源内容多样,人们使用浏览器获取知识的方法却停滞不前,因此需要一种工具来帮助人们从网络中高效地获取和发现新知识.由于网络资源文本并不是完全结构化的数据,还包括一些自由文本等复杂的无结构数据,这种文本信息虽然方便人们自由表达概念以及事件等,但是同时也为机器搜索、统计分析等制造了障碍.因此,为了在文本上更方便地进行知识分析和挖掘,本文提出一种基于深度学习的算法知识实体识别与发现的方法,应用于算法知识领域来解决上述问题.通过创建算法知识专家库[1],训练词向量,建立深度神经网络模型,从算法知识文本中识别和发现算法知识名称.实验结果表明,该深度神经网络模型识别算法知识的准确率高达98%,并有效发现了专家库以外的新知识点,实现了预期实验需求.  相似文献   

8.
基于层叠隐马尔可夫模型的中文命名实体识别   总被引:29,自引:0,他引:29  
提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。  相似文献   

9.
电力系统科学研究与生产实践的长期发展,积累了大量的非结构化和半结构化文本.对电力领域文本进行中文实体识别,是其进一步信息抽取的基础工作.为探索有效的电力实体识别方法,文中首先把电力实体分成十六种并对三类电力文本信息进行标注,进而采用双向长短时记忆网络和条件随机场的混合方法,对标注的电力文本进行了中文实体识别实验,并与隐...  相似文献   

10.
在命名实体识别任务中,运用词典匹配的方法能够添加丰富的文本特征,但匹配到的词组信息多使用静态归一化的方法,缺乏自动推理能力.提出了基于动态词典匹配的语义增强中文命名实体识别方法.对输入句子中的字符,在词典中进行动态词组匹配,利用神经网络对词组加权,结合word2vec与ALBERT得到字符的增强特征表示;在序列建模层运...  相似文献   

11.
在保险领域智能问答应用研究中,用户提问时大量使用缩写、简写的保险名称,降低了问题语义理解的准确率.为解决这个问题,本文提出使用条件随机场(CRF)与双向长短记忆循环神经网络相结合的模型(Bi-LSTM-CRF),加入预先训练好的字嵌入向量进行训练的方法来识别保险名称.实验结果表明,CRF结合双向的LSTM的方法相较于传统机器学习的方法,在保险领域命名实体的识别中具有更好的性能,显著提高了保险名称识别的准确率和召回率.  相似文献   

12.
曲晓东  李佳昊 《移动信息》2023,45(6):234-236
作为众多任务的子任务,命名实体识别的发展较为迅速,但在中文命名实体识别领域,还存在不少问题,嵌套实体就是其中一个难点。文中根据结点的传入和传出,使用了图卷积神经网络提取图特征,改善了嵌套实体的准确度,并通过使用图神经网络处理中文命名实体识别的问题,更好地融合了词典信息。另外,文中分别对两类数据集进行了实验验证,结果显示,相比其他模型,该模型有所提高。  相似文献   

13.
目的:比较条件随机场、长短期记忆模型、BiLSTM-CRF和使用Bert预训练字符向量的BiLSTM-CRF四种命名实体识别模型.方法:分析比较四种模型在人民日报数据集和MSRA数据集上对人名、地点和机构三类实体的识别性能.结果:单一神经网络LSTM在缺乏训练数据支持的结果表现不如CRF,而使用了Bert预训练字符向量...  相似文献   

14.
命名实体识别是自然语言处理中的热点研究方向之一,目的是识别文本中的命名实体并将其归纳到相应的实体类型中。首先阐述了命名实体识别任务的定义、目标和意义,分析提出了命名实体识别的主要难点在于领域命名实体识别局限性、命名实体表述多样性和歧义性、命名实体的复杂性和开放性;然后介绍了命名实体识别研究的发展进程,从最初的规则和字典方法到传统的统计学习方法再到现在的深度学习方法,不断地将新技术应用到命名实体识别研究中以提高性能;接着系统梳理了当下命名实体识别任务中的若干热门研究点,分别是匮乏资源下的命名实体识别、细粒度命名实体识别、嵌套命名实体识别以及命名实体链接;最后针对评判命名实体识别模型的好坏,总结了常用的若干数据集和实验测评指标,并给出了未来的研究建议。  相似文献   

15.
文中针对生物医学实体识别中存在的边界识别不准确和鲁棒性差的问题,提出了一种融合了预训练语言模型BERT与跨度标签网络的命名实体识别模型。该模型利用BERT获取文本的上下文信息,并结合跨度标签网络进行实体分类及边界判定,显著提升了实体识别的准确性。为增强模型的鲁棒性,引入对抗训练策略,通过迭代训练正常样本与对抗样本,以优化模型参数。基于CCKS2019评测数据集的实验表明,应用对抗训练方法后,其精准率、召回率及F1值均有所提升,验证了对抗训练能对提高模型的预测能力和鲁棒性的有效性。  相似文献   

16.
中文分词结果对中英命名实体识别及对齐有着直接的影响,本文提出了一种命名实体识别及对齐中的中文分词优化方法.该方法利用实体词汇的对齐信息,首先修正命名实体识别结果,然后根据实体对齐结果调整分词粒度、修正错误分词.分词优化后的结果使得双语命名实体尽可能多地实现一一对应,进而提高中英命名实体翻译抽取和统计机器翻译的效果.实验结果表明了本文优化方法的有效性.  相似文献   

17.
DBN是一种快速全局最优的神经网络分类方法,包含数层无监督学习网络和一层有监督学习网络。本文验证了DBN方法很好地适用于中文名实体分类任务。首先,采用多层RBM方法无监督地从字特征向量提取结构信息,得到更具有表征能力的特征;然后,利用BP方法微调网络参数并对提取后的特征向量进行分类,以此构成分类器进行名实体分类。通过对ACE 04的中文名实体进行的分类测试,准确率达到91.45%,明显高于支持向量机和反向传播神经网络等传统分类算法。  相似文献   

18.
基于小规模尾字特征的中文命名实体识别研究   总被引:4,自引:0,他引:4       下载免费PDF全文
冯元勇  孙乐  张大鲲  李文波 《电子学报》2008,36(9):1833-1838
 本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点.在SIGHAN 2006命名实体识别语料上的结果也居于前列.  相似文献   

19.
在医疗领域中,实体识别能够从大规模电子病历文本中提取有价值信息,由于缺乏定位实体边界的特征以及存在语义信息提取不完整等问题,中文的命名实体识别(NER)实现更加困难。该文提出一种针对中文电子病历的结合多特征嵌入和多网络融合的模型(MFE-MNF)。该模型嵌入多粒度特征,即字符、单词、部首和外部知识,扩展字符的特征表示,明确实体边界。将特征向量分别输入到双向长短期记忆神经网络(BiLSTM)和该文构建的自适应图卷积网络等双通路中,全面深入地捕获上下文语义信息和全局语义信息,缓解语义信息提取不完整问题。在CCKS2019和CCKS2020数据集上进行实验验证,结果表明,相比于传统实体识别模型,该文模型能够准确且有效地提取实体。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号