首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
基于BERT-BiLSTM-CRF模型的中文实体识别   总被引:1,自引:0,他引:1  
命名实体识别是自然语言处理的一项关键技术.基于深度学习的方法已被广泛应用到中文实体识别研究中.大多数深度学习模型的预处理主要注重词和字符的特征抽取,却忽略词上下文的语义信息,使其无法表征一词多义,因而实体识别性能有待进一步提高.为解决该问题,本文提出了一种基于BERT-BiLSTM-CRF模型的研究方法.首先通过BERT模型预处理生成基于上下文信息的词向量,其次将训练出来的词向量输入BiLSTM-CRF模型做进一步训练处理.实验结果表明,该模型在MSRA语料和人民日报语料库上都达到相当不错的结果, F1值分别为94.65%和95.67%.  相似文献   

2.
随着生命科学技术的发展,生物医学领域文献呈指数级增长,如何从海量文献中挖掘、抽取有价值的信息成为生物医学领域新的研究契机。作为信息抽取的核心技术,命名实体识别和关系抽取成为生物医学文本挖掘的基础和关键,其主要工作为识别生物医学文本中的实体,并提取实体间存在的生物医学语义关系。当前深度学习技术在各领域自然语言处理任务中取得了长足的发展,旨在总结基于神经网络的生物医学实体识别和关系抽取的方法,从概念、进展、现状等多角度全面阐述各项技术在生物医学领域的发展历程,进一步明确生物医学文本信息抽取工作的探索方向。  相似文献   

3.
知识图谱技术是人工智能技术的重要组成部分,针对政策文件的知识图谱构建和知识提取应用于智慧城市或智慧政策领域。为探索有效的政务公文实体识别方法,标注政务公文里的4类实体,进而采用双向长短时记忆网络和条件随机场的组合方法,对标注的政务公文进行了中文实体识别实验。实验结果表明,文中采用的BiLSTM-CRF方法可以更加准确有效地识别政务公文中的实体。  相似文献   

4.
人工智能技术的发展推动了医疗领域的智能化,为提升医疗效率、改善医疗水平提供了新的助力。同时,这一新的趋势也催生了海量的电子病历文本,其所蕴含的丰富信息具有巨大的潜在挖掘与应用价值。然而,当前中文电子病历的命名实体识别研究工作并没有全面考虑中文及中文医疗领域的特殊性,而是将面向通用数据集的模型迁移到医疗领域的实体类型中,分析效果较为有限。针对这一问题,该文设计了长短期记忆网络与条件随机场的联合模型并引入BERT模型;在此基础之上,考虑到医疗领域命名实体鲜明的部首特征,通过将部首信息编码到字向量中,并且结合部首信息修改条件随机场层得分函数的计算方式,有效地提升了医疗领域命名实体的抽取能力。通过两项电子病历数据集的实验结果表明,该文提出的模型整体效果略高于通用的实体识别模型,并对疾病诊断等特定类型的实体词的识别效果具有较为明显的提升。  相似文献   

5.
命名实体识别是自然语言处理中的一个关键.在需求文档中存在过长的实体:虚功能,使得普适的传统命名实体识别方法无法有效地识别得到完整的实体.本文针对需求文档实体识别模型进行深入研究,引入深度学习方法,提出基于深度残差网络(ResNet)的CNER方法与基于规则的方法相结合,进行针对中文需求文档的分词.本文的命名实体识别模型...  相似文献   

6.
实体关系抽取解决了原始文本中目标实体之间的关系分类问题,同时也被广泛应用于文本摘要、自动问答系统、知识图谱、搜索引擎和机器翻译中。由于中文句式和语法结构复杂,并且汉语有更多歧义,会影响中文实体关系分类的效果。该文提出了基于多特征自注意力的实体关系抽取方法,充分考虑词汇、句法、语义和位置特征,使用基于自注意力的双向长短期记忆网络来进行关系预测。在中文COAE 2016 Task 3和英文SemEval 2010 Task 8 数据集上的实验表明该方法表现出了较好的性能。  相似文献   

7.
《软件》2019,(5):159-162
实体关系的提取是构建知识库的重要组成部分,对临床文本实体关系的研究可以促进医疗卫生的发展。传统针对实体关系抽取的方法大多是基于规则或是机器学习,需要领域专家来制定大量特征,而且特征的多少和准确性同时影响关系抽取结果的准确性。为了能更好的提取文本特征,同时减少手工制造特征带来的麻烦,该文提出使用双向长短期记忆网络(BLSTM),利用该模型提取句子级语义特征,从而达到更好的实体关系抽取效果。通过对比其他模型,证实了该模型的有效性。  相似文献   

8.
武国亮  徐继宁 《计算机应用》2021,41(7):1891-1896
针对基于双向长短期记忆网络-条件随机场(BiLSTM-CRF)的事件抽取模型仅能获取字粒度语义信息,可学习特征维度较低致使模型上限低的问题,以开放领域的中文公共突发事件数据为研究对象,提出了一种基于命名实体识别任务反馈增强的中文突发事件抽取方法FB-Latiice-BiLSTM-CRF.首先,将Lattice(点阵)机...  相似文献   

9.
为实现非结构化工艺规程文本中关键信息的高效识别,建立一种基于机加工领域词典和神经网络的命名实体识别模型.首先,结合机加工领域词典与jieba分词技术进行数据集的自动标注,并在对工艺参数信息进行标注的过程中将数字和标志字母划分为一个分词单位以增强后续特征提取效果;其次,在word2vec词嵌入的基础上,采用双向长短时记忆网络对文本进行特征提取;最后,采用条件随机场综合上下文逻辑以提高关键工艺信息的识别准确率.在包含431条工步内容的数据集上,对所提模型的识别效果进行实验,结果表明,所提模型的准确率、召回率和F1值分别为90.20%,93.88%和92.00%,在与领域内传统模型的对比上具有一定优势,并使用3个不同工艺规程数据集验证了该模型的鲁棒性.  相似文献   

10.
为了对互联网上大量的老挝语军事类文本进行结构化分析,该文提出了一种基于双向长短期记忆网络和多头自注意力机制的军事领域实体关系抽取方法.针对老挝语语料匮乏问题,提出了"硬匹配"和"软匹配"的思想,在完成语料获取和预处理的基础上,利用预定义的关系词表进行"硬匹配",之后再通过词典匹配和相似度计算相结合的方法进行"软匹配",...  相似文献   

11.
实体关系抽取的核心问题是实体关系特征的选择。以往的研究通常都以词法特征、实体原始特征等来刻画实体关系,其抽取效果已难再提高。在传统方法的基础上,该文提出一种基于句法特征、语义特征的实体关系抽取方法,融入了依存句法关系、核心谓词、语义角色标注等特征,选择SVM作为机器学习的实现途径,以真实新闻文本作为语料进行实验。实验结果表明该方法的F1值有明显提升。  相似文献   

12.
电子病历命名实体识别和实体关系抽取研究综述   总被引:2,自引:0,他引:2  
电子病历(Electronic medical records,EMR)产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含了大量与患者健康状况密切相关的医疗知识,因而对它们的识别和抽取是信息抽取研究在医疗领域的重要扩展. 本文首先讨论了电子病历文本的语言特点和结构特点,然后在梳理了命名实体识别和实体关系抽取研究一般思路的基础上,分析了电子病历命名实体识别、实体修饰识别和实体关系抽取研究的具体任务和对应任务的主要研究方法. 本文还介绍了相关的共享评测任务和标注语料库以及医疗领域几个重要的词典和知识库等资源. 最后对这一研究领域仍需解决的问题和未来的发展方向作了展望.  相似文献   

13.
基于神经网络的实体关系抽取模型已经被证明了它的有效性, 但使用单一的神经网络模型在不同的输入条件下, 会表现出不同的结果, 性能不太稳定. 因此本文提出一种利用集成学习思想将多个单一模型集成为一个综合模型的方法. 该方法主要使用MLP (MultiLayer Perceptron)将两个单一模型Bi-LSTM (Bi-...  相似文献   

14.
中文命名实体识别(CNER)任务是问答系统、机器翻译、信息抽取等自然语言应用的基础底层任务。传统的CNER系统借助人工设计的领域词典和语法规则,取得了不错的实验效果,但存在泛化能力弱、鲁棒性差、维护难等缺点。近年来兴起的深度学习技术通过端到端的方式自动提取文本特征,弥补了上述不足。该文对基于深度学习的中文命名实体识别任务最新研究进展进行了综述,先介绍中文命名实体识别任务的概念、应用现状和难点,接着简要介绍中文命名实体识别任务的常用数据集和评估方法,并按照主要网络架构对中文命名实体识别任务上的深度学习模型进行分类和梳理,最后对这一任务的未来研究方向进行了展望。  相似文献   

15.
无指导的中文开放式实体关系抽取   总被引:1,自引:0,他引:1  
传统的实体关系抽取需要预先定义关系类型体系,然而定义一个全面的实体关系类型体系是很困难的.开放式实体关系抽取技术解决了预先定义关系类型体系的问题,但是在中文上的研究还比较少.提出面向大规模网络文本的无指导开放式中文实体关系抽取方法,首先使用实体之间的距离限制和关系指示词的位置限制获取候选关系三元组;然后采用全局排序和类型排序的方法来挖掘关系指示词;最后使用关系指示词和句式规则对关系三元组进行过滤.在获取大量关系三元组的同时,还保证了80%以上的微观平均准确率.  相似文献   

16.
古汉语文本承载着丰富的历史和文化信息, 对这类文本进行实体关系抽取研究并构建相关知识图谱对于文化传承具有重要作用. 针对古汉语文本中存在大量生僻汉字、语义模糊和复义等问题, 提出了一种基于BERT古文预训练模型的实体关系联合抽取模型 (entity relation joint extraction model based on BERT-ancient-Chinese pre-trained model, JEBAC). 首先, 通过融合BiLSTM神经网络和注意力机制的BERT古文预训练模型 (BERT-ancient-Chinese pre-trained model integrated BiLSTM neural network and attention mechanism, BACBA), 识别出句中所有的subject实体和object实体, 为关系和object实体联合抽取提供依据. 接下来, 将subject实体的归一化编码向量与整个句子的嵌入向量相加, 以更好地理解句中subject实体的语义特征; 最后, 结合带有subject实体特征的句子向量和object实体的提示信息, 通过BACBA实现句中关系和object实体的联合抽取, 从而得到句中所有的三元组信息(subject实体, 关系, object实体). 在中文实体关系抽取DuIE2.0数据集和CCKS 2021的文言文实体关系抽取C-CLUE小样本数据集上, 与现有的方法进行了性能比较. 实验结果表明, 该方法在抽取性能上更加有效, F1值分别可达79.2%和55.5%.  相似文献   

17.
中文实体关系抽取中的特征选择研究   总被引:9,自引:4,他引:9  
命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为: 包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF 模型框架下,以ACE2007 的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。关键词: 计算机应用;中文信息处理;实体关系抽取;包含关系;非包含关系;特征选择;ACE 评测  相似文献   

18.
准确的命名实体识别是结构化电子病历的基础,对于电子病历规范化编写有着重要的作用,而现今的分词工具对于专业的医疗术语无法做到完全正确的区分,使得结构化电子病历难以实现.针对医疗实体识别中出现的问题,本文提出了一种在命名实体识别领域中改进的BiLSTM-CRF深度学习模型.模型将文字和标签结合作为输入,在多头注意力机制中使模型关注更多的有用信息, BiLSTM对输入进行特征提取,得到每个文字在所有标签上的概率, CRF在训练过程中学习到数据集中的约束,进行解码时可以提高结果的准确率.实验使用人工标注的1 000份电子病历作为数据集,使用BIO标注方式.从测试集的结果来看,相对于传统的BiLSTM-CRF模型,该模型在实体类别上的F1值提升了3%–11%,验证了该模型在医疗命名实体识别中的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号