首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
提出融合领域特征向量与词向量的识别方法,将基于武器装备名特征库与维基语料训练得到的领域特征向量引入Bi-LSTM+CRF模型,并对武器装备名进行自动识别实验。引入领域特征向量后模型的识别准确率由78.30%提升到82.10%,召回率由65.25%提升到67.30%,对未登录武器装备名识别的召回率从45.08%提升到50.16%。此外,将领域特征融入条件随机场(conditional random field,CRF)模型,实验表明,在小规模语料库与领域特征支持的情况下,CRF模型的效果要优于Bi-LSTM+CRF模型且对稀疏特征的利用效率更优。  相似文献   

2.
电子病历中包含着医疗领域的丰富知识,对于医疗健康信息服务有着重要的意义。其中的概念实体之间的关系是医疗知识的重要组成部分,对于获取医疗领域中疾病、治疗、检查之间关系有着重要的意义。针对于电子病历中文本结构稀疏的特点,原有的基于词的特征表示效果有限,所以从特征选择的角度出发,提出了一种基于深度学习的特征学习,将有限的上下文特征进行进一步抽象表示的方法。实验中使用深度稀疏自动编码来对实体上下文的向量表示进行再表示,来得到更抽象和更有识别意义的特征。实验表明,本文使用的深度学习进行特征的再表示方法对于识别的召回率对比于基线实验有比较明显的提高。  相似文献   

3.
由于中文词语缺乏明确的边界和大小写特征,单字在不同词语下的意思也不尽相同,较于英文,中文命名实体识别显得更加困难。该文利用词向量的特点,提出了一种用于深度学习框架的字词联合方法,将字特征和词特征统一地结合起来,它弥补了词特征分词错误蔓延和字典稀疏的不足,也改善了字特征因固定窗口大小导致的上下文缺失。在词特征中加入词性信息后,进一步提高了系统的性能。在1998年《人民日报》语料上的实验结果表明,该方法达到了良好的效果,在地名、人名、机构名识别任务上分别提高1.6%、8%、3%,加入词性特征的字词联合方法的F1值可以达到96.8%、94.6%、88.6%。  相似文献   

4.
针对海运货物邮件实体识别中存在识别精度不高、实体边界确定困难的问题,提出一种结合深度学习与规则匹配的识别方法。其中:深度学习方法是在BiLSTM-CRF(Bidirectional Long Short Term Memory-Conditional Random Field)模型的基础上添加词的字符级特征,并融入多头注意力机制以捕获邮件文本中长距离依赖;规则匹配方法则根据领域实体特点制定规则来完成识别。根据货物邮件特点将语料进行标注并划分为:货物名称、货物重量、装卸港口、受载期和佣金五个类别。在自建语料中设置多组对比实验,实验表明所提方法在海运货物邮件实体识别的F1值达到79.3%。  相似文献   

5.
目前,老挝语词性标注研究处于初期,可用标注语料有限,且老挝语吸收了多种外来词,导致标注语料库存在大量稀疏词。多任务学习是有效识别稀疏词的一种方法,该文研究了老挝词的结构特征,并构建了结合词性标注损失和主辅音辅助损失的多任务老挝语词性标注模型。老挝词有很多词缀可以表达词性信息,因此模型还采用了字符级别的词向量来获取这些词缀信息。特别地,老挝语的句式较长,模型用注意力机制防止长远上下文特征丢失。实验结果表明: 相比其他研究方法,该模型的词性标注准确率在有限标注语料下取得更好的表现(93.24%)。  相似文献   

6.
面向工艺文本中的命名实体,该文提出一种融入领域知识的神经网络命名实体识别方法,旨在对零件、工程图纸、参考标准、属性等12类命名实体进行识别.该方法针对工艺实体的特点,利用领域词典及规则预识别出部分实体,形成预识别实体特征,将预识别实体特征加入CNN-BiLSTM-CRF神经网络模型,指导训练与预测.实验结果表明,该方法...  相似文献   

7.
现有的维吾尔文命名实体识别主要采用基于条件随机场的统计学习方法,但依赖于人工提取的特征工程和领域知识。针对该问题,该文提出了一种基于深度神经网络的学习方法,并引入不同的特征向量表示。首先利用大规模未标注语料训练的词向量模型获取每个单词具有语义信息的词向量;其次,利用Bi-LSTM提取单词的字符级向量;然后,利用直接串联法或注意力机制处理词向量和字符级向量,进一步获取联合向量表示;最后,用Bi-LSTM-CRF深度神经网络模型进行命名实体标注。实验结果表明,以基于注意力机制的联合向量表示作为输入的Bi-LSTM-CRF方法在维吾尔文命名实体识别上F值达到90.13%。  相似文献   

8.
基于CNN-BLSTM-CRF模型的生物医学命名实体识别   总被引:3,自引:0,他引:3  
命名实体识别是自然语言处理任务的重要步骤。近年来,不依赖人工特征的神经网络在新闻等通用领域命名实体识别方面表现出了很好的性能。然而在生物医学领域,许多实验表明基于领域知识的人工特征对于神经网络模型的结果影响很大。因此,如何在不依赖人工特征的情况下获得较好的生物医学命名实体识别性能是有待解决的问题。该文提出一种基于CNN-BLSTM-CRF的神经网络模型。首先利用卷积神经网络(CNN)训练出单词的具有形态特征的字符级向量,并从大规模背景语料训练中得到具有语义特征信息的词向量,然后将二者进行组合作为输入,再构建适合生物医学命名实体识别的BLSTM-CRF深层神经网络模型。实验结果表明,不依赖任何人工特征,该文方法在Biocreative Ⅱ GM和JNLPBA2004生物医学语料上都达到了目前最好的结果,F-值分别为89.09%和74.40%。  相似文献   

9.
为了减少传统的命名实体识别需要人工制定特征的大量工作,通过无监督训练获得军事领域语料的分布式向量表示,采用双向LSTM递归神经网络模型解决军事领域命名实体的识别问题,并且通过添加字词结合的输入向量和注意力机制对双向LSTM递归神经网络模型进行扩展和改进,进而提高军事领域命名实体识别。实验结果表明,提出的方法能够完成军事领域命名实体的识别,并且在测试集语料上的F-值达到了87.38%。  相似文献   

10.
朱艳辉    李飞    冀相冰    曾志高    徐啸   《智能系统学报》2019,14(4):820-830
领域命名实体识别是构建领域知识图谱的重要基础。针对专业领域语料匮乏的特点,构建基于深度学习的BiLSTM-CNN-CRFs网络模型,并提出一种反馈式K近邻语义迁移学习的领域命名实体识别方法。首先,对专业领域语料和通用领域语料分别训练得到语料文档向量,使用马哈拉诺比斯距离计算领域语料与通用语料的语义相似性,针对每个专业领域样本分别取K个语义最相似的通用领域样本进行语义迁移学习,构建多个迁移语料集。然后,使用BiLSTM-CNN-CRFs网络模型对迁移语料集进行领域命名实体识别,并对识别结果进行评估和前馈,根据反馈结果选取合适的K值,作为语义迁移学习的最佳阈值。以包装领域和医疗领域为例进行实验验证,结果表明:本文方法取得了很好的识别效果,可以有效解决专业领域语料匮乏问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号