首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 755 毫秒
1.
中文命名实体识别在机器翻译、智能问答等下游任务中起着重要作用。提出一种新的基于gazetteers和句法依存树的中文命名实体识别方法,旨在解决由于字符向量缺少词信息和词之间的句法依赖结构信息而导致的错误传递问题。该方法将句子中的gazetteers信息和句法依存树信息形成图,再通过自适应门控图神经网络(adapted gated graph neural networks,AGGNN)将其融入到字符向量中,从而使得每个字向量很好地获取词汇间的语义关系,提升识别准确率。通过在Ecommerce、Resume、QI等数据集的验证,新的方法可以使得中文实体识别的准确率得到较大提升。  相似文献   

2.
在生物医学文本挖掘领域,生物医学的命名实体和关系抽取具有重要意义.然而目前中文生物医学实体关系标注语料十分稀缺,这给中文生物医学领域的信息抽取任务带来许多挑战.该文基于深度学习技术搭建了中文生物医学实体关系抽取系统.首先利用公开的英文生物医学标注语料,结合翻译技术和人工标注方法构建了中文生物医学实体关系语料.然后在结合...  相似文献   

3.
基于CNN-BLSTM-CRF模型的生物医学命名实体识别   总被引:3,自引:0,他引:3  
命名实体识别是自然语言处理任务的重要步骤。近年来,不依赖人工特征的神经网络在新闻等通用领域命名实体识别方面表现出了很好的性能。然而在生物医学领域,许多实验表明基于领域知识的人工特征对于神经网络模型的结果影响很大。因此,如何在不依赖人工特征的情况下获得较好的生物医学命名实体识别性能是有待解决的问题。该文提出一种基于CNN-BLSTM-CRF的神经网络模型。首先利用卷积神经网络(CNN)训练出单词的具有形态特征的字符级向量,并从大规模背景语料训练中得到具有语义特征信息的词向量,然后将二者进行组合作为输入,再构建适合生物医学命名实体识别的BLSTM-CRF深层神经网络模型。实验结果表明,不依赖任何人工特征,该文方法在Biocreative Ⅱ GM和JNLPBA2004生物医学语料上都达到了目前最好的结果,F-值分别为89.09%和74.40%。  相似文献   

4.
在生物医学领域,以静态词向量表征语义的命名实体识别方法准确率不高.针对此问题,提出一种将预训练语言模型BERT和BiLSTM相结合应用于生物医学命名实体识别的模型.首先使用BERT进行语义提取生成动态词向量,并加入词性分析、组块分析特征提升模型精度;其次,将词向量送入BiLSTM模型进一步训练,以获取上下文特征;最后通过CRF进行序列解码,输出概率最大的结果.该模型在BC4CHEMD、BC5CDR-chem和NCBI-disease数据集上的平均F1值达到了89.45%.实验结果表明,提出的模型有效地提升了生物医学命名实体识别的准确率.  相似文献   

5.
命名实体识别是自然语言处理领域的一个重要任务,为许多上层应用提供支持。本文主要研究汉语开放域命名实体边界的识别。由于目前该任务尚缺乏训练语料,而人工标注语料的代价又太大,本文首先基于双语平行语料和英语句法分析器自动标注了一个汉语专有名词语料,另外基于汉语依存树库生成了一个名词复合短语语料,然后使用自学习方法将这两部分语料融合形成命名实体边界识别语料,同时训练边界识别模型。实验结果表明自学习的方法可以提高边界识别的准确率和召回率。  相似文献   

6.
文本分类技术对处理海量的生物医学文献起着重要的作用。TREC(The Text Retrieval Conference)2005 Genomics Track的测评结果显示,支持向量机(Surport Vector Machine,SVM)在生物医学文本分类问题上,比其他模型具有明显的优势。在TREC的测评语料上,使用简单向量距离分类法与SVM进行比较,同时讨论了使用命名实体识别的预处理对不同算法的影响。得出结论:简单向量距离分类法在该领域的效果与SVM不相上下,并且命名实体识别会使结果有一定提高。  相似文献   

7.
现有的命名实体识别方法主要是将句子看作一个序列进行处理,忽略了句子中潜在的句法信息,存在长距离依赖问题.为此,该文提出一种基于依存关系的命名实体识别模型,通过在输入数据中增加依存树信息,改变双向长短时记忆网络的层间传播方式,以获得单词在依存树中的子节点和父节点信息,并通过注意力机制动态选择两者的特征,最后将特征输入到C...  相似文献   

8.
近年来, 数字人文受到广泛关注, 数字人文环境下的词命名实体识别研究日渐兴起, 但鲜有研究从字特征的特征表示能力、分词的准确性、领域知识的有效性等方面进行探究. 鉴于此, 针对汉字的象形文字特点和词文本的特殊性, 在字特征的基础上, 引入部首特征、格律特征和声韵特征, 提出特征增强单元和特征抽取单元, 并将词牌知识三元组通过ANALOGY得到的知识向量表示为词牌知识向量, 通过双向长短时记忆网络、注意力机制等模型将部首向量、字向量、格律向量、声韵向量、词牌知识向量进行深度融合, 最终构建出融入多特征的词命名实体识别方法. 在《花间集全译》自制语料上的对比实验和消融实验的结果表明, 本文所提方法能够有效利用多特征提升词命名实体识别性能. 其F1值达到了85.63%, 完成了词命名实体识别任务.  相似文献   

9.
已有图像描述生成模型虽可以检测与表示图像目标实体及其视觉关系,但没有从文本句法关系角度关注模型的可解释性.因而,提出基于依存句法三元组的可解释图像描述生成模型(interpretable image caption generation based on dependency syntax triplets modeling, IDSTM),以多任务学习的方式生成依存句法三元组序列和图像描述. IDSTM模型首先通过依存句法编码器从输入图像获得潜在的依存句法特征,并与依存句法三元组及文本词嵌入向量合并输入单层长短期记忆网络(long short-term memory, LSTM),生成依存句法三元组序列作为先验知识;接着,将依存句法特征输入到图像描述编码器中,提取视觉实体词特征;最后,采用硬限制和软限制2种机制,将依存句法和关系特征融合到双层LSTM,从而生成图像描述.通过依存句法三元组序列生成任务,IDSTM在未显著降低生成的图像描述精确度的前提下,提高了其可解释性.还提出了评测依存句法三元组序列生成质量的评价指标B1-DS (BLEU-1-DS), B4-DS (BLEU-4-D...  相似文献   

10.
现有的维吾尔文命名实体识别主要采用基于条件随机场的统计学习方法,但依赖于人工提取的特征工程和领域知识。针对该问题,该文提出了一种基于深度神经网络的学习方法,并引入不同的特征向量表示。首先利用大规模未标注语料训练的词向量模型获取每个单词具有语义信息的词向量;其次,利用Bi-LSTM提取单词的字符级向量;然后,利用直接串联法或注意力机制处理词向量和字符级向量,进一步获取联合向量表示;最后,用Bi-LSTM-CRF深度神经网络模型进行命名实体标注。实验结果表明,以基于注意力机制的联合向量表示作为输入的Bi-LSTM-CRF方法在维吾尔文命名实体识别上F值达到90.13%。  相似文献   

11.
旅游领域命名实体识别是旅游知识图谱构建过程中的关键步骤,与通用领域的实体相比,旅游文本的实体具有长度长、一词多义、嵌套严重的特点,导致命名实体识别准确率低。提出一种融合词典信息的有向图神经网络(L-CGNN)模型,用于旅游领域中的命名实体识别。将预训练词向量通过卷积神经网络提取丰富的字特征,利用词典构造句子的有向图,以生成邻接矩阵并融合字词信息,通过将包含局部特征的词向量和邻接矩阵输入图神经网络(GNN)中,提取全局语义信息,并引入条件随机场(CRF)得到最优的标签序列。实验结果表明,相比Lattice LSTM、ID-CNN+CRF、CRF等模型,L-CGNN模型在旅游和简历数据集上具有较高的识别准确率,其F1值分别达到86.86%和95.02%。  相似文献   

12.
江旭  钱雪忠  宋威 《计算机工程》2022,48(10):110-115+122
实体关系抽取是从非结构化和程序化的海量文本中识别出实体之间的语义关系,为本体构建、智能检索等任务提供数据支持,然而现有远程监督关系抽取方法普遍存在需要大量人工标注语料库、提取特征含有噪声且忽略了实体与句子之间关联关系等问题。提出一种基于残差双向长短时记忆网络(BiLSTM)与句袋内和句袋间注意力机制的关系抽取模型,在将词向量和位置向量作为模型输入的基础上,通过残差BiLSTM网络提取语句与实体词中的长距离文本信息,利用句袋内和句袋间注意力机制对提取到的特征信息进行处理,使模型在远程监督过程中减少实体之间的特征提取噪声,并提高模型识别准确性。在NYT数据集上的实验结果表明,该模型能够充分利用实体与关系特征,平均精确率达到86.2%,相比于将卷积神经网络和分段卷积神经网络作为句子编码器的同类模型具有更好的远程监督关系抽取性能。  相似文献   

13.
由于中文文本之间没有分隔符,难以识别中文命名实体的边界.此外,在垂直领域中难以获取充足的标记完整的语料,例如医疗领域和金融领域等垂直领域.为解决上述不足,提出一种动态迁移实体块信息的跨领域中文实体识别模型(TES-NER),将跨领域共享的实体块信息(entity span)通过基于门机制(gate mechanism)的动态融合层,从语料充足的通用领域(源领域)动态迁移到垂直领域(目标领域)上的中文命名实体模型,其中,实体块信息用于表示中文命名实体的范围.TES-NER模型首先通过双向长短期记忆神经网络(BiLSTM)和全连接网络(FCN)构建跨领域共享实体块识别模块,用于识别跨领域共享的实体块信息以确定中文命名实体的边界;然后,通过独立的基于字的双向长短期记忆神经网络和条件随机场(BiLSTM-CRF)构建中文命名实体识别模块,用于识别领域指定的中文命名实体;最后构建动态融合层,将实体块识别模块抽取得到的跨领域共享实体块信息通过门机制动态决定迁移到领域指定的命名实体识别模型上的量.设置通用领域(源领域)数据集为标记语料充足的新闻领域数据集(MSRA),垂直领域(目标领域)数据集为混合领域(OntoNotes 5.0)、金融领域(Resume)和医学领域(CCKS 2017)这3个数据集,其中,混合领域数据集(OntoNotes 5.0)是融合了6个不同垂直领域的数据集.实验结果表明,提出的模型在OntoNotes 5.0、Resume和CCKS 2017这3个垂直领域数据集上的F1值相比于双向长短期记忆和条件随机场模型(BiLSTM-CRF)分别高出2.18%、1.68%和0.99%.  相似文献   

14.
从非结构化文本中联合提取实体和关系是信息抽取中的一项重要任务。现有方法取得了可观的性能,但仍受到一些固有的限制,如错误传播、预测存在冗余性、无法解决关系重叠问题等。为此,提出一种基于图神经网络的联合实体关系抽取模型BSGB(BiLSTM+SDA-GAT+BiGCN)。BSGB分为两个阶段:第一阶段将语义依存分析扩展到语义依存图,提出融合语义依存图的图注意力网络(SDA-GAT),通过堆叠BiLSTM和SDA-GAT提取句子序列和局部依赖特征,并进行实体跨度检测和初步的关系预测;第二阶段构建关系加权GCN,进一步建模实体和关系的交互,完成最终的实体关系三元组抽取。在NYT数据集上的实验结果表明,该模型F1值达到了67.1%,对比在该数据集的基线模型提高了5.2%,对重叠关系的预测也有大幅改善。  相似文献   

15.
基于BERT的心血管医疗指南实体关系抽取方法   总被引:1,自引:0,他引:1  
武小平  张强  赵芳  焦琳 《计算机应用》2021,41(1):145-149
实体关系抽取是医疗领域知识问答、知识图谱构建及信息抽取的重要基础环节之一。针对在心血管专病知识图谱构建的过程中尚无公开数据集可用的情况,收集了心血管疾病领域的医疗指南并进行相应的实体和关系类别的专业标注,构建了心血管专病知识图谱实体关系抽取的专业数据集。基于该数据集,首先提出双向变形编码器卷积神经网络(BERT-CNN)模型以实现中文语料中的关系抽取,然后根据中文语义中主要以词而不是字为基本单位的特性,提出了改进的基于全词掩模的双向变形编码器卷积神经网络(BERT(wwm)-CNN)模型用于提升在中文语料中关系抽取的性能。实验结果表明,改进的BERT(wwm)-CNN在所构建的关系抽取数据集上准确率达到0.85,召回率达到0.80,F1值达到0.83,优于对比的基于双向变形编码器长短期记忆网络(BERT-LSTM)模型和BERT-CNN模型,验证了改进网络模型的优势。  相似文献   

16.
在初等数学领域的命名实体识别(NER)中,针对传统命名实体识别方法中词嵌入无法表征一词多义以及特征提取过程中忽略部分局部特征的问题,提出一种基于BERT的初等数学文本命名实体识别方法——BERT-BiLSTM-IDCNN-CRF.首先,采用BERT进行预训练,然后将训练得到的词向量输入到双向长短期记忆(BiLSTM)网...  相似文献   

17.
针对关系抽取任务中句子依存树的信息利用率低和特征提取效果不佳的问题,提出了一种基于注意力引导的门控感知图卷积网络(Att-Gate-GCN)模型.首先,利用一种基于注意力机制的软剪枝策略,通过注意力机制为依存树中的边分配权重,以挖掘依存树中的有效信息,同时过滤无用信息;其次,构建一种门控感知图卷积网络(GCN)结构,通...  相似文献   

18.
命名实体识别指识别文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。在命名实体识别任务中,协同图网络(CGN)模型通过引入多个图注意力网络获得较强的知识整合能力及较高的处理速度,但CGN模型在嵌入层中没有充分利用词边界信息,且采用的传统静态图注意力网络影响了图注意力的表达能力。在对CGN模型的图注意力网络进行改进的基础上,提出一种中文命名实体识别新模型,在嵌入层融入词语的分词信息,以生成包含词边界信息的字向量,从而充分利用词边界信息。通过在编码层使用BiLSTM模型获取文本的上下文信息,采用改进后的图注意力网络提取文本特征,并通过优化传统图注意力网络中相关系数的计算方式,增强模型的特征提取能力。最后,利用条件随机场对文本进行解码,从而实现对实体的标注。实验结果表明,该模型相比CGN模型在MSRA、OntoNotes4.0、Weibo数据集上的F1值分别提升了0.67%、3.16%、0.16%,验证了其在中文命名实体识别任务上的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号