首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
命名实体识别作为自然语言处理中一项十分基础的任务,其目的是从一段用自然语言描述的文本中识别出相应的实体及类型。知识图谱作为以三元组形式存在的外部知识,已经在很多自然语言处理任务中得以应用并取得了良好效果。文中提出了一种基于知识图谱信息增强的注意力对齐命名实体识别方法,首先通过嵌入层和注意力机制嵌入知识图谱信息,获取知识图谱三元组信息的表示;其次通过BERT-BiLSTM获取句子的上下文表示;然后通过一种注意力对齐模块分配三元组权重融合知识图谱信息与句子信息的表示;最后通过softmax控制融合后的表示向量的预测输出,进而获取实体的标签。该方法有效避免了因知识图谱的融合而改变原句子的语义信息,同时也使得句子中的词向量具有丰富的外部知识。所提方法在中文通用数据集MSRA和医疗领域专用数据集Medicine上的F1值分别达到了95.73%和93.80%,相比基线模型提升了1.21%和1.3%。  相似文献   

2.
佘俊  张学清 《计算机应用》2010,30(11):2928-2931
为了能快速、准确地将分散在Web网页中的音乐实体抽取出来,在全方位了解音乐领域中命名实体的特征的基础上,提出了一种规则与统计相结合的中文音乐实体识别方法,并实现了音乐命名实体识别系统。通过测试发现,该系统具有较高的准确率和召回率。  相似文献   

3.
研究《伤寒论》中命名实体的识别方法,助力张仲景《伤寒论》不同版本文本的深度挖掘,有助于传承中医文化.该文尝试构建ALBERT-BiLSTM-CRF模型,提取《伤寒论》中疾病、证候、症状、处方、药物等实体,并与BiLSTM-CRF模型和BERT-BiLSTM-CRF模型进行对比.五次实验ALBERT-BiLSTM-CRF...  相似文献   

4.
命名实体识别作为信息抽取领域的一个基础任务,能为机器翻译、关系抽取等下游任务提供有效支撑,具有重要的研究意义。针对中文命名实体识别方法中存在的实体边界模糊的问题,提出了一种结合实体边界线索的命名实体识别模型,模型由边界检测、线索生成、实体分类三个模块组成。利用边界检测模块识别实体边界。在线索生成模块中依据边界信息生成实体跨度,得到带边界线索标签的文本序列,使模型通过边界线索标签感知句子中的实体边界,学习实体边界和上下文的语义依赖特征。将带有边界线索标签的文本序列作为实体分类模块的输入,使用双仿射机制增强标签之间的语义交互,并结合双仿射机制与多层感知机的共同预测作为实体识别的结果。该模型在ACE2005中文数据集和Weibo数据集上的F1值分别达到了90.47%和73.54%,验证了模型对中文命名实体识别的有效性。  相似文献   

5.
实体消歧是指在一个具体的知识库中,把一个被标识的实体指称链向它对应条目的过程。实体消歧的任务是根据上下文信息解决一个命名实体指称项对应多个实体概念的一词多义问题,它在从海量数据准确提取信息的知识图谱构建过程中起到重要作用,是自然语言处理中的一项基本任务。该文主要对实体消歧技术的相关研究内容进行综述。首先,阐述了实体消歧的国内外研究背景,并对命名实体识别、候选实体生成、候选实体排序等实体消歧相关理论进行全面梳理。其次,对实体消歧的具体含义及其研究内容进行详细综述,并对实体消歧研究内容的特点进行了分析。再次,将实体消歧技术的实现方法划分为三类并对涉及到的数据集进行归纳,并从四个方面讨论了实体消歧领域存在的难点和提高实体消歧准确率的途径,对消歧方法的优缺点及评价指标进行了总结,意在为改善实体消歧效果提供新的解决思路。最后,对实体消歧技术的应用和发展前景进行总结。  相似文献   

6.
在对文博数据进行知识图谱的构建时,从文本中抽取出有效的三元组尤为重要,因而命名实体识别成为挖掘文博数据的首要任务。传统的中文实体命名识别方法多采用深度神经网络模型,此类方法在对词进行向量化处理时只是将词映射成单一的词向量,并不能很好地表示词的多义性。预训练语言模型能够有效地对字进行向量化表示,将语义信息充分地结合。因此,针对文博数据提出一种基于BERT的预训练实体识别模型,采用BERT预训练模型进行词嵌入,通过利用双向长短期记忆网络(BiLSTM)模型结合上下文信息来增强词向量的语义信息,然后利用条件随机场(CRF)模型进行解码。与传统长短期记忆(LSTM)网络和BiLSTM-CRF模型相比,该模型在微软公开数据集(MSRA)以及自行标注文博知识数据集上表现突出,在文博知识数据集中,模型的准确率达到93.57%,召回率达到75.00%,F1值达到73.58%。  相似文献   

7.
命名实体识别作为实现自然语言理解的关键步骤被广泛研究。传统机器算法需要大量特征工程而且领域自适应能力弱,准确率低。针对该问题,提出一种基于BERT(Bidirectional Encoder Representations from Transformers)模型和深度卷积注意力网络DeepCAN(Deep Convolutional Attention Network)进行中文实体识别。该模型首先通过BERT预训练语言模型得到字的动态嵌入表示;然后,将得到的向量序列输入DeepCAN来获取序列化文本的上下文抽象特征;最后,通过CRF(Conditional Random Field)进行命名实体标注。实验表明,该模型在SIGHAN2006数据集上能够达到93.37%F1值,对比当前在该数据集上最好的实验结果提高了2.73%。  相似文献   

8.
中文文本数据中记载着名医临床医案的治疗资料及所用药物,本文利用BIOES法标注对实体及类型在专家指导下进行标注,将实体按中医药学语言系统(TCMLS)中的规定分为6类.实验表明,利用Lattice融合字、词信息的优势,使用Lattice-LSTM-CRF对标注的中医药文本数据集进行命名实体识别,相比传统的LSTM-CR...  相似文献   

9.
近年来,基于RNN的模型架构在命名实体识别任务中被广泛采用,但其循环特性导致GPU的并行计算能力无法被充分利用.普通一维卷积虽可以并行处理输入文本,显著缩短模型训练时长,但处理长文本时往往需要堆叠多个卷积层,进而增加梯度消失的风险.针对以上问题,该文采用可通过参数调节感受野范围的空洞卷积,并引入了带有残差连接的门控机制...  相似文献   

10.
命名实体识别是自然语言处理中的一项基础任务,传统的识别方法往往需要外部知识和人工筛选特征,需要较高的人力成本和时间成本;针对传统方法的局限性,提出一种基于GRU (Gated Recurrent Unit)的命名实体识别模型,该模型以字向量作为输入单位,通过双向GRU层提取特征,并通过输出层得到标签序列.在传统命名实体和会议名称这种特定领域命名实体上对该模型进行了测试.实验结果表明,本文设计的循环神经网络模型能有效的识别命名实体,省去了人工设计特征的繁琐工作,提供了一种端到端的识别方法.  相似文献   

11.
法律文书命名实体识别是智慧司法领域的关键性和基础性任务。在目前法律文书命名实体识别方法中,存在实体定义与司法业务结合不紧密、传统词向量无法解决一词多义等问题。针对以上问题,该文提出一种新的法律文本命名实体定义方案,构建了基于起诉意见书的法律文本命名实体语料集LegalCorpus;提出一种基于BERT-ON-LSTM-CRF(Bidirectional Encoder Representations from Transformers-Ordered Neuron-Long Short Term Memory Networks-Conditional Random Field)的法律文书命名实体识别方法,该方法首先利用预训练语言模型BERT根据字的上下文动态生成语义向量作为模型输入,然后运用ON-LSTM对输入进行序列和层级建模以提取文本特征,最后利用CRF获取最优标记序列。在LegalCorpus上进行实验,该文提出的方法F1值达到86.09%,相比基线模型lattice LSTM F1值提升了7.8%。实验结果表明,该方法可以有效对法律文书的命名实体进行识别。  相似文献   

12.
铁路事故的相关信息以事故概况文本的形式存在,对于铁路安全工作有重要意义.但由于缺乏有效的信息抽取手段,导致分散在文本中的铁路事故知识没有得到充分的利用.命名实体识别是信息抽取的重要子任务,目前关于事故领域的命名实体识别问题研究较少.针对铁路事故命名实体识别问题,提出一种融合字位置特征的命名实体识别模型,该模型通过全连接神经网络获取字的位置特征,并与语义层面的字向量合并作为字的最终向量表示输入BiLSTM-CRF模型获取最优标签序列.实验结果表明,模型在铁路事故文本命名实体识别问题上的准确率、召回率和F1值分别为93.29%、94.77%和94.02%,相比于传统模型,取得了更好的效果,为铁路事故知识图谱的构建奠定基础.  相似文献   

13.
该文针对现有的命名实体识别(named entity recognition,NER)模型未考虑到文本层次化结构对实体识别的重要作用,以及循环神经网络受其递归性的限制导致计算效率低下等问题,构建了IDC-HSAN模型(Iterated Dilated Convolutions Neural Networks and Hierarchical Self-attention Network)。该模型通过迭代的空洞卷积神经网络(ID-CNN)充分利用GPU的并行性大大降低了使用长短时记忆网络的时间代价。然后,采用层次化注意力机制捕获重要的局部特征和全局上下文中的重要语义信息。此外,为了丰富嵌入信息,加入了偏旁部首信息。最后,在不同领域数据集上的实验结果表明,IDC-HSAN模型能够从文本中获取有用的实体信息,和传统的深度网络模型、结合注意力机制的命名实体识别模型相比识别效果有所提升。  相似文献   

14.
命名实体识别是构建知识图谱的重要阶段。基于国军标及软件测试文档,完成了实体类型分类以及数据集的构建和标注。在软件测试领域,针对字词联合实体识别方法准确率不高的问题,进行字符级特征提取方法的改进,提出了CWA-BiLSTM-CRF识别框架。该框架包含两部分:第一部分构建预训练的字词融合字典,将字词一起输入给双向长短期记忆网络进行训练,并加入注意力机制衡量词内各字对特征的语义贡献,提取出字符级特征;第二部分将字符级特征与词向量等特征进行拼接,输入给双向长短期记忆网络进行训练,再通过条件随机场解决标签结果序列不合理的问题,识别出文中的实体。实验结果分别与三种常用的深度学习字符级特征提取方法进行比较,准确率和召回率均有提升,最优F1值为88.93%。实验表明,改进后的方法适用于军用软件测试领域命名实体识别任务,为下一步知识图谱的构建打下了基础。  相似文献   

15.
在电力系统中, 配电调度是一个复杂且统筹性较强的工作, 大多依赖于工作人员的经验和主观判断, 极易出现纰漏. 所以急需利用智能化手段来帮助检修计划的分析与生成. 命名实体识别是构建配电网知识图谱以及问答系统等任务的关键技术, 它能够将非结构化数据中的命名实体识别出来. 针对配电检修数据的复杂性及强关联性等特点, 本文采用BERT-IDCNN-BiLSTM-CRF深度学习模型. 该模型相较于传统的BERT-BiLSTM-CRF模型, 融入IDCNN神经网络模型, 更好地利用GPU的性能, 在保证识别准确率的前提下, 提高效率. 通过对标注好的检修计划数据进行训练, 并与其他常用模型对比, 在召回率、精确率以及F1值3个指标上, 本文提出的模型均达到最优的效果, F1值可以达到83.1%, 该模型在配电网数据识别任务上取得了很好的效果.  相似文献   

16.
针对中文电子病历中医疗嵌套实体难以处理的问题, 本文基于RoBERTa-wwm-ext-large预训练模型提出一种知识增强的中文电子病历命名实体识别模型ERBEGP. RoBERTa-wwm-ext-large采用的全词掩码策略能够获得词级别的语义表示, 更适用于中文文本. 首先结合知识图谱, 使模型学习到了大量的医疗实体名词, 进一步提高模型对电子病历实体识别的准确性. 然后通过BiLSTM对电子病历输入序列编码, 能够更好捕获病历的中上下语义信息. 最后利用全局指针网络模型EGP (efficient GlobalPointer)同时考虑实体的头部和尾部的特征信息来预测嵌套实体, 更加有效地解决中文电子病历命名实体识别任务中嵌套实体难以处理的问题. 在CBLUE中的4个数据集上本文方法均取得了更好的识别效果, 证明了ERBEGP模型的有效性.  相似文献   

17.
药用植物文本的命名实体识别对中医药领域的信息抽取和知识图谱构建起着重要作用。针对药用植物属性文本存在长序列语义稀疏的问题,提出一种基于注意力机制的双向长短时记忆网络(BiLSTM)和条件随机场(CRF)模型相结合的疾病实体识别方法(BiLSTM+ATT-CRF,BAC)。首先对药用植物属性文本进行预处理和半自动化标注构建数据集,并进行预训练得到低维词向量;然后将这些低维词向量输入BiLSTM网络中,得到双向语义依赖的特征向量;Attention层把注意力集中到与当前输出特征高度相关的信息上;最后通过条件随机场(CRF)算法获取最优的标签序列并解码输出。实验结果表明,BAC方法针对药用植物属性文本的长序列语义稀疏问题,疾病命名实体识别效果较传统方法更优。利用BAC方法训练好的模型从1680条文本句子中识别疾病命名实体,共抽取出1422个疾病实体。与药用植物名称进行匹配,共抽取出4316个药用植物治疗疾病的三元组数据。  相似文献   

18.
针对中文金融文本领域的命名实体识别,该文从汉字自身特点出发,设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型。该模型是一种完全端到端且不涉及任何特征工程的模型,其将汉字的五笔表示进行编码以进行信息增强,同时利用迭代学习的策略不断对模型整体预测结果进行改进。由于现有的命名实体识别研究在金融领域缺乏高质量的有标注的语料库资源,所以该文构建了一个大规模的金融领域命名实体语料库HITSZ-Finance,共计31 210个文本句,包含4类实体。该文在语料库HITSZ-Finance上进行了一系列实验,实验结果均表明模型的有效性。  相似文献   

19.
融合多特征的最大熵汉语命名实体识别模型   总被引:2,自引:0,他引:2  
最大熵模型能有效整合多种约束信息,对于汉语命名实体识别具有很好的适用性,因此,将其作为基本框架,提出一种融合多特征的最大熵汉语命名实体识别模型,该模型集成局部与全局多种特征,同时为降低搜索空间并提高处理效率,而引入了启发式知识,基于SIGHAN 2008命名实体评测任务测试数据的实验结果表明,所建立的混合模式是一种组合统计模型与启发式知识的有效汉语命名实体识别模式,基于不同测试数据的实验说明,该方法针对不同测试数据源具有一致性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号