首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
命名实体识别是自然语言处理中的重要任务,且中文命名实体识别相比于英文命名实体识别任务更具难度。传统中文实体识别模型通常基于深度神经网络对文本中的所有字符打上标签,再根据标签序列识别命名实体,但此类基于字符的序列标注方式难以获取词语信息。提出一种基于Transformer编码器的中文命名实体识别模型,在字嵌入过程中使用结合词典的字向量编码方法使字向量包含词语信息,同时针对Transformer编码器在注意力运算时丢失字符相对位置信息的问题,改进Transformer编码器的注意力运算并引入相对位置编码方法,最终通过条件随机场模型获取最优标签序列。实验结果表明,该模型在Resume和Weibo中文命名实体识别数据集上的F1值分别达到94.7%和58.2%,相比于基于双向长短期记忆网络和ID-CNN的命名实体识别模型均有所提升,具有更优的识别效果和更快的收敛速度。  相似文献   

2.
针对基于字符表示的中文医学命名实体识别模型嵌入信息单一、缺失词边界和结构信息的问题,文中提出了一种融合多特征嵌入的医学命名实体识别模型。首先,将字符映射为固定长度的嵌入表示;其次,引入外部资源构建词汇特征,该特征能够补充字符的潜在词组信息;然后,根据中文的象形文字特点和文本序列特点,分别引入字符结构特征和序列结构特征,使用卷积神经网络对两种结构特征进行编码,得到radical-level词嵌入和sentence-level词嵌入;最后,将得到的多种特征嵌入进行拼接,输入长短期记忆网络编码,并使用条件随机场输出实体预测结果。将自建中文医疗数据和CHIP_2020任务提供的医疗数据作为数据集进行实验,实验结果表明,与基准模型相比,所提模型同时融合了词汇特征和文本结构特征,能够有效识别医学命名实体。  相似文献   

3.
目前中文命名实体识别模型在识别具有嵌套结构的实体时存在误差,无法准确识别。基于跨度的方法能够找出嵌套实体,但在识别过程中经常生成不包含实体的跨度,无法明确划分跨度边界,增加模型负担。针对此问题,提出了基于词汇融合与跨度边界检测的中文嵌套命名实体识别模型。该模型使用多词融合方法达到文本特征增强的目的,在设计的注入模块中将目标语句中字符相关的多个词汇信息进行合并,之后融入到BERT中,以此获得更全面的上下文信息,提供更好的跨度表示;其次添加跨度边界检测模块,通过感知分类器预测跨度的首尾字符来划分跨度边界。在公共数据集上的实验表明,该模型可有效提升识别准确率。  相似文献   

4.
中文命名实体识别是中文信息处理领域中的一项基本任务,能够为关系抽取、实体链接和知识图谱提供技术支持。与传统命名实体识别方法相比,基于双向长短期记忆(BiLSTM)神经网络模型在中文命名实体识别任务中获得了较好的效果。针对基于字词联合的BiLSTM-CRF模型存在特征提取不够准确的缺陷,在其基础上,引入Gated去噪机制,对输入字向量进行微调,自动学习过滤或者减少文本中不重要的字信息,保留对命名实体识别任务更有用的信息,进而提高命名实体的识别率。在Resume和Weibo数据集上的测试结果表明,该方法有效地提高了中文命名实体识别的效果。  相似文献   

5.
在教育领域中,命名实体识别在机器自动提问和智能问答等相关任务中都有应用。传统的中文命名实体识别模型需要改变网络结构来融入字和词信息,增加了网络结构的复杂度。另一方面,教育领域中的数据对实体边界的识别要十分精确,传统方法未能融入位置信息,对实体边界的识别能力较差。针对以上的问题,该文使用改进的向量表示层,在向量表示层中融合字、词和位置信息,能够更好地界定实体边界和提高实体识别的准确率,使用BiGRU和CRF分别作为模型的序列建模层和标注层进行中文命名实体识别。该文在Resume数据集和教育数据集(Edu)上进行了实验,F1值分别为95.20%和95.08%。实验结果表明,该文方法对比基线模型提升了模型的训练速度和实体识别的准确性。  相似文献   

6.
缺少分词信息及未登录词、无关词干扰是字符级中文命名实体识别面临的主要问题,提出了融合词信息嵌入的注意力自适应中文命名实体识别模型,在新词发现的基础上,将字向量嵌入与词级信息嵌入融合作为模型输入,减少了未登录词对模型的影响,并增强了实体特征的显著性,使实体特征更容易被学习器获取;同时,在注意力机制中引入动态缩放因子,自适应地调整相关实体和无关词的注意力分布,一定程度上减小了无关词对模型的干扰。将该方法在公共数据集上进行实验,实验结果证明了方法的有效性。  相似文献   

7.
中文命名实体识别主要包括中文平面命名实体识别和中文嵌套命名实体识别两个任务,其中中文嵌套命名实体识别任务难度更大。提出了一个基于词汇增强和表格填充的统一模型TLEXNER,该模型能够同时处理上述任务。该模型首先针对中文语料分词困难的问题,使用词典适配器将词汇信息融合到BERT预训练模型,并且将字符与词汇组的相对位置信息集成到BERT的嵌入层中;然后通过条件层归一化和双仿射模型构造并预测字符对表格,使用表格建模字符与字符之间的关系,得到平面实体与嵌套实体的统一表示;最后根据字符对表格上三角区域的数值判断实体类别。提出的模型在平面实体的公开数据集Resume和自行标注的军事领域嵌套实体数据集上F1分别是97.35%和91.96%,证明了TLEXNER模型的有效性。  相似文献   

8.
命名实体识别指识别文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。在命名实体识别任务中,协同图网络(CGN)模型通过引入多个图注意力网络获得较强的知识整合能力及较高的处理速度,但CGN模型在嵌入层中没有充分利用词边界信息,且采用的传统静态图注意力网络影响了图注意力的表达能力。在对CGN模型的图注意力网络进行改进的基础上,提出一种中文命名实体识别新模型,在嵌入层融入词语的分词信息,以生成包含词边界信息的字向量,从而充分利用词边界信息。通过在编码层使用BiLSTM模型获取文本的上下文信息,采用改进后的图注意力网络提取文本特征,并通过优化传统图注意力网络中相关系数的计算方式,增强模型的特征提取能力。最后,利用条件随机场对文本进行解码,从而实现对实体的标注。实验结果表明,该模型相比CGN模型在MSRA、OntoNotes4.0、Weibo数据集上的F1值分别提升了0.67%、3.16%、0.16%,验证了其在中文命名实体识别任务上的有效性。  相似文献   

9.
针对基于字级别的命名实体识别方法无法充分利用句子词语信息的问题,提出一种融合词语信息的细粒度命名实体识别模型。该模型通过引入外部词典,在基于字表示中融入句子潜在词语的信息,避免了分词错误传播的问题,同时构建了一种增强型字向量表达;利用扁平化的Lattice Transformer网络结构对字和词语的表示以及位置关系信息进行建模;通过CRF(Conditional Random Filed)计算得到最优标签序列。在细粒度命名实体语料CLUENER2020上进行了实验,精确率达到82.46%,召回率达到83.14%,F1值达到82.80%,验证了融合词语信息可以提升细粒度命名实体识别效果。  相似文献   

10.
针对当前中文医疗命名实体识别中未融合医学领域文本独有的特征信息导致实体识别准确率无法有效提升的情况,及单注意力机制影响实体分类效果的问题,提出一种基于多特征融合和协同注意力机制的中文医疗命名实体识别方法。利用预训练模型得到原始医学文本的向量表示,再利用双向门控循环神经网络(BiGRU)获取字粒度的特征向量。结合医疗领域命名实体鲜明的部首特征,利用迭代膨胀卷积神经网络(IDCNN)提取部首级别的特征向量。使用协同注意力网络(co-attention network)整合特征向量,生成<文字-部首>对的双相关特征,再利用条件随机场(CRF)输出实体识别结果。实验结果表明,在CCKS数据集上,相较于其他的实体识别模型能取得更高的准确率、召回率和F1值,同时虽然增加了识别模型的复杂程度,但性能并没有明显的降低。  相似文献   

11.
针对BERT在中文电子病历实体识别过程中缺少词信息,实体边界信息被浪费和模型鲁棒性较差等问题,提出一种基于BERT并引入外部词典进行特征增强和对抗训练的实体识别模型LEBERT-BCF。该模型通过外部词典自动为电子病历进行词汇匹配构建字符-词语对,在BERT内部将字符-词语对中对应字向量与词向量经过Lexicon Adapter模块进行特征融合并使用FGM提升模型的鲁棒性。在CCKS 2019数据集上的实验结果表明,该模型的F1值比BERTBiLSTM-CRF提高了3.45%。  相似文献   

12.
当前中文命名实体识别方法仅采用字级别或词级别特征方法进行识别,不能兼顾字和词级别的优点,难以获取足够的字形或者词义信息。针对此问题,该文提出一种基于多级别特征感知网络的中文命名实体识别方法。首先提出一种双通道门控卷积神经网络,通过感知字级别特征,在减少了未登录词的同时,也表示了字的字形信息。同时,为了获取词语的词义信息,该文在词级别的特征中嵌入对应位置信息。为了赋予实体更多的权重,该文利用自注意力机制感知带有位置信息的词级别特征。进一步,将上述得到的字级别和词级别信息融合,全面表示句子的语义信息。由于采用字词结合的方法容易产生冗余信息,该文设计一种门控机制的Highway网络,来过滤冗余信息,减少冗余信息对命名实体识别的影响,再结合条件随机场学习到句子中的约束条件实现中文命名实体的识别。实验结果表明,该文所提出的方法总体上优于目前主流的中文命名实体识别方法。  相似文献   

13.
琚生根  李天宁  孙界平 《软件学报》2021,32(8):2545-2556
细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定义的细粒度类别中.目前,中文细粒度命名实体识别仅使用预训练语言模型对句子中的字符进行上下文编码,并没有考虑到类别的标签信息具有区分实体类别的能力.由于预测句子不带有实体标签,使用关联记忆网络来捕获训练集句子的实体标签信息,并将标签信息融入预测句子的字符表示中.该方法将训练集中带实体标签的句子作为记忆单元,利用预训练语言模型获取原句子和记忆单元句子的上下文表示,再通过注意力机制将记忆单元句子的标签信息与原句子的表示结合,从而提升识别效果.在CLUENER 2020中文细粒度命名实体识别任务上,该方法对比基线方法获得了提升.  相似文献   

14.
中文命名实体识别在机器翻译、智能问答等下游任务中起着重要作用。提出一种新的基于gazetteers和句法依存树的中文命名实体识别方法,旨在解决由于字符向量缺少词信息和词之间的句法依赖结构信息而导致的错误传递问题。该方法将句子中的gazetteers信息和句法依存树信息形成图,再通过自适应门控图神经网络(adapted gated graph neural networks,AGGNN)将其融入到字符向量中,从而使得每个字向量很好地获取词汇间的语义关系,提升识别准确率。通过在Ecommerce、Resume、QI等数据集的验证,新的方法可以使得中文实体识别的准确率得到较大提升。  相似文献   

15.
基于多头自注意力机制的Transformer作为主流特征提取器在多种自然语言处理任务中取得了优异表现,但应用于命名实体识别任务时存在一字多词、增加额外存储与词典匹配时间等问题。提出一种CNN-Head Transformer编码器(CHTE)模型,在未使用外部词典和分词工具的基础上,通过自注意力机制捕获全局语义信息,利用不同窗口大小的CNN获取Transformer中6个注意力头的Value向量,使CHTE模型在保留全局语义信息的同时增强局部特征和潜在词信息表示,并且应用自适应的门控残差连接融合当前层和子层特征,提升了Transformer在命名实体识别领域的性能表现。在Weibo和Resume数据集上的实验结果表明,CHTE模型的F1值相比于融合词典信息的Lattice LSTM和FLAT模型分别提升了3.77、2.24和1.30、0.31个百分点,具有更高的中文命名实体识别准确性。  相似文献   

16.
命名实体识别是自然语言处理中的一项基础任务。通过基于词典的方法增强词内语义和词边界信息是中文命名实体识别的主流做法。然而,汉字由象形字演变而来,汉字字形中包含着丰富的实体信息,这些信息在该任务中却很少被使用。该文提出了一个基于词典和字形特征的中文命名实体识别模型,将词信息和结构信息统一地结合起来,提高了实体匹配的准确性。该文首先通过SoftLexicon方法丰富语义信息,并使用改进的部首级嵌入优化字符表示;然后通过门卷积网络加强了对潜在词和上下文信息的提取;最后在四个基准数据集上实验,结果表明与传统模型和最新模型相比,基于词典和字形特征的模型取得了显著的性能提升。  相似文献   

17.
高质量的命名实体识别算法往往依赖海量的高质量标注数据来帮助实体识别模型的训练,然而大规模标注数据的获取存在诸多困难,如何通过文本信息自身的相关性来提高实体识别的准确性受到越来越多科研工作者的关注。该文有效地利用文本信息的语义相关性引入“实体联合器”概念,通过其与实体的高相关性,提高实体的数字化表征能力,进而实现对实体的有效识别。基于此,首先提出了一种实体联合器识别模型,通过文本关联结构信息来实现非标签文本的实体联合器识别;之后,采用经典的BiLSTM网络模型,提取句子的语义表征,并利用特征融合机制实现实体联合器与句子特征融合;由于实体联合器与实体有较强的关联性,又提出了针对实体表征及句子整体表征的约束机制,确保实体联合器在特征学习过程中的指导作用,精准高效地识别文本数据中的实体。通过在公开的数据集CoNLL03、NCBI Disease上对该文算法进行测试,相关实验结果证明了该文所提出算法的优越性和合理性。  相似文献   

18.
事件检测主要研究从非结构化文本中自动识别事件触发词,实现所属事件类型的正确分类。与英文相比,中文需要经过分词才能利用词汇信息,还存在“分词-触发词”不匹配问题。针对中文语言特性与事件检测任务的特点,本文提出一种基于多词汇特征增强的中文事件检测模型,通过外部词典为字级别模型引入包含多词汇信息的词汇集,以利用多种分词结果的词汇信息。同时采用静态文本词频统计与自动分词工具协同决策词汇集中词汇的权重,获取更加精确的词汇语义。在ACE2005中文数据集上与现有模型进行实验对比分析,结果表明本文方法取得了最好的性能,验证了该方法在中文事件检测上的有效性。  相似文献   

19.
为提升传统中文电子病历实体识别预训练模型的语义特征提取能力并增强中文隐含特征表示,提出基于改进预训练语言模型的医疗命名实体识别方法。提出动态词长的逆向最大匹配算法对病历文本进行标注歧义处理,在此基础上构建用户自定义医疗实体字典辅助PKU分词,提高预训练模型掩码效果。输入向量层加入字向量,引入注意力机制学习字向量的全局语义特征。改进预训练模型mask策略和机制并去掉下一句预测,提升词向量语义表征能力。实验结果表明,该方法有效提高了医疗实体的识别效果,F1值达到90.57%。  相似文献   

20.
基于单字提示特征的中文命名实体识别快速算法   总被引:3,自引:1,他引:2  
近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(Linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文命名实体识别精度的同时,有效地降低了模型的训练代价。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号