首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为解决命名实体之间的复杂嵌套以及语料库中标注误差导致的相邻命名实体边界重叠问题,提出一种中文重叠命名实体识别方法。利用基于随机合并与拆分的层次化聚类算法将重叠命名实体标签划分到不同的聚类簇中,建立文字到实体标签之间的一对一关联关系,解决了实体标签聚类陷入局部最优的问题,并在每个标签聚类簇中采用融合中文部首的BiLSTM-CRF模型提高重叠命名实体的识别稳定性。实验结果表明,该方法通过标签聚类的方式有效避免标注误差对识别过程的干扰,F1值相比现有识别方法平均提高了0.05。  相似文献   

2.
为了改善传统基于阅读理解的命名实体识别方法存在的缺陷,提出一种基于注意力的阅读理解实体识别方法。该方法首先通过来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,BERT)模型对实体类型的问题语句和待处理的文本进行编码,其次使用注意力网络关联二者,最后通过Span网络进行序列解码,提取出相应的实体类型。实验结果表明,该方法的F1值大于对照组的F1值,能够更准确地判断实体类型。  相似文献   

3.
实体嵌套是自然语言中一种常见现象,提高嵌套命名实体识别的准确性对自然语言处理各项任务具有重要作用。针对现有嵌套命名实体识别方法在识别实体边界时不够准确、未能有效利用实体边界信息等问题,提出一种嵌套命名实体识别的边界强化分类模型。采用卷积神经网络提取邻接词的特征,通过加入多头注意力的序列标注模型获取实体中的边界特征,提高实体边界检测的准确性。在此基础上,计算实体中各词语对实体类型的贡献度,将实体关键字与实体边界词相结合来表示实体,使实体表示中包含实体关键信息和边界信息,最后进行实体类型检测。实验结果表明,通过加入多头注意力机制能够有效提升对嵌套命名实体的检测和识别性能,该模型在GENIA和GermEval 2014数据集上准确率有较好表现,并且召回率和F1值较对比模型达到最优。  相似文献   

4.
针对工艺操作说明文本中的命名实体,提出一种基于BiLSTM-CRF模型与词典、规则相结合的识别方法,旨在识别图纸编号、参考标准、零件和零件号等11种实体。基于BiLSTM-CRF模型,使用BERT模型预训练的向量,对相关命名实体进行初始识别;针对工艺操作说明文本中零件和零件号表达方式复杂多样的问题,使用基于词典和规则的方法对此类实体的标注结果进行校正。实验结果表明,该方法在工艺操作说明文本中能较好地完成命名实体识别任务,在测试语料上F1值达到94.03%,比基线提升了4.14%。  相似文献   

5.
实体关系抽取是构建知识图谱的关键步骤,其目的是抽取文本中的关系三元组。针对现有中文实体关系联合抽取模型无法有效抽取重叠关系三元组及提取性能不足的问题,该文提出了RoBERTa-Effg-Adv的实体关系联合抽取模型,其编码端采用RoBERTa-wwm-ext预训练模型对输入数据进行编码,并采用Efficient GlobalPointer模型来处理嵌套和非嵌套命名实体识别,将实体关系三元组拆分成五元组进行实体关系联合抽取。再结合对抗训练,提升模型的鲁棒性。为了获得机器可读的语料库,对相关文本书籍进行扫描,并进行光学字符识别,再通过人工标注数据的方式,形成该研究所需要的关系抽取数据集REDQTTM,该数据集包含18种实体类型和11种关系类型。实验结果验证了该方法在瞿昙寺壁画领域的中文实体关系联合抽取任务的有效性,在REDQTTM测试集上的精确率达到了94.0%,召回率达到了90.7%,F1值达到了92.3%,相比GPLinker模型,在精确率、召回率和F1值上分别提高了2.4百分点、0.9百分点、1.6百分点。  相似文献   

6.
嵌套命名实体之间蕴含着丰富的语义关系与结构信息,对于关系抽取、事件抽取等下游任务的执行至关重要.近年来,深度学习技术由于能够获取文本中更为丰富的表征信息,在文本信息抽取模型的精确度上已经逐渐超过了传统基于规则的方法,因此许多学者开展了基于深度学习的嵌套命名实体识别技术研究,并获得了目前最先进的性能.对现有的嵌套命名实体识别技术进行了全面的综述,介绍了嵌套命名实体识别最具代表性的方法及最新应用技术,并对未来面临的挑战和发展方向进行了探讨和展望.  相似文献   

7.
法律文书命名实体识别是智慧司法领域的关键性和基础性任务。在目前法律文书命名实体识别方法中,存在实体定义与司法业务结合不紧密、传统词向量无法解决一词多义等问题。针对以上问题,该文提出一种新的法律文本命名实体定义方案,构建了基于起诉意见书的法律文本命名实体语料集LegalCorpus;提出一种基于BERT-ON-LSTM-CRF(Bidirectional Encoder Representations from Transformers-Ordered Neuron-Long Short Term Memory Networks-Conditional Random Field)的法律文书命名实体识别方法,该方法首先利用预训练语言模型BERT根据字的上下文动态生成语义向量作为模型输入,然后运用ON-LSTM对输入进行序列和层级建模以提取文本特征,最后利用CRF获取最优标记序列。在LegalCorpus上进行实验,该文提出的方法F1值达到86.09%,相比基线模型lattice LSTM F1值提升了7.8%。实验结果表明,该方法可以有效对法律文书的命名实体进行识别。  相似文献   

8.
实体链接是加强语义理解和连接知识信息与文本的有效方法,但目前多数模型对上下文语境的精准理解受限于文本长度,面向短文本的实体链接任务存在实体边界识别错误和实体语义理解错误的问题。针对中文短文本的实体链接任务,构建基于局部注意力机制的实体链接模型。在实体消歧的过程中,通过对待消歧文本与实体的知识描述文本进行拼接,将短文本转换为长文本,同时引入局部注意力机制,缓解长距离依赖问题并强化局部的上下文信息。实验结果表明,相比于传统加入BIO标注方法的模型,该模型在CCKS2019和CCKS2020数据集上的F1值分别提升了4.41%和1.52%。  相似文献   

9.
基于ALBERT-BGRU-CRF的中文命名实体识别方法   总被引:1,自引:0,他引:1  
命名实体识别是知识图谱构建、搜索引擎、推荐系统等上层自然语言处理任务的重要基础,中文命名实体识别是对一段文本序列中的专有名词或特定命名实体进行标注分类。针对现有中文命名实体识别方法无法有效提取长距离语义信息及解决一词多义的问题,提出一种基于ALBERT-双向门控循环单元(BGRU)-条件随机场(CRF)模型的中文命名实体识别方法。使用ALBERT预训练语言模型对输入文本进行词嵌入获取动态词向量,有效解决了一词多义的问题。采用BGRU提取上下文语义特征进一步理解语义,获取长距离词之间的语义特征。将拼接后的向量输入至CRF层并利用维特比算法解码,降低错误标签输出概率。最终得到实体标注信息,实现中文命名实体识别。实验结果表明,ALBERT-BGRU-CRF模型在MSRA语料库上的中文命名实体识别准确率和召回率分别达到95.16%和94.58%,同时相比于片段神经网络模型和CNN-BiLSTM-CRF模型的F1值提升了4.43和3.78个百分点。  相似文献   

10.
从文本信息中抽取关系三元组是构建知识图谱的关键任务,近年来受到工业界和学术界的广泛关注。针对旅游领域信息抽取过程中出现的实体嵌套和关系重叠问题,提出了一种基于双仿射注意力机制的实体关系联合抽取模型BAMRel,该模型通过共享编码层参数利用双仿射注意力机制在实体识别部分和关系抽取部分构建分类矩阵,并在关系抽取部分融合实体类型信息,提升关系抽取效果的同时增加了两个任务之间的交互。此外,通过远程监督和人工校验构建了旅游领域关系抽取数据集TFRED,BAMRel模型在此数据集上F1值达到了91.8%,有效地解决了实体嵌套和关系重叠问题。为了验证模型的鲁棒性,在百度DuIE数据集上与主流联合抽取模型进行了对比实验,BAMRel模型取得了最高的F1值80.2%。  相似文献   

11.
跨度分类是嵌套命名实体识别常用的方法,但由于需要穷举并验证每一个跨度,存在高复杂度和数据不平衡的问题。并且,由于对每个跨度是单独进行预测,忽视了文本序列中存在的实体间的依赖关系。针对跨度分类方法存在的上述问题,提出了一种基于跨度解码的嵌套命名实体识别方法。结合词性特征、字符特征、词特征以及上下文特征对文本进行编码,获取文本丰富的语义信息;识别可能的实体开始位置,在此基础上穷举可能的实体跨度,一定程度地减少潜在的实体跨度;使用基于注意力机制的解码器逐一对每个开始所对应的实体跨度的类型进行预测,解码过程中将已预测的实体信息进行传递,进而捕获和学习实体间的依赖关系。实验结果表明,跨度解码可以有效地改进跨度分类,所提出的方法在公共的英语嵌套实体数据集ACE2005和GENIA上的F1分数分别提高了0.45和0.14个百分点。  相似文献   

12.
近年来在线问诊的需求日益增大,亟需关于自动化医疗问诊方面的研究,而医患对话理解是智能医疗研究的基础。然而在真实场景中,医患对话理解面临着实体表述复杂、状态判断困难的问题。针对这些问题,该文提出一种信息增强的医患对话理解模型,该模型强调医患对话中的角色特征和症状特征用于增强文本信息,并将症状实体语义和阅读理解语义融合用于丰富语义信息。基于所提出模型的系统在第一届智能对话诊疗评测——医患对话理解测试集上取得了91.7%的命名实体识别F1值和73.7%的症状状态识别F1值。  相似文献   

13.
廖涛  黄荣梅  张顺香  段松松 《计算机工程》2022,48(12):119-126+133
现有命名实体识别模型在字嵌入过程中多采用字符向量、字向量等不同单词表示向量的拼接或累加方式提取信息,未考虑不同单词表示特征之间的相互依赖关系,导致单词内部特征信息获取不足。提出一种基于交互式特征融合的嵌套命名实体识别模型,通过交互的方式构建不同特征之间的通信桥梁,以捕获多特征之间的依赖关系。采用交互机制得到包含不同单词表示信息的字嵌入向量,基于双向长短时记忆网络提取单词的表示特征,并对不同单词的表示特征进行交互,捕获特征之间的相互依赖关系。为进一步提取序列特征的上下文信息,采用基于特征交互的多头注意力机制捕获句子上下文的依赖关系。在此基础上,采用二元序列标记法过滤非实体区域,得到粗粒度候选区间,并对其进行细粒度划分以判断实体类别。实验结果表明,该模型的召回率和F1值为72.4%和71.2%,相比现有的嵌套命名实体识别模型,F1值平均提高了1.72%。  相似文献   

14.
命名实体识别是自然语言处理中的重要任务,且中文命名实体识别相比于英文命名实体识别任务更具难度。传统中文实体识别模型通常基于深度神经网络对文本中的所有字符打上标签,再根据标签序列识别命名实体,但此类基于字符的序列标注方式难以获取词语信息。提出一种基于Transformer编码器的中文命名实体识别模型,在字嵌入过程中使用结合词典的字向量编码方法使字向量包含词语信息,同时针对Transformer编码器在注意力运算时丢失字符相对位置信息的问题,改进Transformer编码器的注意力运算并引入相对位置编码方法,最终通过条件随机场模型获取最优标签序列。实验结果表明,该模型在Resume和Weibo中文命名实体识别数据集上的F1值分别达到94.7%和58.2%,相比于基于双向长短期记忆网络和ID-CNN的命名实体识别模型均有所提升,具有更优的识别效果和更快的收敛速度。  相似文献   

15.
命名实体识别作为信息抽取领域的一个基础任务,能为机器翻译、关系抽取等下游任务提供有效支撑,具有重要的研究意义。针对中文命名实体识别方法中存在的实体边界模糊的问题,提出了一种结合实体边界线索的命名实体识别模型,模型由边界检测、线索生成、实体分类三个模块组成。利用边界检测模块识别实体边界。在线索生成模块中依据边界信息生成实体跨度,得到带边界线索标签的文本序列,使模型通过边界线索标签感知句子中的实体边界,学习实体边界和上下文的语义依赖特征。将带有边界线索标签的文本序列作为实体分类模块的输入,使用双仿射机制增强标签之间的语义交互,并结合双仿射机制与多层感知机的共同预测作为实体识别的结果。该模型在ACE2005中文数据集和Weibo数据集上的F1值分别达到了90.47%和73.54%,验证了模型对中文命名实体识别的有效性。  相似文献   

16.
中文命名实体识别主要包括中文平面命名实体识别和中文嵌套命名实体识别两个任务,其中中文嵌套命名实体识别任务难度更大。提出了一个基于词汇增强和表格填充的统一模型TLEXNER,该模型能够同时处理上述任务。该模型首先针对中文语料分词困难的问题,使用词典适配器将词汇信息融合到BERT预训练模型,并且将字符与词汇组的相对位置信息集成到BERT的嵌入层中;然后通过条件层归一化和双仿射模型构造并预测字符对表格,使用表格建模字符与字符之间的关系,得到平面实体与嵌套实体的统一表示;最后根据字符对表格上三角区域的数值判断实体类别。提出的模型在平面实体的公开数据集Resume和自行标注的军事领域嵌套实体数据集上F1分别是97.35%和91.96%,证明了TLEXNER模型的有效性。  相似文献   

17.
针对一般领域的命名实体识别方法不能直接用于中文医学专业实体的识别,现有的相关研究只专注于英文文本和扁平结构的医学实体识别等问题,通过对专业领域实体识别方法的研究,结合中文医学实体的特点提出了一种面向中文医学实体的级联识别方法。将每个字符元素相对于实体的位置标签嵌入模型,并结合中文医学实体跨度内不同元素的重要程度进行实体的融合表示。通过序列标注方法检测字符的位置标签,利用字符的位置信息指导候选实体生成,并进行实体语义分类。模型在CMeEE和CCKS2018数据集以及中文糖尿病科研文献数据集上分别进行扁平实体、嵌套实体和不连续性长实体的识别实验。实验结果表明,该方法能够有效地识别中文医学文本中不同结构的实体。  相似文献   

18.
面向商务信息抽取的产品命名实体识别研究   总被引:12,自引:5,他引:12  
市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchical hidden Markov model)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统。实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7% ,86.9% ,75.8%。通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力。  相似文献   

19.
旅游领域命名实体识别是旅游知识图谱构建过程中的关键步骤,与通用领域的实体相比,旅游文本的实体具有长度长、一词多义、嵌套严重的特点,导致命名实体识别准确率低。提出一种融合词典信息的有向图神经网络(L-CGNN)模型,用于旅游领域中的命名实体识别。将预训练词向量通过卷积神经网络提取丰富的字特征,利用词典构造句子的有向图,以生成邻接矩阵并融合字词信息,通过将包含局部特征的词向量和邻接矩阵输入图神经网络(GNN)中,提取全局语义信息,并引入条件随机场(CRF)得到最优的标签序列。实验结果表明,相比Lattice LSTM、ID-CNN+CRF、CRF等模型,L-CGNN模型在旅游和简历数据集上具有较高的识别准确率,其F1值分别达到86.86%和95.02%。  相似文献   

20.
由于中文文本缺少天然分隔符,中文嵌套命名实体识别(Chinese Nested Named Entity Recognition, CNNER)任务极具挑战性,而嵌套结构的复杂性和多变性更增添了任务的难度。文中针对CNNER任务提出了一种新型边界感知层叠神经网络模型(Boundary-aware Layered Nerual Model, BLNM)。首先通过构建了一个分割注意力网络来捕获潜在的分词信息和相邻字符之间的语义关系,以增强字符表示;然后通过动态堆叠扁平命名实体识别层的网络,由小粒度到大粒度逐层识别嵌套实体;最后为了利用被预测实体的边界信息和位置信息,构建了一个边界生成式模块,用于连接相邻的扁平命名实体识别层以及缓解错误传递问题。基于ACE 2005中文嵌套命名实体数据集的实验结果表明,该模型具有较好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号