首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 116 毫秒
1.
2.
针对嵌套命名实体识别,神经网络模型中提出基于跨度的框架。该框架首先产生跨度种子,然后搭建分类器进行筛选。但单独对跨度区域进行分类存在丢失全局语义信息的问题。另外,在中文嵌套命名实体识别中,因为缺少分隔符且中文高度依赖上下文,跨度区域无法有效使用词边界特征,导致识别性能不佳。为解决上述问题,本文提出结合实体标签的中文嵌套命名实体识别模型(CEL)。该模型生成跨度种子后,在原句子的跨度区域开始及结束位置嵌入实体标签,再作为分类器输入,从而更好地学习到跨度种区域边界和上下文之间的语义依赖特征。论文在ACE2005中文数据集上进行实验,实验表明,CEL模型在F1值上达到了较好水平。  相似文献   

3.
为解决命名实体之间的复杂嵌套以及语料库中标注误差导致的相邻命名实体边界重叠问题,提出一种中文重叠命名实体识别方法。利用基于随机合并与拆分的层次化聚类算法将重叠命名实体标签划分到不同的聚类簇中,建立文字到实体标签之间的一对一关联关系,解决了实体标签聚类陷入局部最优的问题,并在每个标签聚类簇中采用融合中文部首的BiLSTM-CRF模型提高重叠命名实体的识别稳定性。实验结果表明,该方法通过标签聚类的方式有效避免标注误差对识别过程的干扰,F1值相比现有识别方法平均提高了0.05。  相似文献   

4.
命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。  相似文献   

5.
命名实体识别作为信息抽取领域的一个基础任务,能为机器翻译、关系抽取等下游任务提供有效支撑,具有重要的研究意义。针对中文命名实体识别方法中存在的实体边界模糊的问题,提出了一种结合实体边界线索的命名实体识别模型,模型由边界检测、线索生成、实体分类三个模块组成。利用边界检测模块识别实体边界。在线索生成模块中依据边界信息生成实体跨度,得到带边界线索标签的文本序列,使模型通过边界线索标签感知句子中的实体边界,学习实体边界和上下文的语义依赖特征。将带有边界线索标签的文本序列作为实体分类模块的输入,使用双仿射机制增强标签之间的语义交互,并结合双仿射机制与多层感知机的共同预测作为实体识别的结果。该模型在ACE2005中文数据集和Weibo数据集上的F1值分别达到了90.47%和73.54%,验证了模型对中文命名实体识别的有效性。  相似文献   

6.
针对一般领域的命名实体识别方法不能直接用于中文医学专业实体的识别,现有的相关研究只专注于英文文本和扁平结构的医学实体识别等问题,通过对专业领域实体识别方法的研究,结合中文医学实体的特点提出了一种面向中文医学实体的级联识别方法。将每个字符元素相对于实体的位置标签嵌入模型,并结合中文医学实体跨度内不同元素的重要程度进行实体的融合表示。通过序列标注方法检测字符的位置标签,利用字符的位置信息指导候选实体生成,并进行实体语义分类。模型在CMeEE和CCKS2018数据集以及中文糖尿病科研文献数据集上分别进行扁平实体、嵌套实体和不连续性长实体的识别实验。实验结果表明,该方法能够有效地识别中文医学文本中不同结构的实体。  相似文献   

7.
《计算机科学与探索》2017,(7):1044-1055
命名实体识别任务能够搭建知识库与自然语言之间的桥梁,为关键字提取、机器翻译、主题检测与跟踪等研究工作提供支撑。通过对目前命名实体识别领域的相关研究进行分析,提出了一套通用的命名实体识别优化方案。首先,设计并实现了利用候选集的增量式扩展方法,降低了对训练集的依赖性;其次,通过点互信息率对实体上下文进行特征选择,大幅度降低了上下文空间,同时提高了标注性能;最后,提出了基于主题向量的二次消歧方法,进一步增强了标注准确率。通过在广泛使用的开源命名实体识别系统DBpedia Spotlight上进行多种比较实验,验证了所提优化方案与已有系统相比具有较优的性能指标。  相似文献   

8.
笔者在基于神经网络的命名实体识别基础上,提出了改进的中文命名实体识别方法,通过调整网络中间的部分架构,引入Transformer编码模型,在没有添加文本外部信息的情况下,研究学习文本语句自身含义的方法,通过多注意力的学习增强文本的特征表示,捕捉更多字符间的关系,同时解决了长短期记忆网络不能并行计算的问题,并在企业舆情数据集上进行了实验和测试。与传统方法进行对比,验证了该方法可有效提高中文命名实体识别的准确率。  相似文献   

9.
嵌套命名实体之间蕴含着丰富的语义关系与结构信息,对于关系抽取、事件抽取等下游任务的执行至关重要。近年来,深度学习技术由于能够获取文本中更为丰富的表征信息,在文本信息抽取模型的精确度上已经逐渐超过了传统基于规则的方法,因此许多学者开展了基于深度学习的嵌套命名实体识别技术研究,并获得了目前最先进的性能。对现有的嵌套命名实体识别技术进行了全面的综述,介绍了嵌套命名实体识别最具代表性的方法及最新应用技术,并对未来面临的挑战和发展方向进行了探讨和展望。  相似文献   

10.
嵌套命名实体之间蕴含着丰富的语义关系与结构信息,对于关系抽取、事件抽取等下游任务的执行至关重要.近年来,深度学习技术由于能够获取文本中更为丰富的表征信息,在文本信息抽取模型的精确度上已经逐渐超过了传统基于规则的方法,因此许多学者开展了基于深度学习的嵌套命名实体识别技术研究,并获得了目前最先进的性能.对现有的嵌套命名实体识别技术进行了全面的综述,介绍了嵌套命名实体识别最具代表性的方法及最新应用技术,并对未来面临的挑战和发展方向进行了探讨和展望.  相似文献   

11.
本文主要介绍了一个利用最大熵进行实体名识别的系统以及所采用的模型和选取的特征。这些特征包括单词本身的词法词态特征和上下文信息。利用这些在任何语言的文本上都极易获得的特征,我们采用最大熵分类器构建了一个基准系统。在此基础上,我们首先通过网络资源建立了实体名词典知识库;并利用词典和基准系统在未标注语料上抽取出现的实体名作为辅助的训练语料;最后再将这些语料加入训练。实验结果表明,辅助的训练语料能够在一定程度上提高系统的性能。  相似文献   

12.
命名实体识别和歧义消解是自然语言理解的重要研究内容。针对提供实体知识库情况下的命名实体识别和歧义消解任务,该文提出了一种基于多步聚类的方法。首先通过两轮聚类将命名实体与知识库实体定义链接,然后通过层次聚合式聚类对知识库中未出现的实体进行聚类,最后进行普通词的识别和基于K-Means聚类的结果调整。在CLP-2012的汉语命名实体识别和歧义消解评测数据上的实验表明,该文的方法表现出良好的性能,在测试集上的F值高出评测参赛队伍最好水平6.46%,达到86.68%。  相似文献   

13.
现有的命名实体识别方法主要是将句子看作一个序列进行处理,忽略了句子中潜在的句法信息,存在长距离依赖问题.为此,该文提出一种基于依存关系的命名实体识别模型,通过在输入数据中增加依存树信息,改变双向长短时记忆网络的层间传播方式,以获得单词在依存树中的子节点和父节点信息,并通过注意力机制动态选择两者的特征,最后将特征输入到C...  相似文献   

14.
作为我国桥梁工程领域最重要的数据源之一,桥梁检测文本蕴含了丰富的结构构件参数及检测病害描述等关键业务信息,但面向该领域的文本信息抽取研究尚未有效开展.该文在阐明其领域命名实体识别目标任务的基础上,分析了待识别实体在蕴含大量专业术语的同时,存在地名或路线名嵌套、字符多义、上下文位置相关和方向敏感等领域特性.鉴于此,该文提...  相似文献   

15.
命名实体识别作为自然语言处理领域的基础问题一直备受关注.中文命名实体特别是组合命名实体,由于其内部结构复杂,故长度可以很长,已有的研究还存在以下两个问题:一是字和词之间的关联信息未能充分挖掘,无法将组合实体和简单实体做统一处理;二是组合实体加大了实体序列长短的差异,文本自身信息的捕获不充分.针对问题一,该文借助融合了双...  相似文献   

16.
在电力系统中, 配电调度是一个复杂且统筹性较强的工作, 大多依赖于工作人员的经验和主观判断, 极易出现纰漏. 所以急需利用智能化手段来帮助检修计划的分析与生成. 命名实体识别是构建配电网知识图谱以及问答系统等任务的关键技术, 它能够将非结构化数据中的命名实体识别出来. 针对配电检修数据的复杂性及强关联性等特点, 本文采用BERT-IDCNN-BiLSTM-CRF深度学习模型. 该模型相较于传统的BERT-BiLSTM-CRF模型, 融入IDCNN神经网络模型, 更好地利用GPU的性能, 在保证识别准确率的前提下, 提高效率. 通过对标注好的检修计划数据进行训练, 并与其他常用模型对比, 在召回率、精确率以及F1值3个指标上, 本文提出的模型均达到最优的效果, F1值可以达到83.1%, 该模型在配电网数据识别任务上取得了很好的效果.  相似文献   

17.
命名实体识别是文本信息处理的重要基础,也是自然语言处理的一项关键技术.近几年来微博迅速发展成为人们进行信息交流的平台,微博文本俨然已经成为进行命名实体抽取的新载体.论文利用微博内容和结构的特点,提出了一种基于统计与规则相结合的命名实体识别的方法.微博文本较短并且文本中含有标签、话题等内容,论文在考虑这些特点基础上,利用微博评论和转发进行词频统计,通过规则筛选,完成命名实体识别.在新浪微博数据上的实验结果表明该方法可以有效地提高微博中命名实体识别效果.  相似文献   

18.
In low-resource natural language processing (NLP) tasks, the existing data is not enough to train an ideal deep learning model. Text data augmentation is an effective method to improve the training effect of such tasks. This paper proposes a group of data augmentation methods based on instance substitution for the task of Chinese named entity recognition. A named entity in the training sample can be replaced by another entity of the same kind without changing the label. The specific algorithms include: 1) crossover substitution between existing entities; 2) synonymous replacement of entity components; 3) automatic generation of Chinese names. These methods are applied to PeopleDailyNER and CLUENER2020 datasets respectively, and the augmentation data is used to train the BERT+CRF model. The experimental results show that the F1 value of the model can be improved by about 10% and 7% respectively on the two datasets with only adding the same amount of augmentation data as the original data under the condition of small samples, and it also has a significant improvement when the training samples increase.  相似文献   

19.
命名实体识别的目的是识别文本中的实体指称的边界和类别.在进行命名实体识别模型训练的过程中,通常需要大量的标注样本.本文通过实现有效的选择算法,从大量样本中选择适合模型更新的样本,减少对样本的标注工作.通过5组对比实验,验证使用有效的选择算法能够获得更好的样本集,实现具有针对性的标注样本.通过设计在微博网络数据集上的实验...  相似文献   

20.
科学技术的进步,推进着军事武器装备的快速更新. 在高度信息化的时代,急需智能化军事信息处理技术. 本文针对飞行器、坦克车辆、火炮弹炮、导弹武器等军事文本中的武器命名实体,提出了基于词向量、词状态的特征,利用深度神经网络模型的识别方法. 实验表明:在测试语料上取得F-1值0.9102的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号