共查询到20条相似文献,搜索用时 62 毫秒
1.
2.
命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。 相似文献
3.
命名实体识别技术是信息抽取、机器翻译、问答系统等多种自然语言处理技术中一项重要的基本任务。近年来,基于深度学习的命名实体识别技术成为一大研究热点。为了方便研究者们了解基于深度学习的命名实体识别研究进展及未来发展趋势,对当前基于卷积神经网络、循环神经网络、transformer模型以及其他一些命名实体识别方法展开综述性介绍,对四类方法进行了深入分析和对比。同时对命名实体识别应用领域以及所涉及到的数据集和评测方法进行了介绍,并对未来的研究方向进行了展望。 相似文献
4.
随着生命科学技术的发展,生物医学领域文献呈指数级增长,如何从海量文献中挖掘、抽取有价值的信息成为生物医学领域新的研究契机。作为信息抽取的核心技术,命名实体识别和关系抽取成为生物医学文本挖掘的基础和关键,其主要工作为识别生物医学文本中的实体,并提取实体间存在的生物医学语义关系。当前深度学习技术在各领域自然语言处理任务中取得了长足的发展,旨在总结基于神经网络的生物医学实体识别和关系抽取的方法,从概念、进展、现状等多角度全面阐述各项技术在生物医学领域的发展历程,进一步明确生物医学文本信息抽取工作的探索方向。 相似文献
5.
中文命名实体识别(CNER)任务是问答系统、机器翻译、信息抽取等自然语言应用的基础底层任务。传统的CNER系统借助人工设计的领域词典和语法规则,取得了不错的实验效果,但存在泛化能力弱、鲁棒性差、维护难等缺点。近年来兴起的深度学习技术通过端到端的方式自动提取文本特征,弥补了上述不足。该文对基于深度学习的中文命名实体识别任务最新研究进展进行了综述,先介绍中文命名实体识别任务的概念、应用现状和难点,接着简要介绍中文命名实体识别任务的常用数据集和评估方法,并按照主要网络架构对中文命名实体识别任务上的深度学习模型进行分类和梳理,最后对这一任务的未来研究方向进行了展望。 相似文献
6.
嵌套命名实体含有丰富的实体和实体间语义关系,有助于提高信息抽取的效率。由于缺少统一的标准中文嵌套命名实体语料库,目前中文嵌套命名实体的研究工作难于比较。该文在已有命名实体语料的基础上采用半自动化方法构建了两个中文嵌套命名实体语料库。首先利用已有中文命名实体语料库中的标注信息自动地构造出尽可能多的嵌套命名实体,然后再进行手工调整以满足对中文嵌套实体的标注要求,从而构建高质量的中文嵌套命名实体识别语料库。语料内和跨语料嵌套实体识别的初步实验表明,中文嵌套命名实体识别仍是一个比较困难的问题,需要进一步研究。 相似文献
7.
跨度分类是嵌套命名实体识别常用的方法,但由于需要穷举并验证每一个跨度,存在高复杂度和数据不平衡的问题。并且,由于对每个跨度是单独进行预测,忽视了文本序列中存在的实体间的依赖关系。针对跨度分类方法存在的上述问题,提出了一种基于跨度解码的嵌套命名实体识别方法。结合词性特征、字符特征、词特征以及上下文特征对文本进行编码,获取文本丰富的语义信息;识别可能的实体开始位置,在此基础上穷举可能的实体跨度,一定程度地减少潜在的实体跨度;使用基于注意力机制的解码器逐一对每个开始所对应的实体跨度的类型进行预测,解码过程中将已预测的实体信息进行传递,进而捕获和学习实体间的依赖关系。实验结果表明,跨度解码可以有效地改进跨度分类,所提出的方法在公共的英语嵌套实体数据集ACE2005和GENIA上的F1分数分别提高了0.45和0.14个百分点。 相似文献
8.
命名实体识别、排歧和跨语言关联 总被引:5,自引:0,他引:5
命名实体是文本中承载信息的重要语言单位,命名实体的识别和分析在网络信息抽取、网络内容管理和知识工程等领域都占有非常重要的地位。有关命名实体的研究任务包括实体识别、实体排歧、实体跨语言关联、实体属性抽取、实体关系检测等,该文重点介绍命名实体识别、排歧和跨语言关联等任务的研究现状,包括难点、评测、现有方法和技术水平,并对下一步需要重点解决的问题进行分析和讨论。该文认为,命名实体识别、排歧和跨语言关联目前的技术水平还远远不能满足大规模真实应用的需求,需要更加深入的研究。在研究方法上,要突破自然语言文本的限制,直接面向海量、冗余、异构、不规范、含有大量噪声的网页信息处理。 相似文献
9.
命名实体识别(NER)被视为自然语言处理中的一项基础性研究任务。受计算机视觉中单阶段(one-stage)目标检测算法启发,借鉴其算法思想并引入回归运算,提出有效识别嵌套命名实体的端到端方法。基于多目标学习框架,利用深度神经网络将句子转换为文本特征图以回归预测嵌套实体边界,设计中心度方法抑制低质量边界。与多种方法在ACE2005中文数据集上进行对比实验。实验结果表明,该方法有效识别文本中的嵌套命名实体,且计算机视觉算法思想和边界回归机制在自然语言处理任务中取得理想的效果。 相似文献
10.
命名实体识别是自然语言处理任务的重要环节。近年来,基于深度学习的通用命名实体识别模型取得显著效果。而在旅游领域,中文旅游景点实体识别主要依赖于特征工程的方法。提出一种基于CNN-BiLSTM-CRF的网络模型,该模型不使用任何人工特征,通过神经网络充分对文本的局部信息特征进行抽象化抽取和表示,并学习和利用文本的上下文信息,实现对景点实体的识别。实验结果显示,该方法能够有效识别中文旅游景点实体,并在实验中取得[F1]值93.9%的效果。 相似文献
11.
12.
医学命名实体识别是自动构建大规模医学知识库的关键,但医学文本中存在实体嵌套现象,采用序列标注的方法不能识别出嵌套中的实体。文中提出了基于阅读理解框架的中文医学命名实体识别方法,该方法将嵌套命名实体识别问题建模为机器阅读理解问题,使用BERT建立阅读理解问题和医学文本之间的联系,并引入多头注意力机制强化问题和嵌套实体之间的语义联系,最后用两个分类器对实体开头和结尾位置进行预测。与目前5种主流方法相比,该方法取得了最优结果,综合F1值达到了67.65%;与经典的实体识别模型BiLSTM-CRF相比,F1值提升了7.17%,其中嵌套较多的临床表现实体提升16.81%。 相似文献
13.
运用命名实体识别算法从海量医疗文本中抽取信息,对于构建知识图谱、对话系统等具有重要意义.然而医疗实体间存在嵌套、歧义和专业术语缩写多样性的问题,传统的基于统计的方法对于实体边界的定位存在较大偏差.考虑到医疗文本的复杂性,提出了多层Transformer模型,基于其multi-head和self-attention机制提... 相似文献
14.
邱莎 《数字社区&智能家居》2007,(3):1385-1387
已有的大量生物医学文本为人们提供了充足的资料,但却没有足够好的工具来帮助人们从中获取信息和知识。而命名实体识别则在信息检索、信息抽取及知识发现等这样的应用中起着很重要的作用。本文基于JNLPBA生物命名实体识别任务,简要介绍了目前几种在生物医学文本中常用的基于机器学习的命名实体识别模型,并进行比较及常规讨论,同时也提供了一些相关的背景信息。 相似文献
15.
16.
17.
孙凌浩 《计算机工程与应用》2021,57(10):94-100
随着深度学习技术的应用,自然语言处理领域得到快速发展,为提高中文命名实体识别效果,提出一种新的方法,利用英文模型抽取信息辅助中文命名实体识别。该方法使用翻译模型将中文翻译为英文,然后利用英文命名实体识别模型抽取特征,再利用翻译模型的注意力权重进行信息迁移,将预训练的英文命名实体识别模型提取的特征用于中文命名实体识别。该方法可以将训练模型中得到的任务相关特征进行迁移,从而丰富原始数据的语义表示。在两个中文命名实体识别数据集上的实验表明,该方法优于其他现有方法。 相似文献
18.
跨语言命名实体对于机器翻译、跨语言信息抽取都具有重要意义,从命名实体的音译、基于平行/可比语料库的跨语言命名实体对齐、基于网络挖掘的跨语言命名实体对翻译抽取3个方面对跨语言命名实体翻译对抽取的研究现状进行了总结。音译是跨语言命名实体翻译对抽取的重点内容之一,基于深度学习的音译模型将是今后的研究重点。目前,跨语言平行/可比语料库的获取和标注直接影响基于语料库的跨语言命名实体对齐的深入研究。基于信息检索和维基百科的跨语言命名实体翻译对抽取研究将是跨语言命名实体翻译对抽取研究的趋势。 相似文献
19.
命名实体识别是文本信息处理的重要基础,也是自然语言处理的一项关键技术.近几年来微博迅速发展成为人们进行信息交流的平台,微博文本俨然已经成为进行命名实体抽取的新载体.论文利用微博内容和结构的特点,提出了一种基于统计与规则相结合的命名实体识别的方法.微博文本较短并且文本中含有标签、话题等内容,论文在考虑这些特点基础上,利用微博评论和转发进行词频统计,通过规则筛选,完成命名实体识别.在新浪微博数据上的实验结果表明该方法可以有效地提高微博中命名实体识别效果. 相似文献
20.
命名实体识别作为信息抽取领域的一个基础任务,能为机器翻译、关系抽取等下游任务提供有效支撑,具有重要的研究意义。针对中文命名实体识别方法中存在的实体边界模糊的问题,提出了一种结合实体边界线索的命名实体识别模型,模型由边界检测、线索生成、实体分类三个模块组成。利用边界检测模块识别实体边界。在线索生成模块中依据边界信息生成实体跨度,得到带边界线索标签的文本序列,使模型通过边界线索标签感知句子中的实体边界,学习实体边界和上下文的语义依赖特征。将带有边界线索标签的文本序列作为实体分类模块的输入,使用双仿射机制增强标签之间的语义交互,并结合双仿射机制与多层感知机的共同预测作为实体识别的结果。该模型在ACE2005中文数据集和Weibo数据集上的F1值分别达到了90.47%和73.54%,验证了模型对中文命名实体识别的有效性。 相似文献