首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。  相似文献   

2.
命名实体识别是信息抽取的重要研究内容,主要包括对组织机构名、地名和人名的自动识别。针对英语和汉语的命名实体识别研究开始较早,主要采用基于规则和基于统计的方法进行识别,但目前国内还少有针对越南语命名实体识别的研究。该文分析了越南语命名实体的语言学特点,对其分类并进行了形式化表达,提出了一种基于规则的越南语命名实体识别方法,实验结果显示,该方法能够达到较高的识别准确率。  相似文献   

3.
针对一般领域的命名实体识别方法不能直接用于中文医学专业实体的识别,现有的相关研究只专注于英文文本和扁平结构的医学实体识别等问题,通过对专业领域实体识别方法的研究,结合中文医学实体的特点提出了一种面向中文医学实体的级联识别方法。将每个字符元素相对于实体的位置标签嵌入模型,并结合中文医学实体跨度内不同元素的重要程度进行实体的融合表示。通过序列标注方法检测字符的位置标签,利用字符的位置信息指导候选实体生成,并进行实体语义分类。模型在CMeEE和CCKS2018数据集以及中文糖尿病科研文献数据集上分别进行扁平实体、嵌套实体和不连续性长实体的识别实验。实验结果表明,该方法能够有效地识别中文医学文本中不同结构的实体。  相似文献   

4.
医疗命名实体识别指从海量的非结构化的医疗数据中提取关键信息,为医学研究的发展和智慧医疗系统的普及提供了基础.深度学习运用深层非线性的神经网络结构能够学习到复杂、抽象的特征,可实现对数据更本质的表征.医疗命名实体识别采用深度学习模型可明显提升效果.首先,本文综述了医疗命名实体识别特有的难点以及传统的识别方法;其次,总结了基于深度学习方法的模型并介绍了较为流行的模型改进方法,包括针对特征向量的改进,针对数据匮乏、复杂命名实体识别等问题的改进;最后,通过综合论述对未来的研究方向进行展望.  相似文献   

5.
在较为深入地研究医疗文本实体识别的现有方法的基础上,设计一种基于深度学习的医疗文本实体识别方法。本文在医疗文本数据集上进行实体识别对比实验,所识别目标实体包含疾病,症状,药品,治疗方法和检查五大类。实验结果表明,设计的深度神经网络模型能够很好的应用到医疗文本实体识别,本文所设计的方法比传统算法(如CRF)具有较少人工特征干预及更高的准确率和召回率等优点。  相似文献   

6.
命名实体识别是自然语言处理的一个重要基础任务。传统基于统计学习模型的命名实体识别方法严重依赖特征工程,特征设计需要大量人工参与和专家知识,而且已有的方法通常大多将中文命名实体识别任务看作一个字符序列标注问题,需要依赖局部字符标记区分实体边界。为了减弱系统对人工特征设计的依赖,避免字符序列化标注方法的不足,该文对基于神经网络的片段级中文命名实体识别方法进行探索研究。通过采用深度学习片段神经网络结构,实现特征的自动学习,并通过获取片段信息对片段整体分配标记,同时完成实体边界识别和分类。基于神经网络的片段级中文命名实体识别方法在MSRA数据集上对人名、地名和机构名识别的总体F1值达到了90.44%。  相似文献   

7.
针对军事文本中的命名实体,提出一种基于条件随机场模型的半监督命名实体识别方法,旨在将人员军职军衔名、军事装备名、军用物资名、军事设施名、军事机构名(含部队番号)以及军用地名等军事命名实体的识别融合到一个统一的技术框架中。该方法针对军事文本的语法特点建立高效的特征集合,建立条件随机场模型对军事命名实体进行识别,并依次使用基于词典的方法和基于规则的方法对识别结果进行校正。实验表明,该方法在军事文本中能够出色地完成命名实体识别任务,在测试语料上的F-值最高达到90.9%,接近通用领域中命名实体识别的水平。  相似文献   

8.
命名实体识别技术是信息抽取、机器翻译、问答系统等多种自然语言处理技术中一项重要的基本任务。近年来,基于深度学习的命名实体识别技术成为一大研究热点。为了方便研究者们了解基于深度学习的命名实体识别研究进展及未来发展趋势,对当前基于卷积神经网络、循环神经网络、transformer模型以及其他一些命名实体识别方法展开综述性介绍,对四类方法进行了深入分析和对比。同时对命名实体识别应用领域以及所涉及到的数据集和评测方法进行了介绍,并对未来的研究方向进行了展望。  相似文献   

9.
针对现有实体识别方法自动化水平不高、适应性差等不足,提出一种基于反向传播(BP)神经网络的Deep Web实体识别方法。该方法将实体分块后利用反向传播神经网络的自主学习特性,将语义块相似度值作为反向传播神经网络的输入,通过训练得到正确的实体识别模型,从而实现对异构数据源的自动化实体识别。实验结果表明,所提方法的应用不仅能够减少实体识别中的人工干预,而且能够提高实体识别的效率和准确率。  相似文献   

10.
深入了解医疗实体识别的现状和进展,有助于进一步提升医疗实体识别的效果。通过梳理国内外医疗实体识别的相关研究进展和研究成果,并分别从医疗实体概念和分类、国内外重要医疗实体识别评测会议,以及传统的和当代的医疗实体识别方法三方面进行归纳和总结,系统全面地阐述了医疗实体识别的研究现状,指出了当前研究存在的问题,并对医疗实体识别的未来发展趋势进行了展望。从深度学习的视角,仅仅对循环神经网络、长短时记忆神经网络等主流的神经网络模型在医疗实体识别领域的应用进行了分析和总结。在医疗大数据和人工智能背景下,医疗实体识别是医疗领域信息处理和人工智能的基础,并且该研究已经发展成为自然语言处理中新的研究方向,对医疗大数据分析和医疗人工智能具有重要意义。  相似文献   

11.
藏文命名实体识别是藏文自然语言处理领域的一项关键技术,其目的是识别文本中的人名、地名及组织机构名。在目前的研究中,深度学习方法需要大量的标注数据是制约模型性能的主要因素,因此本文提出基于小样本学习的藏文命名实体识别方法。针对小样本数据量少导致模型无法充分学习实体特征的问题,本文提出实体特征信息融合方法,在训练过程中将实体位置信息、分词信息与藏文音节信息以维度拼接的方式进行特征融合,通过辅助信息增强实体特征,使得模型可以较好地学习藏文长实体的边界信息,并设计消融实验探究不同特征信息对模型效果的影响。实验结果表明,本文提出的方法有效提高了藏文小样本命名实体识别模型的准确率,相较于基线实验F1值总体提升了22.22~38个百分点。  相似文献   

12.
余慧瑾  方勇纯  韦知辛 《机器人》2021,43(6):706-714
现有的场景识别方法准确率低,适应能力不强.为此,将自主发育神经网络应用于机器人场景识别任务,提出了2种将自主发育网络与多传感器融合技术相结合的场景识别方法,即基于加权贝叶斯融合的机器人场景识别方法,以及基于同一自主发育网络架构数据融合的场景识别方法,分别在决策层以及数据层对多传感器信息进行融合,提高了场景识别的准确度,而自主发育网络则提升了识别方法针对各种复杂场景的适应能力.对于所提出的场景识别方法进行了实验测试与分析,证实了其有效性及实用性.此外,由于在同一网络架构下进行数据融合可更高效地利用数据,因此这种方法在场景识别的准确度方面具有更为优越的性能.  相似文献   

13.
为解决命名实体之间的复杂嵌套以及语料库中标注误差导致的相邻命名实体边界重叠问题,提出一种中文重叠命名实体识别方法。利用基于随机合并与拆分的层次化聚类算法将重叠命名实体标签划分到不同的聚类簇中,建立文字到实体标签之间的一对一关联关系,解决了实体标签聚类陷入局部最优的问题,并在每个标签聚类簇中采用融合中文部首的BiLSTM-CRF模型提高重叠命名实体的识别稳定性。实验结果表明,该方法通过标签聚类的方式有效避免标注误差对识别过程的干扰,F1值相比现有识别方法平均提高了0.05。  相似文献   

14.
群体行为识别是指给定一个包含多人场景的视频,模型需要识别出视频中多个人物正在共同完成的群体行为.群体行为识别是视频理解中的一个重要问题,可以被应用在运动比赛视频分析、监控视频识别、社交行为理解等现实场景中.多人场景视频较为复杂,时间和空间上的信息十分丰富,对模型提取关键信息的能力要求更高.模型只有高效地建模场景中的层次化关系,并为人物群体提取有区分性的时空特征,才能准确地识别出群体行为.由于其广泛的应用需求,群体行为识别问题受到了研究人员的广泛关注.对近几年来群体行为识别问题上的大量研究工作进行了深入分析,总结出了群体行为识别研究所面临的主要挑战,系统地归纳出了6种类型的群体行为识别方法,包含传统非深度学习识别方法以及基于深度学习技术的识别方法,并对未来研究的可能方向进行了展望.  相似文献   

15.
提出一种宠物知识图谱的构建框架。通过自顶向下的方式设计并构建了schema(概念)层,从半结构化和非结构化数据中进行知识抽取构建了数据层。在对非结构化数据的实体抽取方面,提出了一种条件随机场(CRF)与宠物症状词典相结合的症状命名实体识别方法。该方法利用症状词典对文本进行识别,获取语义类别信息,CRF结合语义信息实现对症状实体的识别抽取。实验结果表明了该方法的有效性。在知识表示方面,选用OrientDB数据库支持的属性图模型来表示。知识图谱采用OrientDB图数据库来完成知识的存储,并实例展示了构建的宠物知识图谱。  相似文献   

16.
针对目前从开源数据中挖掘结构化数据存在的数据繁复,新词多等问题,提出了一种命名实体识别的方法.该方法将文本进行实体规范、去停用词和加入词典特征等数据预处理后形成的信息作为输入,通过BiLSTM-CRF算法实现命名实体的识别.最后通过三种不同的语料对该方法进行了验证,实验结果表明了融合领域特征的命名实体识别达到了91.6...  相似文献   

17.
针对电机领域实体识别精度较低的问题,提出一种融合BERT预训练语言模型的中文命名实体识别方法。利用BERT预训练语言模型增强字的语义表示并按照上下文特征动态生成字向量,将字向量序列输入双向长短期记忆神经网络进行双向编码,同时通过条件随机场算法标注出实体识别结果。根据电机文本特点对自建数据集进行标注,并将电机领域实体划分为实物、特性描述、问题/故障、方法/技术等4个类别。实验结果表明,与基于BiLSTM-CRF、BiLSTM-CNN和BiGRU的实体识别方法相比,该方法具有更高的准确率、召回率和F1值,并且有效解决了电机领域命名实体识别任务中标注数据不足及实体边界模糊的问题。  相似文献   

18.
传统的命名实体识别方法可以凭借充足的监督数据实现较好的识别效果.而在针对电力文本的命名实体识别中,由于对专业知识的依赖,往往很难获取足够的监督数据,即存在少样本场景.同时,由于电力行业的精确性要求,相比于一般的开放领域任务,电力领域的实体类型更多,因此难度更大.针对这些挑战,本文提出了一个基于主题提示的命名实体识别方法.该方法将每个实体类型视为一个主题,并使用主题模型从训练语料中获取与类型相关的主题词.通过枚举实体跨度、实体类型、主题词以填充模板并构建提示句.使用生成式预训练语言模型对提示句排序,最终识别出实体与对应类型标签.实验结果表明,在中文电力命名实体识别数据集上,相比于几种传统命名实体方法,基于主题提示的方法取得了更好的效果.  相似文献   

19.
《软件工程师》2020,(1):7-11
命名实体识别是一项从非结构化大数据集中抽取有意义的实体的技术。命名实体识别技术有着非常广泛的应用,例如从轨道交通列车产生的海量运行控制日志中抽取日期、列车、站台等实体信息进行进阶数据分析。近年来,基于学习的方法成为主流,然而这些算法严重依赖人工标注,训练集较小时会出现过拟合现象,无法达到预期的泛化效果。针对以上问题,本文提出了一种基于强化学习的协同训练框架,在少量标注数据的情况下,无须人工参与,利用大量无标注数据自动提升模型性能。在两种不同领域的语料上进行实验,模型F1值均提升10%,证明了本文方法的有效性和通用性。同时,与传统的协同训练方法进行对比,本文方法F1值高于其他方法5%,实验结果表明本文方法更加智能。  相似文献   

20.
基于混合统计模型的汉语命名实体识别方法   总被引:4,自引:0,他引:4       下载免费PDF全文
本文针对三种重要的命名实体,即人名、地名、组织名,提出了一种隐马尔可夫模型(HMM)和最大熵模型(ME)相结合的汉语命名实体识别的方法.该方法的特点在于:使命名实体识别和词性标注两个任务一体化;融合两种统计模型进行命名实体识别,其中HMM从整体上(句子范围内)对命名实体识别进行约束,ME则在局部范围内(当前词的上下文范
范围)估计一个词串被标记为某种命名实体的概率.实验表明,这种方法能较好地识别上述三种命名实体.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号