首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
中文微博命名实体识别   总被引:5,自引:2,他引:3  
微博这一媒体形式的迅速发展为命名实体识别提供了一个新的载体.根据微博文本的特点,提出针对中文微博的命名实体识别方法.首先,对微博文本做规范化处理,消除由于微博表达不规范造成的干扰;在建立中文人名库、常用地点库等知识库的基础上,选取适合微博的特征模板,使用条件随机场方法进行实体识别;同时,将正确的识别结果添加到知识库中以提升识别效果.在真实微博数据上的实验表明,该方法能够有效地完成中文微博的命名实体识别任务.  相似文献   

2.
面向工艺文本中的命名实体,该文提出一种融入领域知识的神经网络命名实体识别方法,旨在对零件、工程图纸、参考标准、属性等12类命名实体进行识别.该方法针对工艺实体的特点,利用领域词典及规则预识别出部分实体,形成预识别实体特征,将预识别实体特征加入CNN-BiLSTM-CRF神经网络模型,指导训练与预测.实验结果表明,该方法...  相似文献   

3.
命名实体识别是信息抽取的重要研究内容,主要包括对组织机构名、地名和人名的自动识别。针对英语和汉语的命名实体识别研究开始较早,主要采用基于规则和基于统计的方法进行识别,但目前国内还少有针对越南语命名实体识别的研究。该文分析了越南语命名实体的语言学特点,对其分类并进行了形式化表达,提出了一种基于规则的越南语命名实体识别方法,实验结果显示,该方法能够达到较高的识别准确率。  相似文献   

4.
针对军事文本中的命名实体,提出一种基于条件随机场模型的半监督命名实体识别方法,旨在将人员军职军衔名、军事装备名、军用物资名、军事设施名、军事机构名(含部队番号)以及军用地名等军事命名实体的识别融合到一个统一的技术框架中。该方法针对军事文本的语法特点建立高效的特征集合,建立条件随机场模型对军事命名实体进行识别,并依次使用基于词典的方法和基于规则的方法对识别结果进行校正。实验表明,该方法在军事文本中能够出色地完成命名实体识别任务,在测试语料上的F-值最高达到90.9%,接近通用领域中命名实体识别的水平。  相似文献   

5.
命名实体识别是自然语言处理过程中的基础任务。本文针对越南语的复杂命名实体难识别及F值不够高的问题,提出了一种结合实体库的越南语命名实体识别混合方法。首先,本文根据越南语的语言和实体特点,选取有效的局部特征和全局特征,应用最大熵模型进行越南语命名实体识别;其次,根据本文制定的命名实体的规则进行越南语命名实体识别;然后,结合两者的识别结果,以规则为主,统计为辅原则;最后经过人工校对,把获取到的正确标记的实体加入到实体库,动态扩增实体库,为规则制定和特征选取提供丰富的语料和依据。实验表明,该方法能够有效地结合规则与统计的方法优点,互相弥补不足,明显提高了识别的正确率、召回率和F值。  相似文献   

6.
命名实体识别研究   总被引:9,自引:4,他引:5  
命名实体识别是文本信息处理的重要基础,已经逐步成为自然语言处理的一项关键技术。其基于规则、统计、机器学习的研究方法及成果,都推动了自然语言处理研究的发展,促进了自然语言研究与应用的紧密结合。本文回顾了命名实体识别技术的发展过程,分析了主要的方法和技术,并展望了未来的发展趋势。  相似文献   

7.
针对工艺操作说明文本中的命名实体,提出一种基于BiLSTM-CRF模型与词典、规则相结合的识别方法,旨在识别图纸编号、参考标准、零件和零件号等11种实体。基于BiLSTM-CRF模型,使用BERT模型预训练的向量,对相关命名实体进行初始识别;针对工艺操作说明文本中零件和零件号表达方式复杂多样的问题,使用基于词典和规则的方法对此类实体的标注结果进行校正。实验结果表明,该方法在工艺操作说明文本中能较好地完成命名实体识别任务,在测试语料上F1值达到94.03%,比基线提升了4.14%。  相似文献   

8.
命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界模糊、语义多样化、形态特征模糊以及中文语料库内容较少等问题,导致中文命名实体识别性能难以大幅提升。介绍了CNER的数据集、标注方案和评价指标。按照CNER的研究进程,将CNER方法分为基于规则的方法、基于统计的方法和基于深度学习的方法三类,并对近五年来基于深度学习的CNER主要模型进行总结。探讨CNER的研究趋势,为新方法的提出和未来研究方向提供一定参考。  相似文献   

9.
闫璟辉  宗成庆  徐金安 《软件学报》2024,35(6):2923-2935
实体识别是信息抽取的关键技术. 相较于普通文本, 中文医疗文本的实体识别任务往往面对大量的嵌套实体. 以往识别实体的方法往往忽视了医疗文本本身所特有的实体嵌套规则而直接采用序列标注方法, 为此, 提出一种融合实体嵌套规则的中文实体识别方法. 所提方法在训练过程中将实体的识别任务转化为实体的边界识别与边界首尾关系识别的联合训练任务, 在解码过程中结合从实际医疗文本中所总结出来的实体嵌套规则对解码结果进行过滤, 从而使得识别结果能够符合实际文本中内外层实体嵌套组合的组成规律. 在公开的医疗文本实体识别的实验上取得良好的效果. 数据集上的实验表明, 所提方法在嵌套类型实体识别性能上显著优于已有的方法, 在整体准确率方面比最先进的方法提高0.5%.  相似文献   

10.
嵌套命名实体之间蕴含着丰富的语义关系与结构信息,对于关系抽取、事件抽取等下游任务的执行至关重要.近年来,深度学习技术由于能够获取文本中更为丰富的表征信息,在文本信息抽取模型的精确度上已经逐渐超过了传统基于规则的方法,因此许多学者开展了基于深度学习的嵌套命名实体识别技术研究,并获得了目前最先进的性能.对现有的嵌套命名实体识别技术进行了全面的综述,介绍了嵌套命名实体识别最具代表性的方法及最新应用技术,并对未来面临的挑战和发展方向进行了探讨和展望.  相似文献   

11.
受限领域中最长地点实体提及的提取研究   总被引:1,自引:0,他引:1  
实体是构成事件信息的基本单元,在事件中扮演着重要的角色。在自然语言处理领域,实体识别是信息提取、句法分析、机器翻译、篇章理解等应用领域重要的基础性工具。汉语句法成分特有的套叠现象决定了实体表达的复杂性,增加了识别的难度。这使得已有的用于命名实体识别中的研究方法在长地点实体的识别中不能取得好的效果。为研究自动提取实体方法,文章从事件报道领域出发,以最长地点实体为对象,对325篇新闻语料进行地点实体标注和抽取,分析、研究了地点实体的出现特征,并根据分析结论提出实体提取可行方案。  相似文献   

12.
命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。  相似文献   

13.
命名实体是文本中承载信息的重要单元,正确分析存在歧义的命名实体对文本的理解起着关键性作用。该文提出基于多源知识和Ranking SVM的中文微博命名实体链接,结合同义词词典、百科资源等知识产生初始候选实体集合,同时从文本中抽取多种组合特征,利用Ranking SVM对候选实体集合进行排序,从而得到目标实体。在NLP&CC2014中文微博实体链接评测数据集上进行了实验,获得了89.40%的平均准确率,与NLP&CC2014中文微博实体链接评测取得最好成绩的系统相比,本文的系统具有一定的优势。
  相似文献   

14.
命名实体识别是自然语言处理任务的重要环节。近年来,基于深度学习的通用命名实体识别模型取得显著效果。而在旅游领域,中文旅游景点实体识别主要依赖于特征工程的方法。提出一种基于CNN-BiLSTM-CRF的网络模型,该模型不使用任何人工特征,通过神经网络充分对文本的局部信息特征进行抽象化抽取和表示,并学习和利用文本的上下文信息,实现对景点实体的识别。实验结果显示,该方法能够有效识别中文旅游景点实体,并在实验中取得[F1]值93.9%的效果。  相似文献   

15.
针对现有命名实体识别方法主要考虑单个句子内的上下文信息,很少考虑文档级上下文影响的问题,文中提出基于机器阅读理解的中文命名实体识别方法,利用阅读理解思想,充分挖掘文档级的上下文特征,支撑实体识别.首先,针对每类实体,将实体识别任务转化为问答任务,构建问题、文本及实体答案三元组.然后,将三元组信息通过双向Transformer编码器进行预训练,再通过卷积神经网络捕捉文档级文本上下文信息.最后通过二进制分类器实现实体答案预测.在MSRA、人民日报公开数据集和自建数据集上的命名实体识别对比实验表明,文中方法性能较优,阅读理解思想对实体识别具有较好的作用.  相似文献   

16.
目前针对中医古籍实体识别研究较少,且大多使用有监督学习方法。但古籍数字化程度低、标注语料稀少,且其语言多为文言文,专业术语也不断发展,现有方法无法有效解决以上问题。故而,该文在构建了中医古籍语料库的基础上,通过对中医古籍中实体名的分析研究,提出了一种基于半监督学习和规则相结合的中医古籍实体识别方法。以条件随机场模型为基本框架,在引入词、词性、词典等有监督特征的同时也引入了通过词向量获得的无监督语义特征,对比不同特征组合的识别性能,确定最优的半监督学习模型,并与其他模型进行了对比。之后,结合古籍语言学特点构建规则库对其进行基于规则的后处理。实验结果中最终F值达到83.18%,证明了该方法的有效性。  相似文献   

17.
命名实体识别指识别文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。在命名实体识别任务中,协同图网络(CGN)模型通过引入多个图注意力网络获得较强的知识整合能力及较高的处理速度,但CGN模型在嵌入层中没有充分利用词边界信息,且采用的传统静态图注意力网络影响了图注意力的表达能力。在对CGN模型的图注意力网络进行改进的基础上,提出一种中文命名实体识别新模型,在嵌入层融入词语的分词信息,以生成包含词边界信息的字向量,从而充分利用词边界信息。通过在编码层使用BiLSTM模型获取文本的上下文信息,采用改进后的图注意力网络提取文本特征,并通过优化传统图注意力网络中相关系数的计算方式,增强模型的特征提取能力。最后,利用条件随机场对文本进行解码,从而实现对实体的标注。实验结果表明,该模型相比CGN模型在MSRA、OntoNotes4.0、Weibo数据集上的F1值分别提升了0.67%、3.16%、0.16%,验证了其在中文命名实体识别任务上的有效性。  相似文献   

18.
在生物医学临床病历文本的命名实体识别任务中,传统的解决方案由于对实体的边界划分不够精确,影响了部分复合实体的识别。通过研究复合实体的特性,提出一种集成的卷积神经网络(E-CNN)模型与双向长短期记忆网络(BLSTM)和条件随机场(CRF)结合的模型,通过对CNN中的卷积层设定不同卷积窗口的大小,来捕获多个词语之间更丰富的边界特征信息。然后将集成的特征信息传递给BLSTM模型进行训练,最后由CRF模型得到最终的序列标注。实验结果表明,该方法针对临床病历文本中的复合实体识别具有良好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号