首页 | 本学科首页   官方微博 | 高级检索  
     

多场景文本的细粒度命名实体识别
引用本文:盛剑,向政鹏,秦兵,刘铭,王莉峰.多场景文本的细粒度命名实体识别[J].中文信息学报,2019,33(6):80-87.
作者姓名:盛剑  向政鹏  秦兵  刘铭  王莉峰
作者单位:1.哈尔滨工业大学 社会技术与信息检索研究中心,黑龙江 哈尔滨 150001;
2.腾讯科技(深圳)有限公司,广东 深圳 518000
基金项目:国家自然科学基金(61632011,61772156,61472107)
摘    要:命名实体识别一直是数据挖掘领域的经典问题之一,尤其随着网络数据的剧增,如果能对多来源的文本数据进行多领域、细粒度的命名实体识别,显然能够为很多的数据挖掘应用提供支持。该文提出一种多领域、细粒度的命名实体识别方法,利用网络词典回标文本数据获得了大量的粗糙训练文本。为防止训练文本中的噪声干扰命名实体识别的结果,该算法将命名实体识别的过程划分为两个阶段,第一个阶段先获得命名实体的领域标签,之后利用命名实体的上下文确定命名实体的细粒度标签。实验结果显示,该文提出的方法使F1值在全领域上平均值达到了80%左右。

关 键 词:命名实体识别  细粒度类别划分  语料回标

Fine-grained Named Entity Recognition for Multi-scenario
SHENG Jian,XIANG Zhengpeng,QIN Bing,LIU Ming,WANG Lifeng.Fine-grained Named Entity Recognition for Multi-scenario[J].Journal of Chinese Information Processing,2019,33(6):80-87.
Authors:SHENG Jian  XIANG Zhengpeng  QIN Bing  LIU Ming  WANG Lifeng
Affiliation:1.Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology, Harbin, Heilongjiang 150001, China;
2.Tencent Technology (Shenzhen) CO., Ltd. Shenzhen, Guangdong 518000, China
Abstract:Name entity recognition is a classical research issue in data mining community. To recognize the entities in multi-domain with fine-grained labels, we propose a method of utilizes web thesaurus to annotate web data automatically to acquire large-scale training corpus. To minimize the influence of the noises in training corpus, we design a two-phase entity recognition method. First, the entity’s domain label is obtained. After that, the context of each recognized entity is used to determine the fine-grained label for one entity. Experimental results demonstrate that the proposed method can obtain high accuracy on entity recognition in multiple domains.
Keywords:named entity recognition  fine-grained category annotation  corpus annotation  
本文献已被 维普 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号