首页 | 本学科首页   官方微博 | 高级检索  
     

基于多特征Bi-LSTM-CRF的影评人名识别研究
引用本文:禤镇宇,蒋盛益,张礼明,包睿.基于多特征Bi-LSTM-CRF的影评人名识别研究[J].中文信息学报,2019,33(3):94-101.
作者姓名:禤镇宇  蒋盛益  张礼明  包睿
作者单位:1.广东外语外贸大学 信息科学与技术学院,广东 广州 510006;
2.广东省网络空间内容安全工程技术研究中心,广东 广州 510006
基金项目:国家自然科学基金(61572145);广东省教育厅基础研究重大项目及应用研究重大项目(2017KZDXM031)
摘    要:近年来电影行业蓬勃发展,相关的信息抽取和分析技术日益受到行业内的重视,其中对电影主创人物的分析尤为重要。而电影评论作为观影群体的主要反馈信息,具有重要的分析价值。如何从影评中自动抽取主创人名成为重要的基础工作。然而评论中观众对人物的称谓方式多样复杂,而且新电影的影评中往往存在大量人名未登录词,传统方法难以有效识别。针对影评的这些特点,该文提出一种基于多特征Bi-LSTM-CRF的影评人名识别方法。该方法通过利用外部人名语料和未标注影评提取字符级的特征,并采用Bi-LSTM-CRF模型进行人名字符序列标注。实验结果表明,该方法能够有效识别影评中的复杂称谓和人名未登录词,从而有效地抽取影评中的人名实体。

关 键 词:影评  LSTM  CRF  多特征  人名识别

Multi-feature Bi-LSTM-CRF Model for Person Name Recognition from Movie Reviews
XUAN Zhenyu,JIANG Shengyi,Zhang Liming,BAO Rui.Multi-feature Bi-LSTM-CRF Model for Person Name Recognition from Movie Reviews[J].Journal of Chinese Information Processing,2019,33(3):94-101.
Authors:XUAN Zhenyu  JIANG Shengyi  Zhang Liming  BAO Rui
Affiliation:1.School of Information Science and Technology, Guangdong University of Foreign Studies, Guangzhou, Guangdong 510006, China;
2.Engineering Research Center for Cyberspace Content Security of Guangdong Province, Guangzhou, Guangdong 510006, China
Abstract:Person name in the movie reviews is featured by abbreviations and neologisms, which decreases the performances of classical models (e.g. CRF). To deal with this issue, this paper proposes a novel person name recognition method named Multi-Feature Bi-LSTM-CRF Model. This model extracts relevant character-level features by using external corpora and unlabeled reviews, then applies Bi-LSTM-CRF to identify the sequence of person names. The experimental results show that our model can effectively identify different forms of person names in the movie reviews.
Keywords:movie review  LSTM  CRF  multi-feature  person name recognition  
本文献已被 维普 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号