首页 | 本学科首页   官方微博 | 高级检索  
     

基于条件随机场的人物信息抽取
引用本文:郑轶. 基于条件随机场的人物信息抽取[J]. 计算技术与自动化, 2015, 0(4): 132-136
作者姓名:郑轶
作者单位:(东北石油大学 计算机与信息技术学院,黑龙江 大庆163318)
摘    要:近年来,信息抽取成为自然语言处理的一个热点,同时也是难点。针对不同的问题,大家提出了不同的方法,而大多数的方法是基于启发式规则或者抽象成分类问题,本文将从人物百科中抽取人物信息看成是一个序列标注的问题,利用条件随机场对生语料进行序列标注。此外,文中详细介绍数据分析的方法以及特征选取方法,所提出的方法直接从生语料中抽取,节省了大部分方法的数据预处理部分,同时避开了大部分方法使用的句法分析的特征,有效地提高了信息抽取的效率。在文章的最后做了两组对比实验,实验结果表明,本方法能够非常准确地从HTML生语料中抽取出人物信息。

关 键 词:CRFs  人物  人物信息  信息抽取

Character Information Extraction Based on Conditional Random Fields
ZHENG Yi. Character Information Extraction Based on Conditional Random Fields[J]. Computing Technology and Automation, 2015, 0(4): 132-136
Authors:ZHENG Yi
Affiliation:(School of Computer & Information Technology, Northeast Petroleum University, Daqing,Heilongjiang163318,China)
Abstract:This paper considered the character information extraction from the Baike HTML as a sequence labeling question, and used CRFs to label the raw data. This paper also detailed the methods of data analysis and feature selection, and the way to extract information from the raw data directly, which do not contain the data preprocessing part and the sentence parser part. By this way, it developed the efficiency of information extraction effectively. And two comparable tests show that the method proposed can extract the character information from the row HTML accurately.
Keywords:CRFs  CRF  character  information extraction
点击此处可从《计算技术与自动化》浏览原始摘要信息
点击此处可从《计算技术与自动化》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号