首页 | 本学科首页   官方微博 | 高级检索  
     

基于视觉特征的网页信息抽取方法研究
引用本文:王宪发,郭岩,刘悦,俞晓明,程学旗.基于视觉特征的网页信息抽取方法研究[J].中文信息学报,2019,33(5):103-112.
作者姓名:王宪发  郭岩  刘悦  俞晓明  程学旗
作者单位:1.中国科学院大学 计算机与控制学院,北京 100049;
2.中国科学院 计算技术研究所 中国科学院网络数据科学与技术重点实验室,北京 100190
基金项目:国家重点研发计划(2017YFB0803302,2016YFB1000902);国家重点基础研究发展计划(973)(2014CB340405);国家重点基础研究发展计划(973)(2014CB340401),国家自然科学基金(61433014)
摘    要:面对大规模异构网页,基于视觉特征的网页信息抽取方法普遍存在通用性较差、抽取效率较低的问题。针对通用性较差的问题,该文提出了基于视觉特征的使用有监督机器学习的网页信息抽取框架WEMLVF。该框架具有良好的通用性,通过对论坛网站和新闻评论网站的信息抽取实验,验证了该框架的有效性。然后,针对视觉特征提取时间代价过高导致信息抽取效率较低的问题,该文使用WEMLVF,分别提出基于XPath和基于经典包装器归纳算法SoftMealy的自动生成信息抽取模板的方法。这两种方法使用视觉特征自动生成信息抽取模板,但模板的表达并不包含视觉特征,使得在使用模板进行信息抽取的过程中无需提取网页的视觉特征,从而既充分利用了视觉特征在信息抽取中的作用,又显著提升了信息抽取的效率,实验结果验证了这一结论。

关 键 词:视觉特征  网络信息抽取  自动生成模板

Research on Web Page Information Extraction Based on Visual Features
WANG Xianfa,GUO Yan,LIU Yue,YU Xiaoming,CHENG Xueqi.Research on Web Page Information Extraction Based on Visual Features[J].Journal of Chinese Information Processing,2019,33(5):103-112.
Authors:WANG Xianfa  GUO Yan  LIU Yue  YU Xiaoming  CHENG Xueqi
Affiliation:1.School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 100049, China;
2.CAS Key Laboratory of Newtwork Data Science and Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China
Abstract:Facing with the large-scale heterogeneous web pages, web extraction methods based on visual features tend to have poor generality and low extraction efficiency. To deal with the issue of poor generality, this paper proposes WEMLVF, a Web page information extraction framework based on visual features using supervised machine learning. This framework has good versatility. The effectiveness of the framework is validated through experiments on forum sites and news review sites. Then, to deal with the issue of low efficiency, the framework WEMLVF is utilized and method is proposed for automatically generating information extraction templates based on XPath and SoftMealy (a wrapper induction algorithm). These two methods use visual features to automatically generate information extraction templates without visual features. It makes full use of visual features information extraction and significantly improve the efficiency of information extraction, which is empirically verified.
Keywords:visual features  web extraction  automatic template generation  
本文献已被 维普 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号