首页 | 本学科首页   官方微博 | 高级检索  
     

一种垂直页面分割与信息提取方法的研究
引用本文:李 军,陈 君,王玲芳,倪 宏.一种垂直页面分割与信息提取方法的研究[J].计算机应用研究,2013,30(3):844-847.
作者姓名:李 军  陈 君  王玲芳  倪 宏
作者单位:1. 中国科学院研究生院, 北京 100190; 2. 中国科学院声学研究所 国家网络新媒体工程技术研究中心, 北京 100190
基金项目:国家“863”计划资助项目(2011AA01A102); 国家科技支撑计划重点资助项目(2011BAH08B01); 中国科学院战略性先导科技专项子课题(XDA06010302)
摘    要:在综合分析不同页面分割算法和适用条件的基础上,研究针对垂直型网站的页面分割和信息提取算法。以DOM(document object model)树为基础,提出页面内容聚集度的概念,统计获取页面分割标签和样式层叠表映射,对页面进行分割;采用正文识别和前缀匹配的方法,完成从页面分块信息提取。结合实际的网络视频项目需求,实现面向垂直型网站页面的分割和信息提取器。实验结果表明,该网页分割和信息提取方法对垂直页面信息提取具有良好的性能,满足实际项目需求。

关 键 词:页面分割  信息获取  垂直网站  内容聚集度  分割标签  前缀匹配

Approach to Webpage segmentation andinformation extraction for vertical Websites
LI Jun,CHEN Jun,WANG Ling-fang,NI Hong.Approach to Webpage segmentation andinformation extraction for vertical Websites[J].Application Research of Computers,2013,30(3):844-847.
Authors:LI Jun  CHEN Jun  WANG Ling-fang  NI Hong
Affiliation:1. Graduate University of Chinese Academy of Sciences, Beijing 100190, China; 2. National Network New Media Engineering Research Center, Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China
Abstract:Analyzing existed Webpage segmentation algorithms along with their corresponding usage conditions, this paper investigated a vertical Webpage segmentation and information extraction method. Based on DOM tree, this paper proposed the notion of content crowding level, segmented the Webpage by using segment tag which obtained by statistical method and the mapping of cascading style sheets, and then extracted information from each segment by using text recognition and prefix matching. Given actual project requirements, a page segment and information extractor for vertical Webpage was designed and implemented. The experimental results show that the proposed method has achieved good performance and meets its needs.
Keywords:page segmentation  information extraction  vertical Websites  content crowding level  segment tag  prefix matching
本文献已被 CNKI 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号