首页 | 本学科首页   官方微博 | 高级检索  
     

基于数据富集区域的Web内容自动抽取
引用本文:许志坚,孙蕾.基于数据富集区域的Web内容自动抽取[J].计算机工程,2013(9).
作者姓名:许志坚  孙蕾
作者单位:华东师范大学计算机科学与技术系,上海,200241
基金项目:上海自然科学基金资助项目
摘    要:对电子商务网站的Web页面进行商品信息自动抽取,可以为进一步的增值服务,如比价、查询等提供有价值的信息。为此,提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪,采用基于树匹配的子树相似度计算方法挖掘目标页面的数据富集区域,从而抽取商品的数据记录。在5个电子商务网站上的实验结果表明,该方法的准确率均高于MDR方法,且召回率较高。

关 键 词:数据富集区域  Web内容抽取  树匹配  标签树  子树相似度  数据记录

Web Content Automatic Extraction Based on Data Enrichment Region
XU Zhi-jian , SUN Lei.Web Content Automatic Extraction Based on Data Enrichment Region[J].Computer Engineering,2013(9).
Authors:XU Zhi-jian  SUN Lei
Abstract:
Keywords:data enrichment region  Web content extraction  tree-matching  tag tree  sub-trees similarity  data record
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号