基于数据富集区域的Web内容自动抽取 Web Content Automatic Extraction Based on Data Enrichment Region期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于数据富集区域的Web内容自动抽取

引用本文：	许志坚,孙蕾.基于数据富集区域的Web内容自动抽取[J].计算机工程,2013(9).

作者姓名：	许志坚孙蕾

作者单位：	华东师范大学计算机科学与技术系,上海,200241

基金项目：	上海自然科学基金资助项目

摘要：	对电子商务网站的Web页面进行商品信息自动抽取，可以为进一步的增值服务，如比价、查询等提供有价值的信息。为此，提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪，采用基于树匹配的子树相似度计算方法挖掘目标页面的数据富集区域，从而抽取商品的数据记录。在5个电子商务网站上的实验结果表明，该方法的准确率均高于MDR方法，且召回率较高。
关键词：	数据富集区域 Web内容抽取树匹配标签树子树相似度数据记录
Web Content Automatic Extraction Based on Data Enrichment Region

XU Zhi-jian , SUN Lei.Web Content Automatic Extraction Based on Data Enrichment Region[J].Computer Engineering,2013(9).

Authors:	XU Zhi-jian SUN Lei

Abstract:

Keywords:	data enrichment region Web content extraction tree-matching tag tree sub-trees similarity data record
本文献已被万方数据等数据库收录！