网页数据自动抽取系统 An Automatic Web Data Extraction System期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

网页数据自动抽取系统

引用本文：	王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138.

作者姓名：	王茹宋瀚涛陆玉昌

作者单位：	1. 北京理工大学计算机系,北京,100081 2. 清华大学计算机系智能技术与系统国家重点实验室,北京,100084

基金项目：	国家自然科学基金资助项目(编号:79990580)，国家973重点基础研究发展规划项目(编号:G1998030414)

摘要：	在Internet中存在着大量的半结构化的HTML网页。为了使用这些丰富的网页数据,需要将这些数据从网页中重新抽取出来。该文介绍了一种新的基于树状结构的信息提取方法和一个自动产生包装器的系统DAE(DOMbasedAutomaticExtraction),将HTML网页数据转换为XML数据,在提取的过程中基本上不需要人工干预,因而实现了抽取过程的自动化。该方法可以应用于信息搜索agent中,或者应用于数据集成系统中等。
关键词：	信息提取包装器产生 DOM树
文章编号：	1002-8331-(2004)19-0135-04
An Automatic Web Data Extraction System

Wang Ru,Song Hantao,Lu Yuchang.An Automatic Web Data Extraction System[J].Computer Engineering and Applications,2004,40(19):135-138.

Authors:	Wang Ru Song Hantao Lu Yuchang

Affiliation:	Wang Ru 1 Song Hantao 1 Lu Yuchang 21

Abstract:

Keywords:	data extraction wrapper generation DOM tre e
本文献已被 CNKI 维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏