首页 | 本学科首页   官方微博 | 高级检索  
     

网页数据自动抽取系统
引用本文:王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138.
作者姓名:王茹  宋瀚涛  陆玉昌
作者单位:1. 北京理工大学计算机系,北京,100081
2. 清华大学计算机系智能技术与系统国家重点实验室,北京,100084
基金项目:国家自然科学基金资助项目(编号:79990580),国家973重点基础研究发展规划项目(编号:G1998030414)
摘    要:在Internet中存在着大量的半结构化的HTML网页。为了使用这些丰富的网页数据,需要将这些数据从网页中重新抽取出来。该文介绍了一种新的基于树状结构的信息提取方法和一个自动产生包装器的系统DAE(DOMbasedAutomaticExtraction),将HTML网页数据转换为XML数据,在提取的过程中基本上不需要人工干预,因而实现了抽取过程的自动化。该方法可以应用于信息搜索agent中,或者应用于数据集成系统中等。

关 键 词:信息提取  包装器产生  DOM树
文章编号:1002-8331-(2004)19-0135-04

An Automatic Web Data Extraction System
Wang Ru,Song Hantao,Lu Yuchang.An Automatic Web Data Extraction System[J].Computer Engineering and Applications,2004,40(19):135-138.
Authors:Wang Ru  Song Hantao  Lu Yuchang
Affiliation:Wang Ru 1 Song Hantao 1 Lu Yuchang 21
Abstract:
Keywords:data extraction  wrapper generation  DOM tre e
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号