首页 | 本学科首页   官方微博 | 高级检索  
     

一种可行的Web数据抽取包装器的设计方法
引用本文:李宏伟,史培中,张素智. 一种可行的Web数据抽取包装器的设计方法[J]. 计算机应用与软件, 2009, 26(3)
作者姓名:李宏伟  史培中  张素智
作者单位:郑州轻工业学院计算机与通信工程学院,河南,郑州,450002
摘    要:Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术.针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果.充分体现了此Web包装器的可行性,并具有一定的高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成.

关 键 词:包装器  抽取规则  信息抽取  Web数据集成

A PRACTICAL DESIGNING METHOD FOR THE WRAPPER OF WEB DATA EXTRACTION
LI Hongwei,SHI Peizhong,ZHANG Suzhi. A PRACTICAL DESIGNING METHOD FOR THE WRAPPER OF WEB DATA EXTRACTION[J]. Computer Applications and Software, 2009, 26(3)
Authors:LI Hongwei  SHI Peizhong  ZHANG Suzhi
Affiliation:College of Computer and Communication Engineering;Zhengzhou University of Light Industry;Zhengzhou 450002;Henan;China
Abstract:Web Wrapper is a program extracting the data from given Web sources according to corresponding extraction rules of them.Its design is a key technology for Web information extraction and integration.Confronted with the uncertainty and variability of Web pages' structure,in this paper it elucidates the design and implementation process of a kind of the Web Wrapper which is based on pre-defined schema,and validates the data extraction from the Web pages of some publishers with information of new books releasin...
Keywords:Wrapper Extraction rule Information extraction Web data integration  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号