首页 | 本学科首页   官方微博 | 高级检索  
     

基于网页结构树的Web信息抽取方法
引用本文:陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55,140.
作者姓名:陈琼  苏文健
作者单位:华南理工大学计算机科学与工程学院,广州,510640
基金项目:国家自然科学基金资助项目(60003019);广东省自然科学基金资助项目(990582);广东省科技攻关资助项目项目(C10201)
摘    要:提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。

关 键 词:信息抽取  半结构  网页结构树  模式
文章编号:1000-3428(2005)20-0054-02
收稿时间:2004-10-04
修稿时间:2004-10-04

Web Information Extraction Based on Web Structure Tree
CHEN Qiong,SU Wenjian.Web Information Extraction Based on Web Structure Tree[J].Computer Engineering,2005,31(20):54-55,140.
Authors:CHEN Qiong  SU Wenjian
Affiliation:School of Computer Science and Engineering, South China University of Technology, Guangzhou 510640
Abstract:This paper proposes an algorithm that is used to construct the Web structure tree and a Web information extraction method based on Web page structure tree. While extracting information, it locates the information that should be extracted in the Web page structure tree and matches the pattern information with the terminal information in Web page structure tree. The Web information extraction is the terminal information extraction in Web page structure tree. This method can efficiently extract information from Web pages.
Keywords:Information extraction  Semi-structure  Web page structure tree  Pattern
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号