基于DOM树的可适应性Web信息抽取 Adaptive Web Information Extraction Based on Tree期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于DOM树的可适应性Web信息抽取

引用本文：	李朝,彭宏,叶苏南,张欢,杨亲遥. 基于DOM树的可适应性Web信息抽取[J]. 计算机科学, 2009, 36(7): 202-203

作者姓名：	李朝彭宏叶苏南张欢杨亲遥

作者单位：	华南理工大学计算机科学与工程学院,广州,510641;华南理工大学计算机科学与工程学院,广州,510641;华南理工大学计算机科学与工程学院,广州,510641;华南理工大学计算机科学与工程学院,广州,510641;华南理工大学计算机科学与工程学院,广州,510641

摘要：	Web信息抽取通常采用的是一种归纳学习方法,从给定的训练样本网页中学习到抽取规则,这种方法虽然能够准确地抽取出信息,但是当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差.提出一种新的可适应性Web信息抽取方法,该方法首先通过聚类方法获取商品在网页中频繁出现的关键词组,然后利用网页的DOM树结构来确定包含这些关键词的信息块,从而实现Web信息的自动抽取.对大量商业网站进行信息抽取的实验表明,该算法不仅能有效抽取出商品信息,而且是一种与站点结构无关的可适应性信息抽取方法.
关键词：	DOM树信息抽取可适应性
收稿时间：	2008-08-25
修稿时间：	2009-01-23
Adaptive Web Information Extraction Based on Tree

LI Zhao,PENG Hong,YE Su-nan,ZHANG Huan,YANG Qin-yao. Adaptive Web Information Extraction Based on Tree[J]. Computer Science, 2009, 36(7): 202-203

Authors:	LI Zhao PENG Hong YE Su-nan ZHANG Huan YANG Qin-yao

Affiliation:	School of Computer Science;South China University of Technology;Guangzhou 510641

Abstract:	Many Web information extraction methods are related to wrapper induction.It extracts the items by the rules learnt from the Web pages used for training.Although it can get the information accurately,it is hard to be maintained when the template of the Web site is changed,as it needs to learn the rules again.In our research,we put forward a new adaptive Web information extraction.It determines the block which contains all information about the merchandise by using the keywords of a certain topic,which is bas...

Keywords:	DOM tree Information extraction Adaptive
本文献已被 CNKI 万方数据等数据库收录！
	点击此处可从《计算机科学》浏览原始摘要信息
	点击此处可从《计算机科学》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏