基于XML的Web数据抽取研究 Study on Web Data Extraction Based on XML期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于XML的Web数据抽取研究

引用本文：	吕锋,余丽. 基于XML的Web数据抽取研究[J]. 计算机技术与发展, 2007, 17(6): 53-55

作者姓名：	吕锋余丽

作者单位：	武汉理工大学,湖北,武汉,430070

摘要：	文中介绍了三种常用的Web数据抽取的方法：直接解析HTML文档的方法,基于XML的方法（也称作为分析HTML层次结构的方法）以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。
关键词：	数据抽取
文章编号：	1673-629X（2007）06-0053-03
收稿时间：	2006-09-16
修稿时间：	2006-09-16
Study on Web Data Extraction Based on XML

Lü Feng,YU Li. Study on Web Data Extraction Based on XML[J]. Computer Technology and Development, 2007, 17(6): 53-55

Authors:	Lü Feng YU Li

Affiliation:	Wuhan University of Technology, Wuhan 430070, China

Abstract:

Keywords:	XML Web
本文献已被维普万方数据等数据库收录！