首页 | 本学科首页   官方微博 | 高级检索  
     

基于XML的Web数据抽取研究
引用本文:吕锋,余丽. 基于XML的Web数据抽取研究[J]. 计算机技术与发展, 2007, 17(6): 53-55
作者姓名:吕锋  余丽
作者单位:武汉理工大学,湖北,武汉,430070
摘    要:文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。

关 键 词:数据抽取
文章编号:1673-629X(2007)06-0053-03
收稿时间:2006-09-16
修稿时间:2006-09-16

Study on Web Data Extraction Based on XML
Lü Feng,YU Li. Study on Web Data Extraction Based on XML[J]. Computer Technology and Development, 2007, 17(6): 53-55
Authors:Lü Feng  YU Li
Affiliation:Wuhan University of Technology, Wuhan 430070, China
Abstract:
Keywords:XML  Web
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号