基于 XML的Web数据抽取模型研究 Study on Web Data Extraction Model Based on XML期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于 XML的Web数据抽取模型研究

引用本文：	谢维成,吕先竞,宋玉忠.基于 XML的Web数据抽取模型研究[J].西华大学学报(自然科学版),2006,25(1):82-86.

作者姓名：	谢维成吕先竞宋玉忠

作者单位：	西华大学电气信息学院;西华大学图书馆,四川,成都,610039

基金项目：	SSF（Grant N0. 02BTQ013,国家社会科学基金项目）

摘要：	提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML（XML的子集）格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路径和锚点（Anchor）,利用XML数据格式的工具来检索相关数据,获取所需数据并构造XML输出,从而实现Web数据抽取过程。实验表明,该模型实现Web数据抽取是可行的,根据该模型的缺陷,提出了一个基于语义Web技术的信息抽取改进模型。
关键词：	KDW XML Web数据抽取语义Web技术
文章编号：	1673-159X(2006)01-0082-05
收稿时间：	2005-09-26
修稿时间：	2005年9月26日
Study on Web Data Extraction Model Based on XML

XIE Wei-cheng,Lü Xian-jing,SONG Yu-zhong.Study on Web Data Extraction Model Based on XML[J].Journal of Xihua University:Natural Science Edition,2006,25(1):82-86.

Authors:	XIE Wei-cheng Lü Xian-jing SONG Yu-zhong

Abstract:	A web data extraction model facing HTML or XML Web pages is provided.First,the Web document is read from the web server with STOCK,and the format of the Web document is checked,the existing HTML web page is transformed into XML or XHTML(a subset of XML).An "operation" on a Web page can generate a series of XML documents.Integrating these documents will lead to data storing.The absolute path in Xpath and the anchors can extract interest data with the tools of XML data format,and retrieve the data and construct XML output.The experiment shows that implementing Web data extract with the model is available,but its limitations and defects also exist,an improved semantic web data extraction model is provided by the author.

Keywords:	KDW XML
本文献已被 CNKI 维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏