首页 | 本学科首页   官方微博 | 高级检索  
     

基于 XML的Web数据抽取模型研究
引用本文:谢维成,吕先竞,宋玉忠.基于 XML的Web数据抽取模型研究[J].西华大学学报(自然科学版),2006,25(1):82-86.
作者姓名:谢维成  吕先竞  宋玉忠
作者单位:西华大学电气信息学院;西华大学图书馆,四川,成都,610039
基金项目:SSF(Grant N0. 02BTQ013,国家社会科学基金项目)
摘    要:提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML(XML的子集)格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路径和锚点(Anchor),利用XML数据格式的工具来检索相关数据,获取所需数据并构造XML输出,从而实现Web数据抽取过程。实验表明,该模型实现Web数据抽取是可行的,根据该模型的缺陷,提出了一个基于语义Web技术的信息抽取改进模型。

关 键 词:KDW  XML  Web数据抽取  语义Web技术
文章编号:1673-159X(2006)01-0082-05
收稿时间:2005-09-26
修稿时间:2005年9月26日

Study on Web Data Extraction Model Based on XML
XIE Wei-cheng,Lü Xian-jing,SONG Yu-zhong.Study on Web Data Extraction Model Based on XML[J].Journal of Xihua University:Natural Science Edition,2006,25(1):82-86.
Authors:XIE Wei-cheng  Lü Xian-jing  SONG Yu-zhong
Abstract:A web data extraction model facing HTML or XML Web pages is provided.First,the Web document is read from the web server with STOCK,and the format of the Web document is checked,the existing HTML web page is transformed into XML or XHTML(a subset of XML).An "operation" on a Web page can generate a series of XML documents.Integrating these documents will lead to data storing.The absolute path in Xpath and the anchors can extract interest data with the tools of XML data format,and retrieve the data and construct XML output.The experiment shows that implementing Web data extract with the model is available,but its limitations and defects also exist,an improved semantic web data extraction model is provided by the author.
Keywords:KDW  XML
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号