首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
一种基于多叉树的HTML到XML的转换方法   总被引:4,自引:0,他引:4  
当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的方法来检索或提取隐藏其中的数据,针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把对HTML的信息检索问题转化为对XML的检索问题,以便简化下一步的检索问题。  相似文献   

2.
当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的方法来检索或提取隐藏其中的数据.针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把对HTML的信息检索问题转化为对XML的检索问题,以便简化下一步的检索问题.  相似文献   

3.
刘宏 《微机发展》2003,13(3):29-30
Web数据库成为数据库应用的主流,随着网上数据量的增加,越来越多的应用迫切需要通过网络来交换数据。XML正在成为Internet上数据描述和交换的标准,它将代替HTML而成为Web上存放数据的主要格式。这里阐述了ADO.NET与XML的特点,介绍了ADO.NET的工作原理,最后通过实例说明了ADO.NET读写XML文件的过程。  相似文献   

4.
Web数据库成为数据库应用的主流,随着网上数据量的增加,越来越多的应用迫切需要通过网络来交换数据.XML正在成为Internet上数据描述和交换的标准,它将代替HTML而成为Web上存放数据的主要格式.这里阐述了ADO.NET 与XML的特点,介绍了ADO.NET的工作原理,最后通过实例说明了ADO.NET读写XML文件的过程.  相似文献   

5.
正如人们所望,W3C(World Wide Web Consortium,简称W3C)于2月10日制定了XML(eXtensible Markup Language)的标准。被公认为基干Web内容发展里程碑的XML 1.0是W3C发布的扩展标记语言的第一个版本,是一个定义、论证和定制Web网页文档格式的系统。 XML语言由HTML语言发展而来,但在描述文档和数据时功能更加强大。XML的支持者  相似文献   

6.
信息提取就是从大量的数据中检索出有用的信息,但一般的Web信息提取技术都是基于对Web上HTML文档的分析.文中提出了一种先将HTML转化为XML形式,再提取信息的方法.XML是用于描述在Intemet网上用于数据交换的数据文档的格式的一种语言标准,它将结构、内容和表现分离.数据可被XML唯一标识,从而有利于用户对数据的组织和检索.这种方法能够达到较高的正确率,同时随着文档的增大,方法也能够保证线性的时间复杂度.  相似文献   

7.
基于XML的Web报表开发工具及其支撑框架   总被引:1,自引:0,他引:1  
文章介绍了863/CIMS国产数据库客户端软件OpenToo1s的Web报表应用开发与支撑框架,它以XML为报表数据和格式的描述及表现手段,以应用服务器为中心进行Web集成,并利用软件构件来搭建基于Web的报表应用,动态生成XML或HTML格式的报表。它充分结合了XML、构件和应用服务器技术的优势,既能提供企业级的数据库访问功能,又可以满足报表显示的需要,具有较大的重用粒度,能够有效地提高Web报表开发的质量和效率。  相似文献   

8.
随着Web技术的飞速发展,Internet应用也日趋复杂化和多样化,而构筑Web的基础数据格式HTML由于其结构的局限性,已经满足不了日益发展的应用需要。致力于Web数据标准化的万维网联盟W3C组织经过长期努力,开发组建了XML规范,并在短短几年内得到了广泛认可,成为网络界引人注目的技术。  相似文献   

9.
XML及语义Web技术   总被引:6,自引:0,他引:6  
1 引言 XML的目标就是要改变Web的基本结构,超越HTML并代之以更强大、更具有可扩展的体系结构。XML旨在使Web返回到基于内容的结构,而不再是开发人员强加给它的基于格式的结构。但是到目前为止,几乎所有的Web页面都是用HTML编写的。虽然HTML具有通用、简单易学、句法简单紧凑等许多优点,使得它得以在Web网页上大显身手,但是随着Web应用的越来越深入,HTML过于简单的弱点也越来越突出了。其中一个明显的弱点即是由HTML编写  相似文献   

10.
吕锋  余丽 《微机发展》2007,17(6):53-55
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

11.
《Computer》1998,31(10):120-122
Called “the emerging technology of the year” after it was endorsed by the World Wide Web Consortium (W3C), XML burst onto the scene in February. It was called the successor to HTML and, according to some, the future lingua franca for the exchange of structured data. As XML emerged from the obscurity of its W3C beginnings, it was perhaps inevitable that this new data format would begin generating misconceptions as fast as it has attracted enthusiasts. The article heads off four myths about XML before they become permanent misunderstandings: XML is a conspiracy led by Microsoft; XML is an extension of HTML; XML can drive Web browsers by itself; and XML is just for data  相似文献   

12.
基于XML的中间层交互技术的研究   总被引:1,自引:0,他引:1  
陆剑江 《微机发展》2004,14(8):30-33
由于HTML自身的不足.所以无法适应Web发展的复杂性和多变性,也不利于机器之间的数据交换和信息传递,通过对XML和HTML作多个角度的对比,文中提出将XML作为载体实现Web上的动态交互。首先从XML的自身特点出发,分析了XML驱动下的Web体系结构,从而得出基于XML的中间层交互技术的实现原理.重点研究了如何设计与XML相匹配的Web数据库,用XML查询数据库的实现方法,以及如何构造从XML到数据库的映射关系,具体包括从XIviL的DTD或者Schema出发来设计数据库的结构或者从数据库本身出发来构造与之相适应的DTD或Schema,最后分析了浏览XML格式信息的诸多策略。  相似文献   

13.
Several techniques have been recently proposed to automatically generate Web wrappers, i.e., programs that extract data from HTML pages, and transform them into a more structured format, typically in XML. These techniques automatically induce a wrapper from a set of sample pages that share a common HTML template. An open issue, however, is how to collect suitable classes of sample pages to feed the wrapper inducer. Presently, the pages are chosen manually. In this paper, we tackle the problem of automatically discovering the main classes of pages offered by a site by exploring only a small yet representative portion of it. We propose a model to describe abstract structural features of HTML pages. Based on this model, we have developed an algorithm that accepts the URL of an entry point to a target Web site, visits a limited yet representative number of pages, and produces an accurate clustering of pages based on their structure. We have developed a prototype, which has been used to perform experiments on real-life Web sites.  相似文献   

14.
HTML表格向XML的智能转换   总被引:2,自引:0,他引:2       下载免费PDF全文
XML已经成为处理与管理信息的标准格式,而HTML表格被广泛应用于Web。为了充分利用与管理HTML表格信息,需要将HTML表格转换成XML。提出一种有效的处理方法,该方法包含2个部分,即表格识别与结构转换。表格识别通过检查格式、语法及语义的特征将表格提取出来并分割成值域与属性域,使用预设的表格模板分析属性域与值域间的层次结构并将其转换成XML格式。通过 300多个表格的实验表明,所提出的方法要优于传统方法,结果的准确率达86.7%。  相似文献   

15.
基于XML的Web数据挖掘关键技术的研究   总被引:8,自引:0,他引:8       下载免费PDF全文
由于存在着大量的在线信息,WWW成为数据挖掘的热点。该文介绍了Web网页的数据挖掘技术,提出一种基于XML的Web数据挖掘模型,阐述将半结构化HTML文档转换成良构的XML文档的原因,并给出基于HTML Tide库的转换代码,介绍了利用XML技术从Web网页析取数据的关键技术,包括XHTML、XSLT和XQuery等,对Web数据挖掘的其他方面如数据检验和集成作了一定的探讨。  相似文献   

16.
一种新的Web数据模型-EOEM   总被引:1,自引:0,他引:1  
随着XML的普及,开发具有同时查询XML文档和HTML文档能力的新一代Web查询语言已是当务之急.但现有的Web数据模型存在种种局限.本文提出了一种新的Web数据模型,能够同时支持HTML和XML等半结构化文档的查询.  相似文献   

17.
While HTML is mainly designed for the visual rendering of Web documents, XML is widely accepted as a standard format to process and manage information. In particular, it can embed the information of logical structures. However, in order to utilize XML, the logical structures of HTML tables should first be extracted and transformed into XML representations. This paper presents an efficient method for the process, which consists of two phases: area segmentation and structure analysis. The area segmentation cleans up tables and segments them into attribute and value areas by checking visual and semantic coherency. The hierarchical structure between attribute and value areas is then analyzed and transformed into an XML representation using a proposed table model. Experimental results with 1180 HTML tables show that the proposed method performs better than conventional methods, resulting in an average accuracy of 86.7%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号