首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
“可扩展标记语言”(XML)是一种简单的与平台无关并被广泛采用的结构化化语言标准。XML相对于HTML的优点是它将用户界面与结构化数据分隔开来,XML不是要替换HTML,实际上XML可以视作对HTML的补充。以下从两个方面浅谈XML与HTML的结合。  相似文献   

2.
一种新的Web数据模型-EOEM   总被引:1,自引:0,他引:1  
随着XML的普及,开发具有同时查询XML文档和HTML文档能力的新一代Web查询语言已是当务之急.但现有的Web数据模型存在种种局限.本文提出了一种新的Web数据模型,能够同时支持HTML和XML等半结构化文档的查询.  相似文献   

3.
正象HTML一样,可扩展标记语言XML(Extensible Markup Language)也是一种标记语言。它是互联网上结构化的文件交换的一种数据模式,因而成为网上传送结构化数据的工具,它同样依赖于描述一定规则的标签和能够读懂这些标签的应用处理工具来发挥它的强大功能。这一点,从XML的命名上也可窥见一斑。 XML的强大功能主要来自于其可扩展性。业界观察家认为XML将使信息交换方式发生变革,就象HTML改变了用户界面一样。但XML并非象HTML那样,提供一组事先已经定义好的标签,而是提供一种标准,利用这个标准,用户可以根据实际需要定义自己的新的标记语言,并为该自定义的标记语言规定其特有的一套标签,如XML允许开发人员为价格、产品等数据创建他们自己的标记,这样的结果是获得更加有效的数据交换和更好的Internet搜索能力。  相似文献   

4.
吕锋  余丽 《微机发展》2007,17(6):53-55
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

5.
基于XML的Web数据抽取研究   总被引:1,自引:0,他引:1  
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

6.
陈能技 《电脑爱好者》2002,(18):106-107
一、XML简介 XML在问世的时候就被赋予电子商务世界语的美称,原因在于XML不仅简单,而且还是结构化的ASCⅡ文本语言,任何人都能读懂它。与HTML语言需要预先定义语法集不同,XML文件虽然要遵循通用的语法规则,但真正的关键词则是由作者决定的。其含义可由DTD文件或者Schema来定义。使用DTD或Schema的XML文件可以说是一个自我解释的文件,在数据集成化和出错调整时都很有用。XML的结构化模式使得数据和信息可以在应用程序之间相互传递,包括在多层应用的中间层之间。它提供一个标  相似文献   

7.
目前有数以百万人在使用 HTML 语言,但在未来 Web 可能会由 W3C 的 XML(扩展标记语言)语言来书写,XML 使 Web 更好的适应了不同人员的数据信息要求,允许内容创建者使用结构化的数据来描述内容,非常易于处理,而且可以方便的传输到不同用户的设备上。讨论 XHTML 1.0标准的时候,W3C 的 HTML 工作组面临着许多挑  相似文献   

8.
跨进XML时代     
如果说HTML是互联网络的第一次革命,那么XML则给网络的各种应用带来了第二次历史性的变化,也创造出更多的新型应用机会。XML有利于信息的表达和结构化组织,从而使数据搜索更有效:XML可以使用URL别名使Web的维护更方便,也使Web的应用更稳定;XML可以使用数字签名使Web的应用更广阔拓展到安全保密领域。可以认为来来的Web书写工具必定是XML。 XML代表扩展标识语言(Extensible Markup Language),它是一个精简的SGML(Standard Generalized Markup Language,标准通用标记语言),将SGML的丰富功能与HTML的易用性结  相似文献   

9.
基于XML的web文本挖掘方法与模型研究   总被引:2,自引:2,他引:0  
Internet的快速发展和大量非结构化数据的出现,给传统的数据挖掘工具带来了极大的挑战。XML(可扩展标记语言)技术一方面继承了HTML的灵活性和简单性,另一方面又具有强制结构的完整性和标签的自定义性,已经成为web挖掘的一个重要方向。本文在介绍XML语言基本特点的基础上,针对web上大量异构数据的特点,探讨了基于多叉树的HTML到XML的转换方法,实现web上文本的规范化,并将其用于提出的基于XML的web文本挖掘模型,提高web文本挖掘的有效性。  相似文献   

10.
XML语言在网页中的应用   总被引:1,自引:0,他引:1  
SGML是一种在互联网上发布信息所使用的"出版"语言,是所有计算机都能够理解的标准通用标记语言,目前流行的HTML、XML等语言是SGML的实际应用。本文对网页制作中使用的HTML、XML尤其是XML等标记语言相关知识做了介绍,比较了两种种语言的不同与优缺点。  相似文献   

11.
XML与HTML整合     
XML与HTML都是重要的网络标识语言,但各自具有优缺点,XML侧重于数据的描述,HTML侧重于数据的显示,若将两者整合则可以取长补短。主要介绍如何使用数据岛技术来实现XML与HTML的整合。  相似文献   

12.
XML与HTML整合     
XML与HTML都是重要的网络标识语言,但各自具有优缺点,XML侧重于数据的描述,HTML侧重于数据的显示,若将两者整合则可以取长补短。主要介绍如何使用数据岛技术来实现XML与HTML的整合。  相似文献   

13.
HTML到XML转换研究   总被引:1,自引:0,他引:1  
网络上的许多信息都是由HTML编写的,但HTML语言本身具有不足,使得其不能处理网络上的许多需求,而XML可以弥补很多HTML的不足,因此网络应用的传统数据和XML标记数据的转换变得日趋重要。本文对从HTML到XML的转换技术进行研究,并用Java语言实现该转换系统。  相似文献   

14.
一种基于多叉树的HTML到XML的转换方法   总被引:4,自引:0,他引:4  
当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的方法来检索或提取隐藏其中的数据,针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把对HTML的信息检索问题转化为对XML的检索问题,以便简化下一步的检索问题。  相似文献   

15.
当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的方法来检索或提取隐藏其中的数据.针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把对HTML的信息检索问题转化为对XML的检索问题,以便简化下一步的检索问题.  相似文献   

16.
目前W3C推荐的网页格式标准是XML1.0[1],但要求为数众多的已有站点直接采用XML还为时过早。因此,用XML对HTML进行扩展,得到了XHTML。但多数Web开发人员仍习惯用HTML语法写XHTML网页,导致代码不被识别或显示效果不佳。通过对比研究XHTML与HTML的细致区别,阐明了XHTML文档的结构特征及独特的语法要求,目的在于帮助Web开发人员适应这种技术的变化,顺利地完成Web开发任务。  相似文献   

17.
基于XML无组件文件上传的实现   总被引:3,自引:0,他引:3  
严海兵 《计算机工程》2003,29(4):196-196,F003
XML技术正在兴起,使用XML和ADO Stream对象技术,实现HTML页面上传文件,不但不引起页面转换,还可在无第三方组件支持和伺服下同时上传多个文件,并且程序是纯脚本写成的,可以很容易插入到其他代码中而不需要任何HTML对象的配合。  相似文献   

18.
文章分析了HTML和XML的特点、论述了HTML向XML转换的必要性、介绍了转换的有关原理,采用了基于把HTML文档解析为DOM树形成节点信息,然后进行深度遍历的方法对各节点信息进行抽取映射为XML结构的信息,以达到转换为XML文档的目的。  相似文献   

19.
文章分析了HTML和XML的特点、论述了HTML向XML转换的必要性、介绍了转换的有关原理。采用了基于把HTML文档解析为DOM树形成节点信息,然后进行深度遍历的方法对各节点信息进行抽取映射为XML结构的信息。以达到转换为XML文档的目的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号