首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
XML是Web开发人员中的热门话题。它承诺一种标准化置标可以把显示和版面代码从语法中分离出去。如果你曾经有过为解析松散的代码而痛苦不堪的经历,那么这一特性的确是令人振奋的。不管你的站点有10页还是有10000页,它都是混合了标准HTML和浏览器定义的专有置标的HTML代码。如果你想过向XML过渡,或者仅仅想标准化一下你的HTML代码,那么这里有一个解决方案:XHTML(Extensible Hypertext Markup Language,可扩展超文本置标语言)。 XML+HTML=XHTML 在某种程度上,XML加上HTML就是XHTML。让我们快速地看一下这些置标语言是如何组合起来的。 HTML是一种用SGML(Standard Gen-  相似文献   

2.
基于XML的Web数据挖掘关键技术的研究   总被引:8,自引:0,他引:8       下载免费PDF全文
由于存在着大量的在线信息,WWW成为数据挖掘的热点。该文介绍了Web网页的数据挖掘技术,提出一种基于XML的Web数据挖掘模型,阐述将半结构化HTML文档转换成良构的XML文档的原因,并给出基于HTML Tide库的转换代码,介绍了利用XML技术从Web网页析取数据的关键技术,包括XHTML、XSLT和XQuery等,对Web数据挖掘的其他方面如数据检验和集成作了一定的探讨。  相似文献   

3.
随着Internet的发展,以HTML格式显示的Web数据越来越不适应新的发展需求,而用来描述和存储数据的XML语言有着许多优于HTML的技术,于是将HTML格式的数据用XML格式表示出来,是现在网络应用中需要解决的问题。这里介绍的基于Web的HTML到XML数据转换方法能够有效地把HTML格式的文件转换成XML(XHTML)格式的文件。  相似文献   

4.
新片佳作     
《新电脑》2002,(1)
对于网络程序设计人员来说。直接对网页的文件内容进行编辑是至关重要的.过去,网页文件大多是通过HTML语言来编写的,HTML经过长时间的发展, 其最终版本为4.01.之后。HTML就逐渐被XHTML所取代了.与HTML相比,XHTML加强了对XML的支持.但其基础语法与HTML完全相同. 作者首先对XHTML语言的起源、规范以及特性作了大致的介绍。并为读者比较了它与HTML语言的差异.其后, 作者在本书中用了4个章节的篇幅.对如何在XHTML语言中进行文字、图像、表格以及超级链接的编排控制进行了详细的讲解. 从第六章开始 ,本…  相似文献   

5.
XML及语义Web技术   总被引:6,自引:0,他引:6  
1 引言 XML的目标就是要改变Web的基本结构,超越HTML并代之以更强大、更具有可扩展的体系结构。XML旨在使Web返回到基于内容的结构,而不再是开发人员强加给它的基于格式的结构。但是到目前为止,几乎所有的Web页面都是用HTML编写的。虽然HTML具有通用、简单易学、句法简单紧凑等许多优点,使得它得以在Web网页上大显身手,但是随着Web应用的越来越深入,HTML过于简单的弱点也越来越突出了。其中一个明显的弱点即是由HTML编写  相似文献   

6.
XHTML最早口q做"HTML in XML",是一种基于XML的超文本标记语言,也就是说,将以前用SGML定义的HTML改为用XML重新定义。从这个意义上讲,XHTML实际上是XMU的一种应用。表面上看,在XHTML中,其标记仍旧延用以往的HTML的标记,各元素和属性的名称和用法也几乎不变,只不  相似文献   

7.
自从XML(可扩展标记语言)形成标准以来,围绕它的争论一直没有间断,但大多数Web设计人员仍把它看作网站构建的必备技能。目前,HTML仍然是用来构建Web网站的最流行的标记语言。但根据万维网国际联盟(W3C)研究和编写Web标记语言标准的人士的说法,HTML已经不再是他们推荐使用的标注方法。基于XML的XHTML(可扩展超文本标记语言)在一年多以前就取代HTML成为被推荐使用的标记语言(详情可参看www.w3.org/MarkUp/)。实际上,目前最新的Web标记语言标准是XHTML1.0。不过,只有很少的设计人员在使用XHTML,  相似文献   

8.
目前有数以百万人在使用 HTML 语言,但在未来 Web 可能会由 W3C 的 XML(扩展标记语言)语言来书写,XML 使 Web 更好的适应了不同人员的数据信息要求,允许内容创建者使用结构化的数据来描述内容,非常易于处理,而且可以方便的传输到不同用户的设备上。讨论 XHTML 1.0标准的时候,W3C 的 HTML 工作组面临着许多挑  相似文献   

9.
该文阐述了W3C标准制订的意义与内容,以及W3C为标准的DIV CSS、XML、DOM网页开发技术,XHTML与HTML的区别,提出了基于W3C技术的网页校验方法。  相似文献   

10.
吕锋  余丽 《微机发展》2007,17(6):53-55
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

11.
《Computer》2003,36(5):14-16
XML's growing implementation has raised several key concerns. First, because they provide considerable information about a document's content, XML files include much more data than HTML files. This can burden a company's network, processor, and storage infrastructures. In addition to extensively describing a document's contents, XML files typically appear in plain text. These factors create security concerns. And many developers may not be cooperating with the effort to transition the Web from HTML to XML via XHTML (Extensible HTML).  相似文献   

12.
为了帮助用户在低带宽、高延迟的情况下快速切入自己需要的页面,并自动得到页面中自己感兴趣的部分,该文提出了一个基于Web Component的页面分解算法。算法首先将HTML页面格式化为XHTML形式,然后根据XHTML页面生成XMLDOMTree,从中分析、抽取Web Component作为独立实体,并给这些Web Component分配标识,最后在数据库中存储页面结构、Web Component及相关信息,用于构建个性化门户。  相似文献   

13.
为了有效地从Web页面上提取数据信息,本文建立一种基于XML的Web信息收集数据库。利用开源工具JTidy将Web页面加以整理,利用XML良好的结构特性,使用Dom4j工具包解析XML文件;按照XML中的标签层次特点作为对数据进行储存的依据;最后使用Hibernate将数据持久化地储存于数据库中,方便数据的储存与查询。  相似文献   

14.
The World Wide Web Consortium (W3C) promulgates the HTML standards used on the Web, but it has no authority to enforce the adoption of one standard in favor of another. In this environment, developers have some incentive to ignore up-to-date W3C standards given that the transitional versions of HTML 4.01 and XHTML 1.0 offer most of the capabilities of the newer ones but are less stringent in their requirements. If most Web sites migrate to these "transitional" standards and remain there, future versions might be mere academic exercises for the W3C.  相似文献   

15.
XML技术在化学深层网数据提取中的应用   总被引:1,自引:1,他引:0  
Internet上的化学数据库是宝贵的化学信息资源,如何有效地利用这些数据是化学深层网所要解决的问题。本文总结了化学深层网的特点,基于XML技术实现从数据库检索返回的半结构化HTML页面中提取数据的目标,使之成为可供程序直接调用做进一步计算的数据。在数据提取过程中,先采用JTidy规范化HTML,得到格式上完整、内容无误的XHTML文档,利用包含着XPath路径语言的XSLT数据转换模板实现数据转换和提取。其中XPath表达式的优劣决定了XSLT数据转换模板能否长久有效地提取化学数据,文中着重介绍了如何编辑健壮的XPath表达式,强调了XPath表达式应利用内容和属性特征实现对源树中数据的定位,并尽可能地降低表达式之间的耦合度,前瞻性地预测化学站点可能出现的变化并在XSLT数据转换模板中采取相应的措施以提高表达式的长期有效性。为创建化学深层网数据提取的XSLT数据提取模板提供方法指导。  相似文献   

16.
一种基于内容的HTML到XML转换策略   总被引:6,自引:0,他引:6  
互联网应用系统中传统HTML内容数据的重用及其与Web中标准XML格式数据的互交换非常重要。通过对HTML结构和语法特点的分析,文章定义了一种分离HTML格式信息与表达有效语义的内容数据的标记规则,建立了该标记规则到XML模式的一种影射,从而实现了一种从HTML内容到XML结构数据的转换策略。最后,在网页在线维护系统WOMS中应用该策略实现网站管理者对网页的在线维护。  相似文献   

17.
传统互联网页面是基于HTML语法结构的,这种结构适合于计算机上的显示.但页面所表达的含义需要用户在浏览的时候加以识别,这对于信息的检索和实现知识的共享是非常不便的。文章介绍了一种根据HMTL语法结构来实现HTML页面到RDF文档的转化方法,它可以将HTML文档从结构上转换为以XML语法为基础的RDF文档。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号