共查询到18条相似文献,搜索用时 78 毫秒
1.
文章分析了HTML和XML的特点、论述了HTML向XML转换的必要性、介绍了转换的有关原理。采用了基于把HTML文档解析为DOM树形成节点信息,然后进行深度遍历的方法对各节点信息进行抽取映射为XML结构的信息。以达到转换为XML文档的目的。 相似文献
2.
互联网中XML网页的链接解析与信息采集 总被引:2,自引:0,他引:2
文章分析和介绍对互联网中XML+XSL网页资源链接解析和内容采集的方法,包括传统HTML中链接解析、XML转换为HTML后链接解析、手工定制下XML链接解析和传统HTML信息采集、XML信息抽取、XML转换为HT- ML的信息采集等。 相似文献
3.
4.
HTML到XML转换研究 总被引:1,自引:0,他引:1
网络上的许多信息都是由HTML编写的,但HTML语言本身具有不足,使得其不能处理网络上的许多需求,而XML可以弥补很多HTML的不足,因此网络应用的传统数据和XML标记数据的转换变得日趋重要。本文对从HTML到XML的转换技术进行研究,并用Java语言实现该转换系统。 相似文献
5.
本文主要围绕HTML和XML两种标记语言,通过比较,指出了它们之间的相同和不同之处。虽然均为标记语言,HTML主要长于显示数据项,便于数据信息在Web上的显示;而XML更方便数据信息的存取、处理、交换、转换,适宜不同系统和应用程序之问进行数据交流和整合。 相似文献
6.
互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文利用HTML表格属性,在表格中插入冗余单元,使HTML表格规范化;对没有标志表头的HTML表格,采用格式化的信息的量化值识别网上表格的表头。在此基础上,提出了通过获取表格属性与值对应的语义层次,自动转换HTML表格数据为XML文挡的新方法。 相似文献
7.
XSLT提供了一种将XML文档转换为HTML的强有力的工具.然而,当这种转换需要涉及更多逻辑的时候,就会显现出它的不足之处.文中讲述了如何使用Java扩展XSLT,从而更好地发挥两种语言的特色.最后给出一实例来具体展示如何将XML节点传送到Java类并返回到样式表以进一步处理. 相似文献
8.
XSLT提供了一种将XML文档转换为HTML的强有力的工具。然而,当这种转换需要涉及更多逻辑的时候,就会显现出它的不足之处。文中讲述了如何使用Java扩展XSLT,从而更好地发挥两种语言的特色。最后给出一实例来具体展示如何将XML节点传送到Java类并返回到样式表以进一步处理。 相似文献
9.
何莹 《网络安全技术与应用》2009,(3):92-93,68
为了有效解决这种异构信息源的集成问题,将整个网络信息集成过程划分为三个阶段:数据抽取、数据集成和数据输出。本文重点研究了在数据抽取阶段基于KPS到XML转换的HTML数据抽取问题,解决从大量动态变化的HTML数据源中精确、快速地寻找有效信息的数据抽取问题。 相似文献
10.
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。 相似文献
11.
袁新颜 《数字社区&智能家居》2007,2(7):263-264
“可扩展标记语言”(XML)是一种简单的与平台无关并被广泛采用的结构化化语言标准。XML相对于HTML的优点是它将用户界面与结构化数据分隔开来,XML不是要替换HTML,实际上XML可以视作对HTML的补充。以下从两个方面浅谈XML与HTML的结合。 相似文献
12.
陈银凤 《电脑与微电子技术》2011,(13):49-51
XML与HTML都是重要的网络标识语言,但各自具有优缺点,XML侧重于数据的描述,HTML侧重于数据的显示,若将两者整合则可以取长补短。主要介绍如何使用数据岛技术来实现XML与HTML的整合。 相似文献
13.
XML与HTML都是重要的网络标识语言,但各自具有优缺点,XML侧重于数据的描述,HTML侧重于数据的显示,若将两者整合则可以取长补短。主要介绍如何使用数据岛技术来实现XML与HTML的整合。 相似文献
14.
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。 相似文献
15.
随着Internet的发展,以HTML格式显示的Web数据越来越不适应新的发展需求,而用来描述和存储数据的XML语言有着许多优于HTML的技术,于是将HTML格式的数据用XML格式表示出来,是现在网络应用中需要解决的问题。这里介绍的基于Web的HTML到XML数据转换方法能够有效地把HTML格式的文件转换成XML(XHTML)格式的文件。 相似文献
16.
一种基于多叉树的HTML到XML的转换方法 总被引:4,自引:0,他引:4
当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的方法来检索或提取隐藏其中的数据,针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把对HTML的信息检索问题转化为对XML的检索问题,以便简化下一步的检索问题。 相似文献
17.
当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的方法来检索或提取隐藏其中的数据.针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把对HTML的信息检索问题转化为对XML的检索问题,以便简化下一步的检索问题. 相似文献
18.
一种基于内容的HTML到XML转换策略 总被引:6,自引:0,他引:6
互联网应用系统中传统HTML内容数据的重用及其与Web中标准XML格式数据的互交换非常重要。通过对HTML结构和语法特点的分析,文章定义了一种分离HTML格式信息与表达有效语义的内容数据的标记规则,建立了该标记规则到XML模式的一种影射,从而实现了一种从HTML内容到XML结构数据的转换策略。最后,在网页在线维护系统WOMS中应用该策略实现网站管理者对网页的在线维护。 相似文献