首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 187 毫秒
1.
当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的方法来检索或提取隐藏其中的数据.针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把对HTML的信息检索问题转化为对XML的检索问题,以便简化下一步的检索问题.  相似文献   

2.
一种基于多叉树的HTML到XML的转换方法   总被引:4,自引:0,他引:4  
当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的方法来检索或提取隐藏其中的数据,针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把对HTML的信息检索问题转化为对XML的检索问题,以便简化下一步的检索问题。  相似文献   

3.
文章分析了HTML和XML的特点、论述了HTML向XML转换的必要性、介绍了转换的有关原理。采用了基于把HTML文档解析为DOM树形成节点信息,然后进行深度遍历的方法对各节点信息进行抽取映射为XML结构的信息。以达到转换为XML文档的目的。  相似文献   

4.
文章分析了HTML和XML的特点、论述了HTML向XML转换的必要性、介绍了转换的有关原理,采用了基于把HTML文档解析为DOM树形成节点信息,然后进行深度遍历的方法对各节点信息进行抽取映射为XML结构的信息,以达到转换为XML文档的目的。  相似文献   

5.
一种基于XML的Web数据挖掘方法   总被引:8,自引:0,他引:8  
杨鲲  孟波 《计算机应用》2003,23(Z1):160-161
XML的出现为基于Web的数据挖掘带来了便利,但是目前很多网站都是用HTML构建的,要真正做到高效准确的挖掘数据非常困难.介绍一种方法充分利用XML的优点对HTML描述的网站信息进行挖掘,并结合实例说明了这种方法.  相似文献   

6.
王建光  段富 《微机发展》2007,17(7):123-126
为了把UML模型用XML描述出来,可以从模型转换的角度来考虑这个问题,把XML描述结果当作XML模型考虑。利用集合的概念定义了一个UML源模型,并用构造树的形式描述了UML基本模型元素的结构。根据构造树的描述定义目标XML模型的XML Schema。提出了一种基于对模型元素实例集合的扫描和对模型元素构造树遍历的方法来进行UML模型到XML模型的自动转换。  相似文献   

7.
HTML到XML转换研究   总被引:1,自引:0,他引:1  
网络上的许多信息都是由HTML编写的,但HTML语言本身具有不足,使得其不能处理网络上的许多需求,而XML可以弥补很多HTML的不足,因此网络应用的传统数据和XML标记数据的转换变得日趋重要。本文对从HTML到XML的转换技术进行研究,并用Java语言实现该转换系统。  相似文献   

8.
本文提出了一种Web查询语言WebQL,能同时处理XML和HTML文档资源,实现了结构化查询,提高了查询的准确度和速度,并给出了用VC 实现的WebQL原型系统.  相似文献   

9.
目前W3C推荐的网页格式标准是XML1.0[1],但要求为数众多的已有站点直接采用XML还为时过早。因此,用XML对HTML进行扩展,得到了XHTML。但多数Web开发人员仍习惯用HTML语法写XHTML网页,导致代码不被识别或显示效果不佳。通过对比研究XHTML与HTML的细致区别,阐明了XHTML文档的结构特征及独特的语法要求,目的在于帮助Web开发人员适应这种技术的变化,顺利地完成Web开发任务。  相似文献   

10.
本文详述了用DSO绑定XML文档的方法。并用实例说明了如何利用DSO技术在HTML主页中浏览XML数据。  相似文献   

11.
陈华英 《微机发展》2001,11(2):28-32
本文主要分析基于HTML的5种页面制作工具和基于XML的4种页面制作工具的主要特点及其优缺点。  相似文献   

12.
基于XML和N层VSM的Web信息检索   总被引:1,自引:1,他引:1  
基于XML文档格式良好、层次清晰,可以方便地操纵、分析其结构的特点。文中在将Web上的HTML文档转化为XML文档的基础上,通过Java中的DOM树,分析文档的层次结构。把文档分为层次化的文本段,对传统的VSM算法进行改进,把每个文本段转换为空间向量,实现了N层VSM算法,通过试验证明,改进后算法的查全率和查准率都要优于传统的VSM算法。  相似文献   

13.
HTML表格向XML的智能转换   总被引:2,自引:0,他引:2       下载免费PDF全文
XML已经成为处理与管理信息的标准格式,而HTML表格被广泛应用于Web。为了充分利用与管理HTML表格信息,需要将HTML表格转换成XML。提出一种有效的处理方法,该方法包含2个部分,即表格识别与结构转换。表格识别通过检查格式、语法及语义的特征将表格提取出来并分割成值域与属性域,使用预设的表格模板分析属性域与值域间的层次结构并将其转换成XML格式。通过 300多个表格的实验表明,所提出的方法要优于传统方法,结果的准确率达86.7%。  相似文献   

14.
基于HTML和XML的信息提取方法研究   总被引:2,自引:0,他引:2  
陈红叶 《微机发展》2003,13(Z2):54-55
Web作为巨大的数据源,从Web中提取知识是当前信息研究的热点之一。主要研究针对HTML和XML页面如何生成Wrapper程序以便能够自动地从特定网页中提取有用信息,并成为将来进行Web挖掘的基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号