首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
本文讨论了Web数据挖掘Agent的意义,介绍了基于传统的HTML的Web网页实现数据挖掘的困难,介绍了XML新技术在实现Web上的数据挖掘的优势,并简要介绍了Java实现XML网页上数据挖掘的过程。  相似文献   

2.
由于互联网上存在大量的信息资源,Web挖掘已成为数据挖掘的热点。本文介绍Web数据挖掘技术,比较HTML和XML的不同,充分利用XML的优越性,提出一种基于XML的数据挖掘模型,并详细论述该模型的特点及用途。  相似文献   

3.
基于XML的Web数据挖掘模型的设计   总被引:4,自引:0,他引:4  
目前很多网站都是用HTML构建的,要真正做到高效准确的挖掘数据非常困难,XML的出现为基于Web的数据挖掘带来了便利.在研究Web数据挖掘技术的基础上,利用XML数据抽取技术将半结构化数据映射为结构化数据,建立了一个具有基本挖掘功能的面向多种Web数据的挖掘系统模型Web_mining.最后将Agent技术引入数据挖掘,提出了一种基于Agent技术的体系结构,用来实现大容量的数据在分布式存放情况下的数据挖掘,并对基于Web的数据挖掘技术进行深入的研究和探讨.  相似文献   

4.
在目前很多网站都是基于HTML的,要对Web进行挖掘面临很多困难。XML的出现给基于Web的数据挖掘带来便利。利用XML和分布式数据挖掘技术将分布在世界各地的Web数据映射为结构化的数据,建立一个具有基本挖掘功能的分布式挖掘模型,并给出实现方案。  相似文献   

5.
面向Web的数据挖掘是当今数据挖掘技术的热点。本文首先介绍数据库挖掘技术和Web挖掘技术的相关背景,然后详细阐述了XML语言的卓越特性及其在Web数据挖掘中的重要应用,最后文章描述了基于XML的Web挖掘的具体过程。  相似文献   

6.
一种基于XML的Web数据挖掘方法   总被引:8,自引:0,他引:8  
杨鲲  孟波 《计算机应用》2003,23(Z1):160-161
XML的出现为基于Web的数据挖掘带来了便利,但是目前很多网站都是用HTML构建的,要真正做到高效准确的挖掘数据非常困难.介绍一种方法充分利用XML的优点对HTML描述的网站信息进行挖掘,并结合实例说明了这种方法.  相似文献   

7.
面向Web的数据挖掘是当今数据挖掘技术的热点。本文首先介绍数据库挖掘技术和Web挖掘技术的相关背景,然后详细阐述了XML语言的卓越特性及其在Web数据挖掘中的重要应用,最后文章描述了基于XML的Web挖掘的具体过程。  相似文献   

8.
基于Web的数据挖掘技术   总被引:7,自引:1,他引:7  
基于Web数据挖掘是一个结合了数据挖掘和WWW的热门研究主题.本文综述了基于Web的数据挖掘技术,介绍了Web数据挖掘目前最流行的分类:Web内容挖掘、Web结构挖掘和Web访问挖掘,根据Web数据挖掘的最近研究现状,小结了几个研究热点.由于Web数据所具有的半结构化特性,使得Web数据挖掘更为复杂,不同于传统的基于数据库的数据挖掘.最后介绍一种全新的技术XML,XML的出现为解决Web数据挖掘的难题带来了机会.Web数据挖掘的研究具有极大的挑战性,同时又具有极大的开发潜力.  相似文献   

9.
随着网络资源的日益丰富,从中发现潜在的、有价值的信息的商业需求一直推动着数据挖掘技术不断向前发展,由于Web数据本身具有半结构化、组织性差的特点,使得Web数据挖掘工作变得十分困难,而XML的出现为Web数据挖掘技术带来了新的契机和巨大的发展。本文介绍了XML技术以及Web数据挖掘,阐述了XML技术在Web数据挖掘中的应用。由于基于XML的Web数据挖掘是一门新兴的技术,如何进一步充分利用Web资源进行数据挖掘还有待于进一步研究。  相似文献   

10.
基于Web的数据挖掘技术   总被引:10,自引:0,他引:10  
陈二忠  姜丽华 《微机发展》2003,13(12):61-64
由于Web数据所具有的半结构化特性,使得Web数据挖掘更加复杂,不同于传统的基于数据库的数据挖掘。基于Web的数据挖掘主要分为:Web内容挖掘、Web结构挖掘和Web使用记录的挖掘。文中综述了基于Web的数据挖掘技术,并且介绍了一种全新的技术XML。XML的推广和使用,对于推动Web挖掘和知识获取具有重要的意义。如何进一步的开发Web数据挖掘,充分利用Web资源,还有待于进一步的研究。Web数据挖掘的研究具有极大的挑战性同时又具有极大的开发潜力。  相似文献   

11.
基于HTML和XML的信息提取方法研究   总被引:2,自引:0,他引:2  
陈红叶 《微机发展》2003,13(Z2):54-55
Web作为巨大的数据源,从Web中提取知识是当前信息研究的热点之一。主要研究针对HTML和XML页面如何生成Wrapper程序以便能够自动地从特定网页中提取有用信息,并成为将来进行Web挖掘的基础。  相似文献   

12.
随着Internet的发展,以HTML格式显示的Web数据越来越不适应新的发展需求,而用来描述和存储数据的XML语言有着许多优于HTML的技术,于是将HTML格式的数据用XML格式表示出来,是现在网络应用中需要解决的问题。这里介绍的基于Web的HTML到XML数据转换方法能够有效地把HTML格式的文件转换成XML(XHTML)格式的文件。  相似文献   

13.
Data mining for Web intelligence   总被引:2,自引:0,他引:2  
Searching, comprehending, and using the semistructured HTML, XML, and database-service-engine information stored on the Web poses a significant challenge. This data is more sophisticated and dynamic than the information commercial database systems store. To supplement keyword-based indexing, researchers have applied data mining to Web-page ranking. In this context, data mining helps Web search engines find high-quality Web pages and enhances Web click stream analysis. For the Web to reach its full potential, however, we must improve its services, make it more comprehensible, and increase its usability. As researchers continue to develop data mining techniques, the authors believe this technology will play an increasingly important role in meeting the challenges of developing the intelligent Web. Ultimately, data mining for Web intelligence will make the Web a richer, friendlier, and more intelligent resource that we can all share and explore. The paper considers how data mining holds the key to uncovering and cataloging the authoritative links, traversal patterns, and semantic structures that will bring intelligence and direction to our Web interactions.  相似文献   

14.
一种基于多叉树的HTML到XML的转换方法   总被引:4,自引:0,他引:4  
当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的方法来检索或提取隐藏其中的数据,针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把对HTML的信息检索问题转化为对XML的检索问题,以便简化下一步的检索问题。  相似文献   

15.
基于XML的中间层交互技术的研究   总被引:1,自引:0,他引:1  
陆剑江 《微机发展》2004,14(8):30-33
由于HTML自身的不足.所以无法适应Web发展的复杂性和多变性,也不利于机器之间的数据交换和信息传递,通过对XML和HTML作多个角度的对比,文中提出将XML作为载体实现Web上的动态交互。首先从XML的自身特点出发,分析了XML驱动下的Web体系结构,从而得出基于XML的中间层交互技术的实现原理.重点研究了如何设计与XML相匹配的Web数据库,用XML查询数据库的实现方法,以及如何构造从XML到数据库的映射关系,具体包括从XIviL的DTD或者Schema出发来设计数据库的结构或者从数据库本身出发来构造与之相适应的DTD或Schema,最后分析了浏览XML格式信息的诸多策略。  相似文献   

16.
当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的方法来检索或提取隐藏其中的数据.针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把对HTML的信息检索问题转化为对XML的检索问题,以便简化下一步的检索问题.  相似文献   

17.
XML数据库及其应用研究   总被引:32,自引:2,他引:32  
XML正在成为Internet上数据描述和交换的标准,它将代替HTML而成为Web上存放数据的主要格式。XML及其一系列相关的标准已广为接受和使用,为XML成为数据库奠定了基础。文章针对XML数据库研究的现状,介绍了XML数据库的基本概念和相关技术,并对其应用领域和使用方法进行了分析和研究。  相似文献   

18.
传统互联网页面是基于HTML语法结构的,这种结构适合于计算机上的显示.但页面所表达的含义需要用户在浏览的时候加以识别,这对于信息的检索和实现知识的共享是非常不便的。文章介绍了一种根据HMTL语法结构来实现HTML页面到RDF文档的转化方法,它可以将HTML文档从结构上转换为以XML语法为基础的RDF文档。  相似文献   

19.
吕锋  余丽 《微机发展》2007,17(6):53-55
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号