首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
针对单一CPU节点的Web数据挖掘系统在挖掘Web海量数据源时存在的计算瓶颈问题,利用云计算的分布式处理和虚拟化技术优势以及蚁群算法并行性的优点,设计一种基于Map/Reduce架构的Web日志挖掘算法。为进一步验证该算法的高效性,通过搭建Hadoop平台,利用该算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,充分利用了集群系统的分布式计算能力处理大量的Web日志文件,可以大大地提高Web数据挖掘的效率。  相似文献   

2.
一种基于Web日志文件的信息挖掘方法   总被引:19,自引:1,他引:19  
数据预处理和日志挖掘算法是Web日志挖掘中的关键技术。文中根据Web访问模式的用户特征,提出了一种基于Web日志文件的信息挖掘系统的体系结构。在此基础上,分析了其数据挖掘过程和信息挖掘算法。  相似文献   

3.
基于Hadoop的Web日志挖掘   总被引:3,自引:0,他引:3       下载免费PDF全文
程苗  陈华平 《计算机工程》2011,37(11):37-39
基于单一节点的数据挖掘系统在挖掘Web海量数据源时存在计算瓶颈,针对该问题,利用云计算的分布式处理和虚拟化技术的优势,设计一种基于云计算的Hadoop集群框架的Web日志分析平台,提出一种能够在云计算环境中进行分布式处理的混合算法。为进一步验证该平台的高效性,在该平台上利用改进后的算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,在集群中运用分布式算法处理大量的Web日志文件,可以明显提高Web数据挖掘的效率。  相似文献   

4.
Web挖掘是数据挖掘的重要研究分支之一。Web日志文件为Web挖掘提供了数据源,日志信息的孤立点检测是数据预处理的重要环节。介绍Web日志文件的构成,提出一种基于Web日志文件的孤立点检测算法,通过实验对算法进行进一步分析,并对其应用领域做简单概括。  相似文献   

5.
在Web数据挖掘研究领域中,Web日志挖掘是一个极其重要的应用方面,而数据预处理技术在Web日志挖掘中又起到非常重要的作用.介绍Web日志文件的记录格式和Web日志挖掘预处理的一般过程,针对实际应用中遇到的问题提出一种解决方法,最后给出算法代码.  相似文献   

6.
一种分布式Web日志挖掘系统的设计与实现   总被引:5,自引:1,他引:5  
陶剑文 《计算机仿真》2006,23(10):109-112
Web挖掘已从早期的理论研究逐步转向实用阶段,可以利用对Web日志的挖掘发现用户的浏览模式、分析站点的使用情况。有效的Web日志挖掘工具是Web日志挖掘应用成功的关键。针对Web日志挖掘工具存在的问题与不足,提出了一种新颖的基于移动Agent技术的分布式Web日志挖掘系统(MAWLMS)的体系结构。重点阐述了移动代理层的设计,详细说明了移动Agent挖掘算法的设计与实现,包括最大向前路径识别算法和频繁遍历路径发现算法。最后对MAWLMS系统进行了验证,实验结果显示基于MAWLMS系统的分布式Web日志挖掘是可行且有效的。  相似文献   

7.
Web日志数据中保存有大量用户访问信息,而Web日志挖掘就是对系统日志信息以及用户的注册数据等进行挖掘,以发现有用的模式和知识。首先介绍了Web日志挖掘的基本流程,然后介绍了电子商务中的日志挖掘,并着重分析了在模式识别中如何利用改进的关联规则算法来挖掘出用户频繁访问的路径和页面兴趣度,为个性化推荐系统模型提供了依据,从而证实了对Web日志数据进行挖掘具有很重要的现实意义。  相似文献   

8.
基于Web日志的数据预处理研究   总被引:1,自引:0,他引:1  
详细介绍Web日志挖掘的数据预处理过程.通过对预处理的结果用户会话文件进行处理,构造出扩展有向树模型,并从每个用户会话文件中发现该用户所有的最大向前引用路径,为实施Web日志挖掘算法提供数据基础.  相似文献   

9.
本文旨在研究基于Web环境下利用关联规则对Web日志挖掘的数据分析系统。把关联规则的概念引入到Web日志挖掘中,将用户的访问路径以关联规则的形式表现出来,其目的在于从用户访问超文本系统的行为中发现用户的访问模式。然后在Apriori挖掘算法思想的基础上,对其改造,给出了适合挖掘用户访问频繁路径的类Apriori算法。最后设计开发了一个Web日志数据分析系统。此系统主要包含三个功能模块:数据预处理模块、智能分析模块和基本分析模块  相似文献   

10.
在对Web应用挖掘的基本步骤作系统性研究的基础上,设计了一个基于Web日志文件的关联规则挖掘模块。该系统应能够对用户访问Web时服务器方留下的访问记录进行挖掘,从中得出用户的访问模式和访问兴趣。为了识别用户浏览模式,实现了利用关联规则挖掘算法Apriori对Web应用挖掘过程中预处理阶段所产生的用户会话文件进行挖掘的模块,该模块针对用户选定的若干页面产生满足最小支持度和最小置信度的页面之间的强关联规则,并以文本的形式显示挖掘的结果。  相似文献   

11.
Web挖掘及其应用研究   总被引:7,自引:0,他引:7  
Web挖掘就是利用数据挖掘技术,从Web文档和Web活动中提取感兴趣的,潜在的有用模式和隐藏的信息,本文详细阐述了Web的特点,Web挖掘的分类及应用。  相似文献   

12.
Internet的迅猛发展及Web数据量的迅速膨胀为数据挖掘研究提供了丰富的资源.如何在这个巨大的、信息量无比丰富的信息空间提取所需的知识,是数据挖掘面临新的研究课题,Web挖掘是解决上述问题的一个途径.Web挖掘是数据挖掘技术在Web上的应用,介绍Web挖掘的特点,深入分析Web挖掘的分类,并详细阐述Web挖掘的发展应用.  相似文献   

13.
基于Web的数据挖掘研究综述   总被引:4,自引:0,他引:4  
基于Web数据挖掘是一个结合了数据挖掘和WWW的热门研究主题。文章介绍了Web数据挖掘最流行的分类;Web内容挖掘,Web结构挖掘和Web使用记录挖掘,根据Web数据挖掘的最近研究状况,总结了几个研究热点,并介绍了一个Web使用记录挖掘的框架WebSIFT.  相似文献   

14.
Web日志挖掘数据预处理研究   总被引:6,自引:0,他引:6  
随着WWW的广泛应用及相应的Web技术的出现,数据挖掘的研究也进入了一个新的阶段。Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面,而数据预处理在Web日志挖掘过程中起着至关重要的作用。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。本文针对基于日志的数据挖掘,提出了前期的几种数据预处理方法,目的是分割服务器日志为多个独一无二的用户的一次访问序列,并给予了算法实现。  相似文献   

15.
基于Web的数据挖掘技术   总被引:7,自引:1,他引:7  
基于Web数据挖掘是一个结合了数据挖掘和WWW的热门研究主题.本文综述了基于Web的数据挖掘技术,介绍了Web数据挖掘目前最流行的分类:Web内容挖掘、Web结构挖掘和Web访问挖掘,根据Web数据挖掘的最近研究现状,小结了几个研究热点.由于Web数据所具有的半结构化特性,使得Web数据挖掘更为复杂,不同于传统的基于数据库的数据挖掘.最后介绍一种全新的技术XML,XML的出现为解决Web数据挖掘的难题带来了机会.Web数据挖掘的研究具有极大的挑战性,同时又具有极大的开发潜力.  相似文献   

16.
基于web的数据挖掘是一个结合数据挖掘和WWW的热门研究主题,它是现代科学技术相互渗透与融合的必然结果。本文阐述了Web数据挖掘的定义、分类和过程,并对Web数据挖掘的应用与发展前景进行了探讨。  相似文献   

17.
基于Web的数据挖掘是一个结合数据挖掘和WWW的热门研究主题,它是现代科学技术相互渗透与融合的必然结果。本文阐述了Web数据挖掘的定义、分类和过程,并对Web数据挖掘的应用与发展前景进行了探讨。  相似文献   

18.
Web文本挖掘     
简要介绍Web挖掘的概念、分类及其功能,重点分析了Web文本挖掘的方法,包括文本的特征表示与抽取、文本的分类与聚类等。最后对Web文本挖掘的应用领域作了展望。  相似文献   

19.
本文主要是关于搜索引擎与Web挖掘方面数据源的探讨。随着互联网的发展、信息量的巨增,搜索引擎显露出种种缺陷,产生了Web挖掘,之后引出工作性能低下等问题。于是,作者提出基于搜索引擎的Web挖掘和基于Web日志文件的数据仓库等解决方案,最后探讨了一个更为彻底的、有希望的元数据服务器的框架。  相似文献   

20.
随着Web上的信息量剧增,Web数据挖掘的作用愈显重要。本文从Web数据挖掘的定义与分类开始分析,简述了Web数据挖掘的主要技术以及存在的主要难题,并分析其应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号