首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 233 毫秒
1.
互联网上的数据规模大、种类多、变化快,而且越来越复杂。通过数据挖掘和分析,可以获取有潜在价值的信息。但是,传统的数据挖掘系统在数据存储和计算性能上存在瓶颈。通过使用云计算技术,设计了一个基于Hadoop架构的网页日志数据挖掘和分析平台来解决这个问题。同时,为了提高挖掘效率,为大规模网页日志挖掘实现了Apriori算法的并行化,并使用该平台验证了该行算法的效率。  相似文献   

2.
基于Hadoop的Web日志挖掘   总被引:3,自引:0,他引:3       下载免费PDF全文
程苗  陈华平 《计算机工程》2011,37(11):37-39
基于单一节点的数据挖掘系统在挖掘Web海量数据源时存在计算瓶颈,针对该问题,利用云计算的分布式处理和虚拟化技术的优势,设计一种基于云计算的Hadoop集群框架的Web日志分析平台,提出一种能够在云计算环境中进行分布式处理的混合算法。为进一步验证该平台的高效性,在该平台上利用改进后的算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,在集群中运用分布式算法处理大量的Web日志文件,可以明显提高Web数据挖掘的效率。  相似文献   

3.
时序不变式反映了事件间的时序逻辑关系,被广泛应用于异常检测、系统行为理解、模型推理等技术.在实际使用中,一般通过分析软件系统的日志数据挖掘时序不变式.相比全序日志,偏序日志可为挖掘算法提供更为准确的数据来源.但是,现有的基于偏序日志的时序不变式挖掘方法存在效率较低等问题.为此,以系统执行路径为数据来源,提出了一种基于集...  相似文献   

4.
分析Web日志数据的特点,把时态约束应用到Web日志数据挖掘中可以获得更好的效率。文章从概化的角度给出了一个基于Web日志的时态关联规则挖掘算法,并用一段用户会话事务数据为例,介绍了具体挖掘过程。  相似文献   

5.
Web使用挖掘的数据预处理   总被引:10,自引:0,他引:10  
Web使用挖掘的基本思想是将数据挖掘技术应用于Web使用数据源。在数据挖掘研究领域中,数据预处理起着至关重要的作用。Web使用挖掘的数据源最主要的是Web日志,介绍了Web日志的具体内容,针对Web日志的特点,介绍预处理过程中一些特殊情况的处理方法,并在事务的识别阶段给出了一种新的最大向前引用序列挖掘算法——剪枝算法。  相似文献   

6.
Web日志挖掘是目前Web挖掘研究的一个重点.针对Web日志挖掘中存在的问题,给出了基于数据仓库技术的Web日志挖掘方案,就数据预处理、数据立方体设计及数据挖掘技术的应用进行了较为深入的探讨.并以一个Web站点日志为例,详细阐述了Web日志数据预处理、Web日志立方体设计以及数据挖掘算法的实现过程,并实现了一个Web日志多维数据集,能够有效解决Web日志分析中的难题.  相似文献   

7.
Web使用挖掘研究及实现   总被引:4,自引:2,他引:4  
Web使用挖掘并不是简单地把数据挖掘算法应用在Web日志上,由于WWW体系结构的特殊性(包括Web站点上物理路径和逻辑路径的不一致),必须采用一种新的框架来处理挖掘过程。整个挖掘过程可以分为两大部分:ECLF日志预处理和在预处理后的数据集上进行挖掘。文中从应用的角度出发,在分析了这两个过程的具体流程后,给出了一个完整的Web使用模式挖掘解决方案和从Web日志中挖掘关联规则的系统原型。  相似文献   

8.
一种基于Web日志文件的信息挖掘方法   总被引:19,自引:1,他引:19  
数据预处理和日志挖掘算法是Web日志挖掘中的关键技术。文中根据Web访问模式的用户特征,提出了一种基于Web日志文件的信息挖掘系统的体系结构。在此基础上,分析了其数据挖掘过程和信息挖掘算法。  相似文献   

9.
近年来,Web使用挖掘成为数据挖掘领域中一个新的研究热点,Web使用挖掘是从记录了大量网络用户行为信息的Web日志中发现用户访问行为特征和潜在规律.本文结合某高校主页的真实运行数据,通过Web使用挖掘对于网站的运行日志文件进行全面的挖掘分析,分析用户对信息内容的兴趣度,并通过用户对网页的访问数据推算出各个页面受众的兴趣度高低,借此改良网站的内容和布局.  相似文献   

10.
Web使用挖掘并不是简单地把数据挖掘算法应用在Web日志上,由于WWW体系结构的特殊性(包括Web站点上物理路径和逻辑路径的不一致),必须采用一种新的框架来处理挖掘过程.整个挖掘过程可以分为两大部分:ECLF日志预处理和在预处理后的数据集上进行挖掘.文中从应用的角度出发,在分析了这两个过程的具体流程后,给出了一个完整的Web使用模式挖掘解决方案和从Web日志中挖掘关联规则的系统原型.  相似文献   

11.
基于Web日志的用户访问模式挖掘   总被引:1,自引:0,他引:1  
Web日志挖掘是数据挖掘技术在Web日志数据存储中的应用。论文介绍了Web日志挖掘,在分析发现用户访问模式方法——类Apriori算法的基础上,给出一种基于粗糙集的用户访问模式聚类方法。  相似文献   

12.
介绍Web数据挖掘的基本概念、主要过程、方法,并利用Web数据挖掘对教学平台中的网络日志进行具体分析,探讨Web数据挖掘在应用过程中存在的一些问题。  相似文献   

13.
随着互联网的飞速发展和Web应用系统的广泛应用,Web挖掘得到了人们越来越多的研究。从Web日志中发现和分析出用户的有用信息的Web日志挖掘已成为研究热点。很多基于关联规则的方法已经被应用于Web挖掘中。运用基于差别矩阵的粗糙集提取Web日志中的关联规则,并将生成的关联规则集用于用户行为的预测。实验结果说明该方法的有效性和实用性。  相似文献   

14.
随着互联网发展带来的数据爆炸,使得 Web日志的数据量也越来越大,如何从海量的 Web 日志中挖掘有价值的信息成为了目前研究的热点。本文提出基于 Hadoop 集群框架对 Web 日志进行挖掘。实验结果表明,该集群系统既可以处理海量的 web 日志,同时也能够挖掘出有价值的信息,并证实了利用sqoop在 Hive仓库和传统数据库之间数据迁移的可行性。  相似文献   

15.
在Web数据挖掘研究领域中,Web日志挖掘是一个极其重要的应用方面,而数据预处理技术在Web日志挖掘中又起到非常重要的作用.介绍Web日志文件的记录格式和Web日志挖掘预处理的一般过程,针对实际应用中遇到的问题提出一种解决方法,最后给出算法代码.  相似文献   

16.
This paper presents a comprehensive survey of web log/usage mining based on over 100 research papers. This is the first survey dedicated exclusively to web log/usage mining. The paper identifies several web log mining sub-topics including specific ones such as data cleaning, user and session identification. Each sub-topic is explained, weaknesses and strong points are discussed and possible solutions are presented. The paper describes examples of web log mining and lists some major web log mining software packages.  相似文献   

17.
设计并实现了一个Web日志挖掘系统,将Web日志挖掘应用到校园网站,对其Web服务器的日志记录进行挖掘,并将挖掘出的模式应用于智能Web站点的构建。  相似文献   

18.
Web使用挖掘是数据挖掘技术在Web信息仓库中的应用.Web使用挖掘通过挖掘Web服务器日志获取的知识来预测用户浏览行为,是Web挖掘技术中的一个重要研究方向.通常发现的知识或一些意外规则很可能是不精确的、不完备的,这就需要用软计算技术如粗糙集来解决.提出一种基于粗糙近似的聚类方法,该方法能够实现从Web访问日志中聚类Web事务.通过这种方法可以有效地挖掘Web日志记录,从而发现用户存取Web页面的模式.  相似文献   

19.
信息时代的到来,伴随着海量数据的不断出现,web挖掘为当今海量数据处理提供了强有力的技术手段。介绍了Web挖掘的概念.给出了Web挖掘的三种分类,并针对内容挖掘、结构挖掘、使用挖掘论述了Web挖掘在搜索引擎、电子商务、疾病防治等方面的应用。提出了Web挖掘存在的问题,最后展望了Web挖掘的未来努力方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号