首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
基于Hadoop的Web日志挖掘   总被引:3,自引:0,他引:3       下载免费PDF全文
程苗  陈华平 《计算机工程》2011,37(11):37-39
基于单一节点的数据挖掘系统在挖掘Web海量数据源时存在计算瓶颈,针对该问题,利用云计算的分布式处理和虚拟化技术的优势,设计一种基于云计算的Hadoop集群框架的Web日志分析平台,提出一种能够在云计算环境中进行分布式处理的混合算法。为进一步验证该平台的高效性,在该平台上利用改进后的算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,在集群中运用分布式算法处理大量的Web日志文件,可以明显提高Web数据挖掘的效率。  相似文献   

2.
李云  张永平 《福建电脑》2011,27(2):104-105,71
蚁群算法是优化领域中新出现的一种启发式仿生类智能进化算法.利用WEB日志挖掘来解决用户如何访问网站,而采用传统的WEB日志挖掘方法很难准确地跟踪到用户的访问兴趣.本文将蚁群算法应用于WEB日志挖掘,从WEB日志中动态挖掘用户的访问模式.  相似文献   

3.
针对目前在搜索方面的数据量大、搜索延迟的特点,提出了基于云计算的Web挖掘的搜索模型.采用提出的基于Map/Reduce模型的改进型算法,通过仿真实验验证了该算法的可行性,在一定程度上减少了搜索的代价,提高了搜索效率.  相似文献   

4.
Web日志的高效多能挖掘算法   总被引:76,自引:0,他引:76  
通过对Web服务器日志文件和客户交易数据进行分析,可以发现相似客户群体、相关Web页面和频繁访问路径,提出了一种新颖的Web日志挖掘算法。在该算法中,首先以Web站点URL为行、以UserID为列建立URL-UserID关联矩阵、元素值为用户的访问次数,然后,在列向量进行相似性分析得到相似客户群体,对行向量进行相似性度量获得相关Web页面,对后者再进一步还可以发现频繁访问路径。实验结果表明了算法的有效性。  相似文献   

5.
一种基于Web日志文件的信息挖掘方法   总被引:20,自引:1,他引:19  
数据预处理和日志挖掘算法是Web日志挖掘中的关键技术。文中根据Web访问模式的用户特征,提出了一种基于Web日志文件的信息挖掘系统的体系结构。在此基础上,分析了其数据挖掘过程和信息挖掘算法。  相似文献   

6.
陈荣旺  郭红 《福建电脑》2007,(6):19-19,16
数据预处理是Web日志挖掘中的关键和重要一步,文章分析了Web日志挖掘的数据预处理过程,并给出基于日志参引页的用户识别、路径补全算法和基于一种时间窗口模型的会话划分算法。  相似文献   

7.
互联网上的数据规模大、种类多、变化快,而且越来越复杂。通过数据挖掘和分析,可以获取有潜在价值的信息。但是,传统的数据挖掘系统在数据存储和计算性能上存在瓶颈。通过使用云计算技术,设计了一个基于Hadoop架构的网页日志数据挖掘和分析平台来解决这个问题。同时,为了提高挖掘效率,为大规模网页日志挖掘实现了Apriori算法的并行化,并使用该平台验证了该行算法的效率。  相似文献   

8.
互联网上的数据规模大、种类多、变化快,而且越来越复杂。通过数据挖掘和分析,可以获取有潜在价值的信息。但是,传统的数据挖掘系统在数据存储和计算性能上存在瓶颈。通过使用云计算技术,设计了一个基于Hadoop架构的网页日志数据挖掘和分析平台来解决这个问题。同时,为了提高挖掘效率,为大规模网页日志挖掘实现了Apriori算法的并行化,并使用该平台验证了该行算法的效率。  相似文献   

9.
本文对日志挖掘过程中的数据预处理和模式发现进行了深入的讨论,总结了用户的频繁访问路径,得到了比较理想的结果。  相似文献   

10.
本文在对Web日志挖掘理论和Apriori算法研究的基础上,设计和实现了Web访问日志挖掘系统,并将该挖掘系统应用于学院网络中心的"招生信息网"上,对Web服务器的日志记录进行了挖掘实验,找出用户的频繁访问路径,得到较为理想的结果。  相似文献   

11.
基于MapReduce的海量数据挖掘技术研究   总被引:2,自引:0,他引:2  
MapReduce是一种编程模型,可以运行在异构环境下,编程简单,不必关心底层实现细节,用于大规模数据集的并行运算。将MapReduce应用在数据挖掘的三个算法中:朴素贝叶斯分类算法、K-modes聚类算法和ECLAT频繁项集挖掘算法。实验结果表明,在保证算法准确率的前提下,MapReduce可以有效提高海量数据挖掘工作的效率。  相似文献   

12.
量子蚁群算法是在蚁群算法的基础上结合量子计算而提出的,该算法具有较好的全局寻优能力和种群多样性。应用MapReduce的key/value编程模型,将量子蚁群算法并行化,提出了基于MapReduce的量子蚁群算法(MQACA),并将其部署到Hadoop云计算平台上运行。对0-1背包问题的测试结果证明,随着数据规模的扩大和并行程度的提高,MQACA具有良好的加速比和并行效率。  相似文献   

13.
传统的蚁群算法在收敛速度上较慢且容易导致局部最优解,本文提出一种基于双模式的混合蚁群算法,即在算法的每次迭代中有比例地选择其中一种模式来获得蚂蚁的最优路径,可以实现在相对较少的时间内寻找出最优路径,且避免陷入局部最优解。由于蚁群算法天然具有并行化的特性,本文将混合蚁群算法与MapReduce结合,大大缩短了算法的执行时间。实验结果表明,基于MapReduce的混合蚁群算法可以实现在相对较少的时间内寻找出较优的路径。  相似文献   

14.
梁秋实  吴一雷  封磊 《计算机应用》2012,32(11):2989-2993
在微博搜索领域,单纯依赖于粉丝数量的搜索排名使刷粉行为有了可乘之机,通过将用户看作网页,将用户间的“关注”关系看作网页间的链接关系,使PageRank关于网页等级的基本思想融入到微博用户搜索,并引入一个状态转移矩阵和一个自动迭代的MapReduce工作流将计算过程并行化,进而提出一种基于MapReduce的微博用户搜索排名算法。在Hadoop平台上对该算法进行了实验分析,结果表明,该算法避免了用户排名单纯与其粉丝数量相关,使那些更具“重要性”的用户在搜索结果中的排名获得提升,提高了搜索结果的相关性和质量。  相似文献   

15.
在对海量数据进行聚类的过程中,传统的串行模式局限性越来越明显,难以在有效时间内得出满意结果的问题,本文提出一种基于Hadoop平台下MapReduce框架的并行聚类模型。理论和实验结果证明该模型具有接近线速的加速比,针对海量数据具有较高效率。  相似文献   

16.
Hadoop是一个可实现大规模分布式计算的开源软件平台,已经被广泛应用在云计算领域.从Hadoop分布式文件系统的整体架构入手,描述了其分布式数据存储、分布式任务分配、分布式并行计算和分布式数据库四方面的核心内容,并论述了HDFS的工作原理、文件操作流程及Map/Reduce工作原理和计算过程.目的是使开发人员能深入地...  相似文献   

17.
传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR-PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间。采用Reduce函数对中间结果进行规约,得到全局序列模式。在Hadoop集群上的实验结果表明,MR-PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性。  相似文献   

18.
为了解决传统K-Medoids聚类算法在处理海量数据信息时所面临的内存容量和CPU处理速度的瓶颈问题,在深入研究K-Medoids算法的基础之上,提出了基于MapReduce编程模型的K-Medoids并行化算法思想。Map函数部分的主要任务是计算每个数据对象到簇类中心点的距离并(重新)分配其所属的聚类簇;Reduce函数部分的主要任务是根据Map部分得到的中间结果,计算出新簇类的中心点,然后作为中心点集给下一次MapReduce过程使用。实验结果表明:运行在Hadoop集群上的基于MapReduce的K-Medoids并行化算法具有较好的聚类结果和可扩展性,对于较大的数据集,该算法得到的加速比更接近于线性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号