共查询到19条相似文献,搜索用时 62 毫秒
1.
针对单一CPU节点的Web数据挖掘系统在挖掘Web海量数据源时存在的计算瓶颈问题,利用云计算的分布式处理和虚拟化技术优势以及蚁群算法并行性的优点,设计一种基于Map/Reduce架构的Web日志挖掘算法。为进一步验证该算法的高效性,通过搭建Hadoop平台,利用该算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,充分利用了集群系统的分布式计算能力处理大量的Web日志文件,可以大大地提高Web数据挖掘的效率。 相似文献
2.
3.
本文在对Web日志挖掘理论和Apriori算法研究的基础上,设计和实现了Web访问日志挖掘系统,并将该挖掘系统应用于学院网络中心的"招生信息网"上,对Web服务器的日志记录进行了挖掘实验,找出用户的频繁访问路径,得到较为理想的结果。 相似文献
4.
5.
6.
基于Web日志的用户访问模式挖掘 总被引:1,自引:0,他引:1
Web日志挖掘是数据挖掘技术在Web日志数据存储中的应用。论文介绍了Web日志挖掘,在分析发现用户访问模式方法——类Apriori算法的基础上,给出一种基于粗糙集的用户访问模式聚类方法。 相似文献
7.
王跃 《计算机光盘软件与应用》2011,(9)
通过对HDFS(Hadoop的一个分布式文件系统)以及Map/Reduce数据驱编程模型和HBase分布式的、列存储数据库和Hive分布式数据仓库的分析.可以得到Hadoop的优势在于能以批处理模式处理PB级以上的数据集,适合做离线的数据分析,不适合实时响应需求,如股票系统.客户端是打包成JAR文件形式,运行于Hadoop命令行界面,可以定制执行策略,当数据到来的时候运行Map/Reduce程序,可以手动执行也可以定时执行.可以用Map/Reduce作为BI等海量数据分析平台的分布式数据处理引擎,HDFS作为底层存储文件系统. 相似文献
8.
GITC算法和Tree-DM算法都是基于交集关系的挖掘算法。文章分析这2个算法的性能特点,提出一种GITC算法的改进算法:GI算法。该算法利用适当的数据结构来保存支持数信息,省去了扫描原数据库来统计支持数耗费的大量时间,并解决了Tree-DM算法在二次求交、冗余求交等方面存在的问题。经过实验验证,较GITC算法而言,GI算法可以更高效地挖掘用户频繁访问模式。 相似文献
9.
10.
本文介绍了Web日志挖掘的概念和流程,提出了客户频繁访问路径和页面兴趣度挖掘算法,并给出了个性化推荐系统的构建思路,旨在为电子商务网站经营者改善网站结构提供帮助. 相似文献
11.
Hadoop是一个可实现大规模分布式计算的开源软件平台,已经被广泛应用在云计算领域.从Hadoop分布式文件系统的整体架构入手,描述了其分布式数据存储、分布式任务分配、分布式并行计算和分布式数据库四方面的核心内容,并论述了HDFS的工作原理、文件操作流程及Map/Reduce工作原理和计算过程.目的是使开发人员能深入地... 相似文献
12.
基于Hadoop的云计算模型 总被引:4,自引:0,他引:4
Hadoop是一个更容易开发和并行处理大规模数据的分布式计算平台,也是目前最为广泛应用的开源云计算软件平台。在对Hadoop平台上的分布式文件系统HDFS和计算模型Map/Reduce进行深入分析和研究的基础上,给出基于Hadoop的云计算模型和实现步骤。 相似文献
13.
14.
借助Hadoop平台实现了分形图像压缩编码,并将其应用于云渲染中对渲染后的图像进行压缩并传至用户阶段。采用4台PC机搭建Hadoop平台,并在此基础上进行分形图像压缩编码,实验结果表明,采用4台PC机的Hadoop平台并行压缩时间不到单台PC机压缩时间的30%,证实了该方案的现实有效性。采用分形压缩编码将云渲染后的图像传给用户具有压缩比大、传输时间短、解压缩快等特点,对改善云渲染用户体验具有重要意义。 相似文献
15.
传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR-PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间。采用Reduce函数对中间结果进行规约,得到全局序列模式。在Hadoop集群上的实验结果表明,MR-PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性。 相似文献
16.
Hadoop下的分布式搜索引擎 总被引:1,自引:0,他引:1
分析了Hadoop系统结构,提出一种改进的PageRank算法,使用Map/Reduce模式设计系统模块。实验证明,使用Hadoop框架能够设计出具有高性能、高可靠性和易扩展性的分布式搜索引擎。 相似文献
17.
18.
针对Hadoop平台数据被任务调度感知,进行本地化处理的新特征,探索Haoop平台中Map任务数据访问监控机制。提出Hadoop平台数据访问监控不仅应服务于数据存取效率的提升,还应服务于Map/Reduce并行作业执行效率提升的基本思想,并增加对并行执行多Map任务数据访问开销均衡性的监控。基于该思想,定义Hadoop平台数据访问监控的粒度和监控信息组成;依托Hadoop平台现有结构,设计了基于master-slave的监控体系结构,并给出了监控主要功能模块的具体实现技术及测试结果。 相似文献
19.
Hadoop下的分布式搜索引擎① 总被引:1,自引:0,他引:1
分析了Hadoop系统结构,提出一种改进的PageRank算法,使用Map/Reduce模式设计系统模块。实验证明,使用Hadoop框架能够设计出具有高性能、高可靠性和易扩展性的分布式搜索引擎。 相似文献