期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李彬刘莉莉《计算机工程与应用》2012,48(22):95-98

针对单一CPU节点的Web数据挖掘系统在挖掘Web海量数据源时存在的计算瓶颈问题,利用云计算的分布式处理和虚拟化技术优势以及蚁群算法并行性的优点,设计一种基于Map/Reduce架构的Web日志挖掘算法。为进一步验证该算法的高效性,通过搭建Hadoop平台,利用该算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,充分利用了集群系统的分布式计算能力处理大量的Web日志文件,可以大大地提高Web数据挖掘的效率。相似文献

2.

Hadoop平台下的并行Web日志挖掘算法

下载免费PDF全文

周诗慧殷建《计算机工程》2013,39(6)

当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈.针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件.实验结果表明,该算法的加速比能随着数据集的增大而提高,其执行效率优于串行FP-growth算法. 相似文献

3.

基于Apriori算法的Web日志挖掘探究

李志《电子制作．电脑维护与应用》2013,(16)

本文对日志挖掘过程中的数据预处理和模式发现进行了深入的讨论，总结了用户的频繁访问路径，得到了比较理想的结果。相似文献

4.

基于Apriori算法的Web日志挖掘研究

陈晓春《福建电脑》2014,(7):80-81

本文在对Web日志挖掘理论和Apriori算法研究的基础上,设计和实现了Web访问日志挖掘系统,并将该挖掘系统应用于学院网络中心的"招生信息网"上,对Web服务器的日志记录进行了挖掘实验,找出用户的频繁访问路径,得到较为理想的结果。相似文献

5.

Web日志挖掘探析 总被引：1，自引：0，他引：1

习慧丹李泽平《计算机与数字工程》2009,37(7):17-19,42

Web日志挖掘是数据挖掘领域中一个重要研究方向。文章对Web日志挖掘相关问题进行了探讨,分析了Web日志挖掘模式发现及其相关算法的不足,阐述了Web日志挖掘模式发现阶段增量更新的重要性。相似文献

6.

基于Web日志的用户访问模式挖掘 总被引：1，自引：0，他引：1

王新马万青潘文林《计算机工程与应用》2006,42(21):156-158

Web日志挖掘是数据挖掘技术在Web日志数据存储中的应用。论文介绍了Web日志挖掘,在分析发现用户访问模式方法——类Apriori算法的基础上,给出一种基于粗糙集的用户访问模式聚类方法。相似文献

7.

基于Hadoop分布式文件系统的分析与研究

王跃《计算机光盘软件与应用》2011,(9)

通过对HDFS(Hadoop的一个分布式文件系统)以及Map/Reduce数据驱编程模型和HBase分布式的、列存储数据库和Hive分布式数据仓库的分析.可以得到Hadoop的优势在于能以批处理模式处理PB级以上的数据集,适合做离线的数据分析,不适合实时响应需求,如股票系统.客户端是打包成JAR文件形式,运行于Hadoop命令行界面,可以定制执行策略,当数据到来的时候运行Map/Reduce程序,可以手动执行也可以定时执行.可以用Map/Reduce作为BI等海量数据分析平台的分布式数据处理引擎,HDFS作为底层存储文件系统. 相似文献

8.

结合网站内容和结构进行的Web日志挖掘 总被引：7，自引：1，他引：7

江宝林申展张川葛家翔胡运发《计算机工程》2004,30(16):30-32

提出一种以聚类为基础的Web日志挖掘方法：从Web日志事务、Web站点内容和Web站点结构3个不同方面来聚类页面集合,并通过将用户的访问记录和页面聚集进行匹配和相关度计算,来预测用户感兴趣的页面。相似文献

9.

Web日志挖掘中GITC算法的改进

下载免费PDF全文

郭维《计算机工程》2008,34(4):60-62

GITC算法和Tree-DM算法都是基于交集关系的挖掘算法。文章分析这2个算法的性能特点,提出一种GITC算法的改进算法：GI算法。该算法利用适当的数据结构来保存支持数信息,省去了扫描原数据库来统计支持数耗费的大量时间,并解决了Tree-DM算法在二次求交、冗余求交等方面存在的问题。经过实验验证,较GITC算法而言,GI算法可以更高效地挖掘用户频繁访问模式。相似文献

10.

基于Map/Reduce的改进选择算法在云计算的Web数据挖掘中的研究

方少卿周剑张明新《计算机应用研究》2013,30(2):377-379

针对目前在搜索方面的数据量大、搜索延迟的特点,提出了基于云计算的Web挖掘的搜索模型.采用提出的基于Map/Reduce模型的改进型算法,通过仿真实验验证了该算法的可行性,在一定程度上减少了搜索的代价,提高了搜索效率. 相似文献

11.

基于Hadoop的云计算基础架构分析

李响《计算机时代》2011,(11):4-6

Hadoop是一个可实现大规模分布式计算的开源软件平台,已经被广泛应用在云计算领域.从Hadoop分布式文件系统的整体架构入手,描述了其分布式数据存储、分布式任务分配、分布式并行计算和分布式数据库四方面的核心内容,并论述了HDFS的工作原理、文件操作流程及Map/Reduce工作原理和计算过程.目的是使开发人员能深入地... 相似文献

12.

基于Hadoop的云计算模型 总被引：4，自引：0，他引：4

林清滢《现代计算机》2010,(7):114-116,121

Hadoop是一个更容易开发和并行处理大规模数据的分布式计算平台,也是目前最为广泛应用的开源云计算软件平台。在对Hadoop平台上的分布式文件系统HDFS和计算模型Map／Reduce进行深入分析和研究的基础上,给出基于Hadoop的云计算模型和实现步骤。相似文献

13.

基于Hadoop的句群相似度计算 总被引：2，自引：1，他引：1

宁可为王炜李园伟《计算机系统应用》2010,19(12):59-63

介绍了Hadoop开源框架、Map／Reduce编程模型以及语句相似度计算原理,利用Hadoop框架下的Map／Reduce编程模型实现了句群相似度并行计算方法。通过实验验证了该算法的稳定性和处理大量数据的可行性。相似文献

14.

Hadoop平台下的分形图像压缩编码

李伟《测控技术》2014,33(4):50-53

借助Hadoop平台实现了分形图像压缩编码,并将其应用于云渲染中对渲染后的图像进行压缩并传至用户阶段。采用4台PC机搭建Hadoop平台,并在此基础上进行分形图像压缩编码,实验结果表明,采用4台PC机的Hadoop平台并行压缩时间不到单台PC机压缩时间的30%,证实了该方案的现实有效性。采用分形压缩编码将云渲染后的图像传给用户具有压缩比大、传输时间短、解压缩快等特点,对改善云渲染用户体验具有重要意义。相似文献

15.

基于Map Reduce的序列模式挖掘算法

下载免费PDF全文

刘栋尉永清薛文娟《计算机工程》2012,38(15):43-45

传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR-PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间。采用Reduce函数对中间结果进行规约,得到全局序列模式。在Hadoop集群上的实验结果表明,MR-PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性。相似文献

16.

Hadoop下的分布式搜索引擎 总被引：1，自引：0，他引：1

胡彧封俊《计算机系统应用》2010,19(7):224-228

分析了Hadoop系统结构,提出一种改进的PageRank算法,使用Map／Reduce模式设计系统模块。实验证明,使用Hadoop框架能够设计出具有高性能、高可靠性和易扩展性的分布式搜索引擎。相似文献

17.

Web日志挖掘中路径补充的影响评

蔡卫欣冯振宇杨剑《计算机系统应用》2011,20(3):226-229

Web用户访问多是匿名访问,Web日志挖掘的主要目标是从Web访问记录中抽取用户行为模式,通过分析挖掘结果理解用户的行为,从而改进站点的结构.Web日志挖掘第一步是进行数据预处理.数据预处理是Web页面分析中最耗时的阶段,首先研究了数据预处理的过程,包括数据清洗、用户识别、会话识别、路径补充.提出了一种路径补充的算法,... 相似文献

18.

Hadoop平台数据访问监控机制研究

王玉凤梁毅金翊李光瑞《计算机工程与应用》2014,50(22):43-49

针对Hadoop平台数据被任务调度感知,进行本地化处理的新特征,探索Haoop平台中Map任务数据访问监控机制。提出Hadoop平台数据访问监控不仅应服务于数据存取效率的提升,还应服务于Map/Reduce并行作业执行效率提升的基本思想,并增加对并行执行多Map任务数据访问开销均衡性的监控。基于该思想,定义Hadoop平台数据访问监控的粒度和监控信息组成;依托Hadoop平台现有结构,设计了基于master-slave的监控体系结构,并给出了监控主要功能模块的具体实现技术及测试结果。相似文献

19.

Hadoop下的分布式搜索引擎① 总被引：1，自引：0，他引：1

胡彧封俊《计算机系统应用》2010,19(5):224-228

分析了Hadoop系统结构,提出一种改进的PageRank算法,使用Map/Reduce模式设计系统模块。实验证明,使用Hadoop框架能够设计出具有高性能、高可靠性和易扩展性的分布式搜索引擎。相似文献