首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
Hadoop平台在云计算中的应用   总被引:4,自引:0,他引:4  
王宏宇 《软件》2011,32(4):36-38,50
云计算是当前比较热门的新兴技术之一,受到业界的广泛关注。Hadoop是一个可实现大规模分布式计算的开源软件平台,因此被广泛应用在云计算领域。本文在对Hadoop的主要组件Hadoop分布式文件系统HDFS(Hadoop Distributed File System)和计算模型MapReduce进行深入分析和研究的基础上,建立基于Hadoop平台的云计算模型,通过实验证明该模型可以有效完成分布式数据处理任务。  相似文献   

2.
Hadoop平台在大数据处理中的应用研究   总被引:4,自引:0,他引:4  
介绍Hadoop平台的基本概念.着重分析其中的HDFS和MapReduce这两种核心技术。详细描述Hadoop集群环境的搭建过程,将Hadoop应用到一个文件发布系统中,针对不同数量级的文件在集群数不等的情况下对文件上传操作进行耗时比较。实验结果表明,数据量越大,集群节点数越多,Hadoop集群处理数据的能力就越强。  相似文献   

3.
4.
针对开源通用云平台的现实需求,简要分析云计算的体系结构和基本架构,深入研究Hadoop的关键技术,提出基于Hadoop的开源通用云平台构建模型,实例搭建并成功实现此平台的应用。实验表明,该平台具有良好的海量数据分布式计算和处理性能,能满足中小型企业或学者从事云计算应用和研发的需要。  相似文献   

5.
随着当今信息时代数据规模扩张的问题,信息数据不断呈直线增长模式.本文针对Hadoop大数据系统作了讨论与研究,再具体描绘了Hadoop及其生态系统,然后也对安装配置作了详细论述,讲述了如何使用Hadoop系统.  相似文献   

6.
如何能从海量数据中以更快速、高效、低成本的方式挖掘出有价值的信息成为如今数据挖掘技术面临的新课题。文中在研究Hadoop平台的特征和决策树的C4.5算法的过程中,决定在决策树算法领域中引入云计算思维,实现其在Ha-doop平台上的并行化,并且采用MapReduce模型来解决海量数据挖掘问题。最后用打高尔夫球的数据集对新的算法进行验证。实验结果表明对海量数据,基于Hadoop平台的决策树算法可以明显提高数据挖掘的效率,具有可观的高效性和可扩展性,在一定程度上解决了C4.5算法在处理海量数据时计算量大、构建决策树时间长的问题。  相似文献   

7.
基于MapReduce的海量数据挖掘技术研究   总被引:2,自引:0,他引:2  
MapReduce是一种编程模型,可以运行在异构环境下,编程简单,不必关心底层实现细节,用于大规模数据集的并行运算。将MapReduce应用在数据挖掘的三个算法中:朴素贝叶斯分类算法、K-modes聚类算法和ECLAT频繁项集挖掘算法。实验结果表明,在保证算法准确率的前提下,MapReduce可以有效提高海量数据挖掘工作的效率。  相似文献   

8.
文章介绍了Hadoop分布式计算架构及其核心技术HDFS(Hadoop Distributed Filesystem)、MapReduce处理大数据的原理,分析了该技术适用于海量网络安全事件分析的优势和特点。提出了一种基于Hadoop架构的网络安全事件分析方法,并进行了实例分析,验证了该方法的可行性。  相似文献   

9.
本文论述了Hadoop的起源与发展,Hadoop是一个在集群上运行大型数据库处理应用程序的开放式源代码框架。它主要包括HDFS和MapReduce两大套件,支持通过编程范例来创建并执行的应用程序,在很多大型网站上都已经得到了应用,可以说是目前最为广泛应用的开源云计算软件平台。但其发展时间较短,研究还不够深入,还有较多值得改进的地方。  相似文献   

10.
文章在深入研究了基于Hadoop平台的数据挖掘技术、框架构建和SPRINT算法,然后以此为基础探讨了数据挖掘的要求,从而构建出了以Hadoop平台为基础的数据挖掘系统,在构建大数据集的过程中使用了MYSQL系统,并分析和测试了系统的效率.经实践和测试发现,该系统在经过了算法的改进后,数据处理的时间大大减少了,因此整体的系统效率得到了提升.  相似文献   

11.
通过研究电信社交网络的个人交往圈和客户群,结合有向图和无向图,采用邻接链表,挖掘极大团,提出基于Ma pReduce的频繁交往圈算法F-Graph,不仅找到频繁交往圈和客户群中的核心用户,同时减小了算法复杂度。利于运营商做出更科学的决策,提高市场竞争力。  相似文献   

12.
传统的贝叶斯垃圾邮件过滤系统虽然具有较高的分类准确性,但是在处理邮件时存在效率低、消耗资源量大的问题。本文针对贝叶斯垃圾邮件过滤算法进行了在Hadoop Map Reduce下的研究,并对判定类别的阈值进行了优化,实验表明,本文提出的算法降低了正常邮件的误判率,提高了垃圾邮件判定的准确率和F值,同时提高了垃圾邮件过滤的效率。  相似文献   

13.
通过研究电信社交网络的个人交往圈和客户群,结合有向图和无向图,采用邻接链表,挖掘极大团,提出基于Ma-pReduce的频繁交往圈算法F-Graph,不仅找到频繁交往圈和客户群中的核心用户,同时减小了算法复杂度。利于运营商做出更科学的决策,提高市场竞争力。  相似文献   

14.
随着电信行业的迅速发展,数据源呈现多样化、多渠道的趋势,存储的数据达到PB级别,传统意义上的数据仓库已经无法应对大数据激增的挑战。Hadoop的应运而生带来新的希望,以低廉的成本,通过分布式集群架构使传统的数据仓库不能解决的非结构化数据问题得到很好的处理,深度挖掘现有支撑系统沉淀下来的信息,进行适当抽取,助力业务系统的进一步发展,提升用户的体验和感知,促进整个电信产业链的共赢。  相似文献   

15.
智能电网需要收集海量设备状态监测数据,这对数据存储与查询提出了更高的要求。为处理这些海量数据,设计并实现了基于Hadoop技术的数据存储系统,包括Hadoop集群、存储客户端和查询客户端。通过基准测试、存储结果验证和查询性能分析,验证了该系统具有分布式海量存储及高效查询的优势,适合智能电网环境下设备状态监测数据的存储。  相似文献   

16.
17.
文中针对传统并行K-means聚类算法时间复杂度比较高的问题,结合Hadoop平台以及MapReduce编程模型的优势,提出了利用Hadoop及MapReduce编程模型实现大数据量下的K-means聚类算法.其中,Map函数完成每条记录到各个质心距离的计算并标记其所属类别,Reduce函数完成质心的更新,同时计算每条数据到其所属中心点的距离,并累计求和.通过实验,验证了K-means算法部署在Hadoop集群上并行化运行,在处理大数据时,同传统的串行算法相比,确实能够降低时间复杂度,而且表现出很好的稳定性和扩展性.  相似文献   

18.
为了从大量的电子邮件中检测垃圾邮件,提出了一个基于Hadoop平台的电子邮件分类方法。不同于传统的基于内容的垃圾邮件检测,通过在Map Reduce框架上统计分析邮件收发记录,提取邮件账号的行为特征。然后使用Map Reduce框架并行的实现随机森林分类器,并基于带有行为特征的样本训练分类器和分类邮件。实验结果表明,基于Hadoop平台的电子邮件分类方法大大提高了大规模电子邮件的分类效率。  相似文献   

19.
为了从大量的电子邮件中检测垃圾邮件,提出了一个基于Hadoop平台的电子邮件分类方法。不同于传统的基于内容的垃圾邮件检测,通过在Map Reduce框架上统计分析邮件收发记录,提取邮件账号的行为特征。然后使用Map Reduce框架并行的实现随机森林分类器,并基于带有行为特征的样本训练分类器和分类邮件。实验结果表明,基于Hadoop平台的电子邮件分类方法大大提高了大规模电子邮件的分类效率。  相似文献   

20.
Hadoop云平台对海量数据的HDFS分布式存储,在应用map/reduce并行编程后,可实现数据挖掘技术的并行计算。对Hadoop体系的实际部署和运行,map/reduce的数据挖掘程序架构方法和运行过程进行了构思和实现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号