共查询到19条相似文献,搜索用时 62 毫秒
1.
Apriori算法是一种经典的数据关联规则挖掘算法,本文借力云计算环境,根据MapReduce模型并行运行实现的特点,对Apriori算法进行优化,并行化改进后的MR-Apriori算法大大降低了时间消耗,其较强的扩展能力能更好地运用于大规模数据分析、处理和挖掘的需要. 相似文献
2.
云计算中MapReduce技术研究 总被引:1,自引:0,他引:1
云计算是由并行计算、分布式计算和网格计算发展而来,MapReduce是云计算的核心技术之一,它为并行系统的数据处理提供了一个简单、优雅的解决方案,其主要目的是为了大型集群的系统能在大数据集上进行并行工作,并用于大规模数据的并行运算.首先介绍了云计算与MapReduce的相关知识,然后对目前MapReduce的国内外研究状况进行了介绍与评析,并总结了目前MapReduce模型的相关研究问题,最后进行总结并展望了未来发展的趋势. 相似文献
3.
4.
基于MapReduce的故障诊断方法将MapReduce运用到故障诊断中,有效解决了故障诊断过程中大数据的处理问题,大大提高了故障诊断的效率。本文对故障诊断技术的发展进行了阐述,针对故障诊断方法的不足阐述了将MapReduce运用其中的优势。将诊断算法分为迭代和非迭代,使用不同的MapReduce模型分别实现。 相似文献
5.
本文结合电台广播前后台信息数据处理的实际,利用Hadoop的MapReduce开源实现平台,研究基于MapReduce的BAM神经网络的双向联想模型,提出基于BAM双向记忆联想神经网络的MapReduce改进并行遗传算法,解决了BAM神经网络的权值矩阵训练过程大规模变量处理问题.实验证明该方法较串行BAM神经网络方法更高效. 相似文献
6.
7.
LeaderRank与PageRank算法比较研究 总被引:1,自引:0,他引:1
确定复杂网络中节点的影响力对于网络上信息传播及网络营销等具有重要的价值。Page Rank算法和LeaderRank算法是两种著名的对复杂网络中节点进行重要性排序的算法。分别使用这两种算法对斯洛伐克最流行的在线社会网络Pokec中的用户进行了重要性排序。与度中心性指标排序结果进行对比,分析了这种排序结果出现的原因。并使用经典的疾病传播模型SIR模型对这两种算法进行了信息传播的仿真模拟,仿真结果显示LeaderRank算法用于在线社会网络节点重要性排序效果更好。 相似文献
8.
互联网的发展使得计算密集型的任务正在逐渐走向分布式和云计算。文中对Hadoop项目中的MapReduce和HDFS进行了研究,采用HDFS作为底层分布式文件系统,MapReduce作为编程框架来实现哈希算法。通过对多个节点中的测试结果的分析表明,在Hadoop上运行哈希函数的任务,能够起到在多台计算机的群集中分摊负载的效果,并且有效地减少了任务的总时间开销。以Hadoop为基础的云计算平台具有良好的可靠性和可扩展性,对于哈希算法在Hadoop平台上的实现和测试,为将来密钥恢复等系统的研究和搭建提供了良好的基础。 相似文献
9.
10.
MapReduce调度算法包括默认的FIFO调度策略、公平调度策略、计算能力调度策略,在试题库组卷过程中采用的是分阶段的任务方式来实现的,根据任务优化MapReduce算法是本文要解决的问题。提出分级调度算法,把现有的调度策略在分级任务基础之上分为多级模式,不断趋近最终结果,根据任务的不同阶段进行分级分阶调度符合不同阶段不同需求。实验表明,多阶段调度算法能够满足试题库组卷任务的检索需求。 相似文献
11.
由于计算机内存资源限制,分类器组合的有效性及最优性选择是机器学习领域的主要研究内容。经典的集成分类算法在处理小数据集时,拥有较高的分类准确性,但面对大量数据时,由于多基分类器学习、分类共用1台计算机资源,导致运算效率较低,这显然不适合处理当今的海量数据。针对已有集成分类算法只适合作用于小规模数据集的缺点,剖析了集成分类器的特性,采用基于聚合方式的集成分类器和云计算的MapReduce技术设计了并行集成分类算法(EMapReduce),达到并行处理大规模数据的目的。并在Amazon计算集群上模拟实验,实验结果表明该算法具有一定的高效性和可行性。 相似文献
12.
针对传统的Apriori算法在执行过程中存在着需要扫描多次数据库,执行效率低和需要大量的内存来存储候选项集的缺点,有人已经提出了引入索引结构的Apriori改进算法,但是该算法还是传统的Apriori算法都不适合应用到云计算平台。因此,在本文中我们提出了将引入索引结构的Apriori算法的设计思想应用到Apriori算法MapReduce并行化改进的过程中。该算法的核心思想:将数据进行MapReduce并行化分块,并在每个分块中采用索引的执行模式。该算法结合了索引结构的优点和算法并行化的优点,不仅大大提高了算法的执行速度,而且实现了在云环境下的应用。 相似文献
13.
基于Hadoop平台下的Canopy-Kmeans高效算法 总被引:3,自引:0,他引:3
介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法。针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用“最小最大原则”对该算法进行改进,避免了Cannopy选取的盲目性。采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景。实验结果表明,此方法相对于传统Kmeans和Canopy算法有着更高的准确率和稳定性。 相似文献
14.
Hadoop是一个免费、可靠、高效、可扩展的开源云平台,允许在分布式集群上处理大数据的软件框架。本文以Hadoop为基础,详细介绍了虚拟机VMware、JDK、CentOS、Hadoop等技术。在伪分布式环境下搭建虚拟云平台,经过测试,本系统能正常运行MapReduce化的分布式程序,本文还针对用户权限、路径配置和使用SSH服务程序等问题进行了详细的阐述,为基于Hadoop的云平台研究和应用程序开发提供了基础。 相似文献
15.
16.
Offiine network traffic analysis is very important for an in-depth study upon the understanding of network conditions and characteristics, such as user behavior and abnormal traffic. With the rapid growth of the amount of information on the Intemet, the traditional stand-alone analysis tools face great challenges in storage capacity and computing efficiency, but which is the advantages for Hadoop cluster. In this paper, we designed an offiine traffic analysis system based on Hadoop (OTASH), and proposed a MapReduce-based algorithm for TopN user statistics. In addition, we studied the computing performance and failure tolerance in OTASH. From the experiments we drew the conclusion that OTASH is suitable for handling large amounts of flow data, and are competent to calculate in the case of single node failure. 相似文献
17.
18.
Zhendong Bei Zhibin Yu Huiling Zhang Chengzhong Xu Shenzhong Feng Zhenjiang Dong Hengsheng Zhang 《中兴通讯技术(英文版)》2013,(2):38-44
Map Reduce is a programming model for processing large data sets,and Hadoop is the most popular open-source implementation of MapReduce.To achieve high performance,up to 190 Hadoop configuration parameters must be manually tunned.This is not only time-consuming but also error-pron.In this paper,we propose a new performance model based on random forest,a recently developed machine-learning algorithm.The model,called RFMS,is used to predict the performance of a Hadoop system according to the system’s configuration parameters.RFMS is created from 2000 distinct fine-grained performance observations with different Hadoop configurations.We test RFMS against the measured performance of representative workloads from the Hadoop Micro-benchmark suite.The results show that the prediction accuracy of RFMS achieves 95% on average and up to 99%.This new,highly accurate prediction model can be used to automatically optimize the performance of Hadoop systems. 相似文献