共查询到20条相似文献,搜索用时 15 毫秒
1.
Hadoop平台上Apriori算法并行化研究与实现 总被引:1,自引:0,他引:1
分析传统串行关联规则Apriori算法的计算过程以及存在的一些缺点,针对串行算法执行效率低,时间复杂度高以及传统并行计算模式不能处理节点失效,难以处理负载均衡等问题,提出基于Hadoop平台实现并行关联规则算法的设计方法,对传统关联规则Apriori算法进行了改进,并给出改进算法在Hadoop平台的MapReduce编程模型上的执行流程;在Hadoop平台上对改进后的算法进行单机测试和集群测试,实验结果证明,改进后的算法具有较高的执行效率,良好的加速比和可移植性。 相似文献
2.
3.
针对动用计划下的车辆装备备件的消耗特点,研究了车辆装备维修备件消耗量和库存控制两个预测优化问题。考虑动用计划期内车辆装备的预防性维修和修复性维修,实现定时定程维修和自然随机故障维修下装备维修备件的消耗量的预测。在此基础上,根据备件库存检查方式的特点,建立基于定期检查策略的联合补货库存控制模型,根据模型的结构特点确定决策变量界限,并利用多类种群位置更新方式改进了果蝇优化算法。仿真结果表明,改进的果蝇优化算法具有良好的求解效率,本文所提出的优化方法可为车辆维修保障资源优化提供决策依据。 相似文献
4.
5.
针对Hadoop异构集群中计算和数据资源的不一致分布所导致的调度性能较低的缺点,设计了一种基于Hadoop集群和改进Late算法的并行作业调度算法;首先,介绍了基于Hadoop框架和Map-Reduce模型的调度原理,然后,在经典的Late调度算法的基础上,对Map任务和Reduce任务的各阶段执行时间进度比例进行存储和更新,为了进一步地提高调度效率,将慢任务迁移到本地化节点或离数据资源较近的物理节点上,并给了基于改进Late算法的作业调度流程;为了验证文中方法,在Hadoop集群系统上测试,设定1个为Jobtracker主控节点和7个为TaskTracker节点,实验结果表明文中方法能实现异构集群的作业调度,且与其它方法比较,具有较低的预测误差和较高的调度效率。 相似文献
6.
随着人民生活水平的不断提高,肿瘤疾病的人数在不断增多,其中肺癌是21世纪严重危害人类健康的重大疾病。面向肺癌电子病历如此庞大的数据量时,传统Apriori算法的串行计算方式需要频繁扫描数据库,会消耗巨大的内存占用量。对此,提出一种基于改进Apriori算法的肺癌风险评估因素分析的方法。运用Hadoop平台实现并行Apriori算法的优化,应用HBase文件存储系统对海量数据分布式存储以及Map Reduce框架进行分布式计算,最后给出基于Hadoop平台和MapReduce分布式计算模型的执行流程和测试结果。实验结果表明,改进算法在处理大数据及时有较好的执行效率以及良好的可扩展性,得出了肺癌的疾病模式与致病因素之间的隐匿规则,从而验证了改进后的Apriori算法对于辅助肺癌临床实验具有重要的意义。 相似文献
7.
8.
9.
云计算为存储和分析海量数据提供了廉价高效的解决方案,云计算环境下的数据挖掘算法的研究具有重要的理论意义和应用价值。针对云计算环境下的关联规则挖掘算法展开研究,介绍了云计算的概念、Hadoop框架平台、MapReduce编程模型和传统的Apriori算法;在此基础上,以实现云计算环境下的并行化数据挖掘为目的,对Apriori算法进行了改进,给出了改进的算法在Hadoop中的MapReduce编程模型上的执行流程;通过一个简单的频繁项集挖掘实例展示了改进的算法的执行效率及实用性。 相似文献
10.
云计算环境下关联规则挖掘算法的研究 总被引:2,自引:0,他引:2
云计算为存储和分析海量数据提供了廉价高效的解决方案,云计算环境下的数据挖掘算法的研究具有重要的理论意义和应用价值.针对云计算环境下的关联规则挖掘算法展开研究,介绍了云计算的概念、Hadoop框架平台、MapRe-duce编程模型和传统的Apriori算法;在此基础上,以实现云计算环境下的并行化数据挖掘为目的,对Apriori算法进行了改进,给出了改进的算法在Hadoop中的MapReduce编程模型上的执行流程;通过一个简单的频繁项集挖掘实例展示了改进的算法的执行效率及实用性. 相似文献
11.
基于学习方式对Hadoop作业调度的改进研究 总被引:1,自引:0,他引:1
随着并行计算、分布式计算和网格计算技术的发展,云计算作为一种新的模型被提出来,发展极为迅速。Hadoop作为一个开源的云计算系统,得到了广泛的运用。作业调度是Hadoop平台的核心问题之一,通过对Hadoop中已有调度算法的了解和分析后,基于学习的方式,利用过去的节点历史记录和作业属性来不断地改进作业调度;应用了基于特征加权的朴素贝叶斯分类器算法来改进任务的分配调度,并通过实验进行了验证,结果表明它对任务分配调度执行效率有一定的提高。 相似文献
12.
针对原有的Hadoop平台仅通过CRC-32循环冗余校验保证数据存储的安全性,设计了一种基于双密钥和混沌信号的云计算安全存储策略;首先,介绍了原有的Hadoop框架下的数据存储对应的文件读写过程,并基于加密机制设计了改进的Hadoop数据存储模型,然后根据云存储数据量大和响应要求及时的特点,设计了一种基于双密钥的改进对称密钥算法,在传统的私钥的基础上加入动态公钥,并作为敏感函数的输入获得最终的密钥,从而实现明文的加密和密文的解密,最终定义了具体的基于Hadoop和改进双密钥对称加密算法的云计算安全存储算法;通过搭建Hadoop仿真实验平台进行实验,结果表明文中方法能有效地实现云计算环境下的安全存储,存储时间与其它方法相比少15%以上,具有安全性高和存储效率高的优点,具有一定的优越性。 相似文献
13.
通过对基于ALS的协同过滤算法及分布式Hadoop平台的相关特性进行深入研究,将基于ALS的协同过滤算法在Hadoop上进行并行化,解决了传统的基于ALS的协同过滤算法在大规模数据集上的运算问题.经过实验验证,在Hadoop平台上实现的并行化的ALS协同过滤算法不仅能够保证实验结果的准确性,而且与单节点上实现的算法相比,运算效率显著提高. 相似文献
14.
针对Hadoop平台数据被任务调度感知,进行本地化处理的新特征,探索Haoop平台中Map任务数据访问监控机制。提出Hadoop平台数据访问监控不仅应服务于数据存取效率的提升,还应服务于Map/Reduce并行作业执行效率提升的基本思想,并增加对并行执行多Map任务数据访问开销均衡性的监控。基于该思想,定义Hadoop平台数据访问监控的粒度和监控信息组成;依托Hadoop平台现有结构,设计了基于master-slave的监控体系结构,并给出了监控主要功能模块的具体实现技术及测试结果。 相似文献
15.
16.
目前,基于 Hadoop视频处理的传统方法都是通过MapReduce从本地文件系统读取数据,利用帧字节流进行MapReduce间数据传输,这会产生大量的系统 IO,造成系统资源浪费。针对此问题,提出一种基于Hadoop平台的视频处理方法,实现Hadoop支持的视频类型扩展,设计了MapReduce 相关视频数据处理接口,使 Hadoop 可以更快速处理视频文件。通过在多台计算机组成的集群实验表明,该方法在运行时间上比传统方法缩短10%,IO读写量减少50%以上,提升了Hadoop视频文件的处理效率。 相似文献
17.
18.
Hadoop云平台下的基于用户协同过滤算法研究 总被引:1,自引:0,他引:1
随着互联网的高速发展,海量新闻的个性化推荐成为一个重要课题,针对海量新闻的个性化推荐算法进行研究,以MapReduce的并行方法设计了基于Hadoop云平台下的协同过滤算法,利用MapReduce的并行方法,将传统的协同过滤算法并行化,并详细说明了并行化步骤和实现细节;最后用实验结果验证了改进的并行化的协同过滤算法在运行速度和执行效率方面有明显的提高,更适合处理大数据. 相似文献
19.
多元时间序列具有高噪声、非线性和海量的特点,但传统基于距离的降维方法难以有效的应对噪声带来的子空间偏移和数据的爆炸式增长。在基于角度优化的全局嵌入算法和共同核主成分分析方法的基础上,提出了一种基于角度优化的共同核主成分分析方法,并将该方法依托Hadoop平台进行了并行化改进,有效解决了噪音带来的子空间偏移和海量数据带来的巨大运算量问题。通过实验,对算法的有效性、运行效率及伸缩性进行了验证,结果表明提出的方法可以有效地对含有噪声的多元时间序列进行降维;基于Hadoop平台并行后的方法具有良好的运行效率和伸缩性。 相似文献
20.
邵叶秦 《数字社区&智能家居》2014,(34):8119-8121
为了从大量的电子邮件中检测垃圾邮件,提出了一个基于Hadoop平台的电子邮件分类方法。不同于传统的基于内容的垃圾邮件检测,通过在Map Reduce框架上统计分析邮件收发记录,提取邮件账号的行为特征。然后使用Map Reduce框架并行的实现随机森林分类器,并基于带有行为特征的样本训练分类器和分类邮件。实验结果表明,基于Hadoop平台的电子邮件分类方法大大提高了大规模电子邮件的分类效率。 相似文献