首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
Hadoop平台上Apriori算法并行化研究与实现   总被引:1,自引:0,他引:1  
分析传统串行关联规则Apriori算法的计算过程以及存在的一些缺点,针对串行算法执行效率低,时间复杂度高以及传统并行计算模式不能处理节点失效,难以处理负载均衡等问题,提出基于Hadoop平台实现并行关联规则算法的设计方法,对传统关联规则Apriori算法进行了改进,并给出改进算法在Hadoop平台的MapReduce编程模型上的执行流程;在Hadoop平台上对改进后的算法进行单机测试和集群测试,实验结果证明,改进后的算法具有较高的执行效率,良好的加速比和可移植性。  相似文献   

2.
针对经典K-means聚类算法存在易陷入局部最优解的缺点,提出并实现了一种基于Hadoop的改进型遗传聚类算法.该算法利用遗传算法具有全局性和并行性的特点去处理K-means聚类算法易陷入局部最优的缺点,在此基础上对遗传算法进行改进,然后将改进后的遗传算法与K-means算法相结合,为提高算法执行效率,将其基于Hadoop平台进行了实现.通过实验将该改进方法与经典聚类算法进行对比分析,实验结果表明该方法在聚类准确性和聚类效率上均有较大的提高.  相似文献   

3.
针对动用计划下的车辆装备备件的消耗特点,研究了车辆装备维修备件消耗量和库存控制两个预测优化问题。考虑动用计划期内车辆装备的预防性维修和修复性维修,实现定时定程维修和自然随机故障维修下装备维修备件的消耗量的预测。在此基础上,根据备件库存检查方式的特点,建立基于定期检查策略的联合补货库存控制模型,根据模型的结构特点确定决策变量界限,并利用多类种群位置更新方式改进了果蝇优化算法。仿真结果表明,改进的果蝇优化算法具有良好的求解效率,本文所提出的优化方法可为车辆维修保障资源优化提供决策依据。  相似文献   

4.
备件消耗预测仿真方法研究   总被引:1,自引:0,他引:1  
李瑾  宋建社  王正元  朱昱 《计算机仿真》2006,23(12):306-309
准确的备件消耗预测是合理有效地进行备件保障各项工作的基础。在综合分析考虑备件消耗影响因素的基础上,对部件的使用寿命过程进行了仿真,建立了备件消耗仿真预测模型,实例计算了未来一定时间段内的备件消耗量,并与解析法、移动算术平均模型、灰色区间预测模型、平稳过程模型和最小二乘法等方法的预测结果进行了分析比较。实验结果表明:使用仿真方法预测备件消耗量能更真实地反映备件消耗实际情况,并且能够为备件的需求供应提供更大限度的保障,提高备件保障率。  相似文献   

5.
针对Hadoop异构集群中计算和数据资源的不一致分布所导致的调度性能较低的缺点,设计了一种基于Hadoop集群和改进Late算法的并行作业调度算法;首先,介绍了基于Hadoop框架和Map-Reduce模型的调度原理,然后,在经典的Late调度算法的基础上,对Map任务和Reduce任务的各阶段执行时间进度比例进行存储和更新,为了进一步地提高调度效率,将慢任务迁移到本地化节点或离数据资源较近的物理节点上,并给了基于改进Late算法的作业调度流程;为了验证文中方法,在Hadoop集群系统上测试,设定1个为Jobtracker主控节点和7个为TaskTracker节点,实验结果表明文中方法能实现异构集群的作业调度,且与其它方法比较,具有较低的预测误差和较高的调度效率。  相似文献   

6.
随着人民生活水平的不断提高,肿瘤疾病的人数在不断增多,其中肺癌是21世纪严重危害人类健康的重大疾病。面向肺癌电子病历如此庞大的数据量时,传统Apriori算法的串行计算方式需要频繁扫描数据库,会消耗巨大的内存占用量。对此,提出一种基于改进Apriori算法的肺癌风险评估因素分析的方法。运用Hadoop平台实现并行Apriori算法的优化,应用HBase文件存储系统对海量数据分布式存储以及Map Reduce框架进行分布式计算,最后给出基于Hadoop平台和MapReduce分布式计算模型的执行流程和测试结果。实验结果表明,改进算法在处理大数据及时有较好的执行效率以及良好的可扩展性,得出了肺癌的疾病模式与致病因素之间的隐匿规则,从而验证了改进后的Apriori算法对于辅助肺癌临床实验具有重要的意义。  相似文献   

7.
基于云计算的思想运用MapReduce模型解决了传统贝叶斯分类算法不适应大规模数据的缺陷,很大程度地提高了分类速度。结合并行化的特点对算法进行了相应的改进,加入了同义词合并和词频过滤等方法,使得向量维数降低,减少了误判。然后对其中特殊的关键词进行加权,增强了分类准确性。最后在Hadoop云计算平台上进行了实验,证明了传统的文本分类算法并行化后在Hadoop上运行具有较好的加速比,并且改进后的算法能够提高分类精确度。  相似文献   

8.
本文通过对云计算和推荐系统的研究,构建了一种基于Hadoop平台的混合推荐算法。文中介绍了改进的混合推进算法,并结合Hadoop平台的Map Reduce编程模型来实现。通过实验验证,该算法能精确的预测用户的偏好,向用户推荐感兴趣的信息。其次,Hadoop能满足对大量数据处理的要求,结合改进的混合推荐算法,能够大大提高推荐系统的性能。  相似文献   

9.
李玲娟  张敏 《微机发展》2011,(2):43-46,50
云计算为存储和分析海量数据提供了廉价高效的解决方案,云计算环境下的数据挖掘算法的研究具有重要的理论意义和应用价值。针对云计算环境下的关联规则挖掘算法展开研究,介绍了云计算的概念、Hadoop框架平台、MapReduce编程模型和传统的Apriori算法;在此基础上,以实现云计算环境下的并行化数据挖掘为目的,对Apriori算法进行了改进,给出了改进的算法在Hadoop中的MapReduce编程模型上的执行流程;通过一个简单的频繁项集挖掘实例展示了改进的算法的执行效率及实用性。  相似文献   

10.
云计算环境下关联规则挖掘算法的研究   总被引:2,自引:0,他引:2  
云计算为存储和分析海量数据提供了廉价高效的解决方案,云计算环境下的数据挖掘算法的研究具有重要的理论意义和应用价值.针对云计算环境下的关联规则挖掘算法展开研究,介绍了云计算的概念、Hadoop框架平台、MapRe-duce编程模型和传统的Apriori算法;在此基础上,以实现云计算环境下的并行化数据挖掘为目的,对Apriori算法进行了改进,给出了改进的算法在Hadoop中的MapReduce编程模型上的执行流程;通过一个简单的频繁项集挖掘实例展示了改进的算法的执行效率及实用性.  相似文献   

11.
基于学习方式对Hadoop作业调度的改进研究   总被引:1,自引:0,他引:1  
余正样 《计算机科学》2012,39(101):220-222,256
随着并行计算、分布式计算和网格计算技术的发展,云计算作为一种新的模型被提出来,发展极为迅速。Hadoop作为一个开源的云计算系统,得到了广泛的运用。作业调度是Hadoop平台的核心问题之一,通过对Hadoop中已有调度算法的了解和分析后,基于学习的方式,利用过去的节点历史记录和作业属性来不断地改进作业调度;应用了基于特征加权的朴素贝叶斯分类器算法来改进任务的分配调度,并通过实验进行了验证,结果表明它对任务分配调度执行效率有一定的提高。  相似文献   

12.
基于Hadoop和双密钥的云计算数据安全存储策略设计   总被引:2,自引:0,他引:2       下载免费PDF全文
针对原有的Hadoop平台仅通过CRC-32循环冗余校验保证数据存储的安全性,设计了一种基于双密钥和混沌信号的云计算安全存储策略;首先,介绍了原有的Hadoop框架下的数据存储对应的文件读写过程,并基于加密机制设计了改进的Hadoop数据存储模型,然后根据云存储数据量大和响应要求及时的特点,设计了一种基于双密钥的改进对称密钥算法,在传统的私钥的基础上加入动态公钥,并作为敏感函数的输入获得最终的密钥,从而实现明文的加密和密文的解密,最终定义了具体的基于Hadoop和改进双密钥对称加密算法的云计算安全存储算法;通过搭建Hadoop仿真实验平台进行实验,结果表明文中方法能有效地实现云计算环境下的安全存储,存储时间与其它方法相比少15%以上,具有安全性高和存储效率高的优点,具有一定的优越性。  相似文献   

13.
通过对基于ALS的协同过滤算法及分布式Hadoop平台的相关特性进行深入研究,将基于ALS的协同过滤算法在Hadoop上进行并行化,解决了传统的基于ALS的协同过滤算法在大规模数据集上的运算问题.经过实验验证,在Hadoop平台上实现的并行化的ALS协同过滤算法不仅能够保证实验结果的准确性,而且与单节点上实现的算法相比,运算效率显著提高.  相似文献   

14.
针对Hadoop平台数据被任务调度感知,进行本地化处理的新特征,探索Haoop平台中Map任务数据访问监控机制。提出Hadoop平台数据访问监控不仅应服务于数据存取效率的提升,还应服务于Map/Reduce并行作业执行效率提升的基本思想,并增加对并行执行多Map任务数据访问开销均衡性的监控。基于该思想,定义Hadoop平台数据访问监控的粒度和监控信息组成;依托Hadoop平台现有结构,设计了基于master-slave的监控体系结构,并给出了监控主要功能模块的具体实现技术及测试结果。  相似文献   

15.
为解决传统协同过滤推荐中存在的数据稀疏性和可扩展性问题,基于IALM和填充可信度提出了并行化的协同过滤算法。该算法利用非精确增广拉格朗日乘子法(IALM)对评分矩阵和评分时间矩阵进行填充;引入填充可信度,并与指数遗忘函数结合,对填充评分进行加权修正,在此基础上应用协同过滤算法进行预测评分;最后基于Hadoop平台对算法进行了并行化设计与实现。实验结果表明,该算法能够提高推荐质量,同时基于Hadoop平台的算法运算效率明显提高。  相似文献   

16.
目前,基于 Hadoop视频处理的传统方法都是通过MapReduce从本地文件系统读取数据,利用帧字节流进行MapReduce间数据传输,这会产生大量的系统 IO,造成系统资源浪费。针对此问题,提出一种基于Hadoop平台的视频处理方法,实现Hadoop支持的视频类型扩展,设计了MapReduce 相关视频数据处理接口,使 Hadoop 可以更快速处理视频文件。通过在多台计算机组成的集群实验表明,该方法在运行时间上比传统方法缩短10%,IO读写量减少50%以上,提升了Hadoop视频文件的处理效率。  相似文献   

17.
为提高Hadoop作业调度的效率,增加云平台的吞吐率,提出了一种基于Hadoop云计算平台的作业调度算法。该算法在加权轮转调度算法的基础上,针对MapReduce的运行特点,增加了改进map任务本地性调度的因素,使得作业调度仍然保持了相对的公平性,并通过提高轮转周期内的map任务数据本地性,减少了任务的执行时间。实验结果证明,该调度算法与加权轮转调度算法相比,较好地提高了任务本地执行的比例,缩短了云计算系统内作业的总执行时间。  相似文献   

18.
Hadoop云平台下的基于用户协同过滤算法研究   总被引:1,自引:0,他引:1  
随着互联网的高速发展,海量新闻的个性化推荐成为一个重要课题,针对海量新闻的个性化推荐算法进行研究,以MapReduce的并行方法设计了基于Hadoop云平台下的协同过滤算法,利用MapReduce的并行方法,将传统的协同过滤算法并行化,并详细说明了并行化步骤和实现细节;最后用实验结果验证了改进的并行化的协同过滤算法在运行速度和执行效率方面有明显的提高,更适合处理大数据.  相似文献   

19.
多元时间序列具有高噪声、非线性和海量的特点,但传统基于距离的降维方法难以有效的应对噪声带来的子空间偏移和数据的爆炸式增长。在基于角度优化的全局嵌入算法和共同核主成分分析方法的基础上,提出了一种基于角度优化的共同核主成分分析方法,并将该方法依托Hadoop平台进行了并行化改进,有效解决了噪音带来的子空间偏移和海量数据带来的巨大运算量问题。通过实验,对算法的有效性、运行效率及伸缩性进行了验证,结果表明提出的方法可以有效地对含有噪声的多元时间序列进行降维;基于Hadoop平台并行后的方法具有良好的运行效率和伸缩性。  相似文献   

20.
为了从大量的电子邮件中检测垃圾邮件,提出了一个基于Hadoop平台的电子邮件分类方法。不同于传统的基于内容的垃圾邮件检测,通过在Map Reduce框架上统计分析邮件收发记录,提取邮件账号的行为特征。然后使用Map Reduce框架并行的实现随机森林分类器,并基于带有行为特征的样本训练分类器和分类邮件。实验结果表明,基于Hadoop平台的电子邮件分类方法大大提高了大规模电子邮件的分类效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号