首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
朱为盛  王鹏 《计算机应用》2014,34(3):695-699
针对传统图像检索方法在处理海量图像数据时面临困扰的问题,提出了一种基于传统视觉词袋(BoVW)模型和MapReduce计算模型的大规模图像检索(MR-BoVW)方案。该方案充分利用了Hadoop云计算平台海量存储能力和强大的并行计算能力。为了更好地处理图像数据,首先引入一种改进的Hadoop图像数据处理方法,在此基础上分特征向量生成、特征聚类、图片的向量表示与倒排索引构建三个阶段MapReduce化。多组实验表明,MR-BoVW方案具有优良的加速比、扩展率以及数据伸缩率,效率均大于0.62,扩展率以及数据伸缩率曲线平缓,适于大规模图像检索。  相似文献   

2.
针对传统的图像检索方法在处理海量数据时面临的问题,提出一种基于改进的分布式K-Means特征聚类的海量场景图像检索方法。对分布式K-Means算法进行改进,优化了初始聚类中心的选择和迭代过程,并将其应用与场景图像的特征聚类中;充分利用Hadoop分布式平台的海量存储能力和强大并行计算能力,提出了海量场景图像的存储和检索方案,设计了场景图像特征提取、特征聚类以及图像检索三个阶段分布式并行处理的Map和Reduce任务。多组实验表明,提出的方法数据伸缩率曲线平缓,取得了优良的加速比,效率大于0.6,检索的平均准确率达到了88%左右,适合海量场景图像数据的检索。  相似文献   

3.
图像数据的指数型增长使得传统单机的图像检索在处理大规模图像时面临着检索速度慢、并发性差、检索准确率低的问题。由于图像特征文件都是小文件,本文提出将图像特征小文件进行适当的合并后存储于Hadoop的分布式文件系统HDFS中,实现大规模图像的快速存储和读取;为了适应大规模的图像检索,对图像Fisher向量进行二值化处理,并利用MapReduce并行编程模型实现基于二值Fisher向量和SIFT(Scale Invariant Feature Transform)特征的并行检索。在INRIA Holidays数据集、Kentucky数据集和Flicker1M数据集上的实验结果表明该方法扩展性强,能够取得较好的检索准确率,有效减少检索时间,提高检索速度,是一种高效的大规模图像存储和检索的方法。  相似文献   

4.
针对当前决策树算法较少考虑训练集的嘈杂程度对模型的影响,以及传统驻留内存算法处理海量数据困难的问题,提出一种基于Hadoop平台的不确定概率C4.5算法--IP-C4.5算法。在训练模型时,IP-C4.5算法认为用于建树的训练集是不可靠的,通过用基于不确定概率的信息增益率作为分裂属性选择标准,减小了训练集的嘈杂性对模型的影响。在Hadoop平台下,通过将IP-C4.5算法以文件分裂的方式进行MapReduce化程序设计,增强了处理海量数据的能力。与C4.5和完全信条树(CCDT)算法的对比实验结果表明,在训练集数据是嘈杂的情况下,IP-C4.5算法的准确率相对更高,尤其当数据嘈杂度大于10%时,表现更加优秀;并且基于Hadoop的并行化的IP-C4.5算法具有处理海量数据的能力。  相似文献   

5.
MapReduce编程模型的简单性和高性价比使得其适用于海量数据的并行处理.然而,MapReduce欠缺对多数据源、组件复用以及数据可视化支持,这些缺点使用户在运用MapReduce框架进行数据挖掘时暴露出开发效率低下,重复开发等问题.提出了一种基于MapReduce的数据挖掘平台的设计与实现,该设计思想为Hadoop作为大规模数据计算平台在数据挖掘、数据可视化以及商业智能应用方面的不足提供了参考与弥补.同时,基于该方法实现了一个大规模数据挖掘工具.  相似文献   

6.
传统分布式大型邮件系统对海量邮件的过滤存在编程难、效率低、前期训练耗用资源大等缺点,为此,对传统贝叶斯过滤算法进行并行化改进,利用云计算MapReduce模型在海量数据处理方面的优势,设计一种基于Hadoop开源云架构的贝叶斯邮件过滤MapReduce模型,优化邮件的训练和过滤过程。实验结果表明,与传统分布式计算模型相比,该模型在召回率、查准率和精确率方面性能较好,同时可降低邮件过滤成本,提高系统执行效率。  相似文献   

7.
MapReduce是Google开发的一种并行分布式计算模型,已在搜索和处理海量数据领域得到了广泛的应用.此模型只适用于数据关联性弱、能够高度并行化的程序,未能处理数据关联性强的数据(比如树形结构).文中详细讨论了MapReduce的实现机制,提出了一种基于树结构的MapReduce模型,它是基于一种聚类聚合的反复轮询过程,聚合时用<k1,k2,…,kn,value>代替传统的<k,value>,使模型更具有一般性.最后搭建Hadoop平台来处理XML结构的海量数据,并比对新旧两种模型的效率.实验结果表明,其执行速度明显比传统模型高效.  相似文献   

8.
基于MapReduce的决策树算法并行化   总被引:1,自引:0,他引:1  
陆秋  程小辉 《计算机应用》2012,32(9):2463-2465
针对传统决策树算法不能解决海量数据挖掘以及ID3算法的多值偏向问题,设计和实现了一种基于MapReduce架构的并行决策树分类算法。该算法采用属性相似度作为测试属性的选择标准来避免ID3算法的多值偏向问题,采用MapReduce模型来解决海量数据挖掘问题。在用普通PC搭建的Hadoop集群的实验结果表明:基于MapReduce的决策树算法可以处理大规模数据的分类问题,具有较好的可扩展性,在保证分类正确率的情况下能获得接近线性的加速比。  相似文献   

9.
MapReduce框架下的朴素贝叶斯算法并行化研究   总被引:1,自引:1,他引:0  
研究朴素贝叶斯算法MapReduce的并行实现方法, 针对传统单点串行算法在面对大规模数据或者参与分类的属性较多时效率低甚至无力承载大规模运算, 以及难以满足人们处理海量数据的需求等问题, 本文在朴素贝叶斯基本理论和MapReduce框架的基础上, 提出了一种基于MapReduce的高效、廉价的并行化方法. 通过实验表明这种方法在面对大规模数据时能有效提高算法的效率, 满足人们处理海量数据的需求.  相似文献   

10.
荀亚玲  张继福  秦啸 《软件学报》2015,26(8):2056-2073
MapReduce是一种适用于大规模数据密集型应用的有效编程模型,具有编程简单、易于扩展、容错性好等特点,已在并行和分布式计算领域得到了广泛且成功的应用.由于MapReduce将计算扩展到大规模的机器集群上,处理数据的合理放置成为影响MapReduce集群系统性能(包括能耗、资源利用率、通信和I/O代价、响应时间、系统的可靠性和吞吐率等)的关键因素之一.首先,对MapReduce编程模型的典型实现——Hadoop缺省的数据放置策略进行分析,并进一步讨论了MapReduce框架下,设计数据放置策略时需考虑的关键问题和衡量数据放置策略的标准;其次,对目前MapReduce集群环境下的数据放置策略优化方法的研究与进展进行了综述和分析;最后,分析和归纳了MapReduce集群环境下数据放置策略的下一步研究工作.  相似文献   

11.
Hadoop集MapReduce、HDFS、HBase、Avro、Pig等子项目于一身,并行编程模型(MapReduce)、分布式文件系统(HDFS)是Hadoop的核心技术。用户可以通过结合编程模型MapReduce与Hadoop的方式对分布式程序进行进行二次开发,从海量数据中挖掘隐含的、新颖的、对决策实施工作有指导价值的关系、模型,在Hadoop平台上构建数据挖掘系统。  相似文献   

12.
《计算机工程》2018,(2):251-256
传统人脸图像检索技术处理大规模图像数据时检索效率较低。为此,基于视觉词袋模型与Spark分布式计算平台构建人脸图像检索系统。根据人脸图像空间分布特点提出局部区块划分方法,减少视觉特征数并提高流程并行度,同时结合SURF局部特征和HOG区块特征设计候选图像相似得分算法,提高检索准确率。实验结果表明,与基于Hadoop的检索系统相比,该系统索引构建和检索的效率较高,并且在海量图像数据场景下具有良好的可扩展性和并发性。  相似文献   

13.
对某高校教学资源平台的海量日志进行了分析,将传统单机分析处理模式,转变为Hadoop框架下的MapReduce分布式处理模式。MapReduce采用分而治之的思想,很好地解决了单机对海量数据处理产生的瓶颈问题。通过分析Hadoop源码的使用,认真研究MapReduce对海量数据处理作业流程分析,提出了MapReduce分布式作业计算的优化策略,从而更好地提高了海量数据的处理效率。  相似文献   

14.
文章介绍了Hadoop分布式计算架构及其核心技术HDFS(Hadoop Distributed Filesystem)、MapReduce处理大数据的原理,分析了该技术适用于海量网络安全事件分析的优势和特点。提出了一种基于Hadoop架构的网络安全事件分析方法,并进行了实例分析,验证了该方法的可行性。  相似文献   

15.
邳文君  宫秀军 《计算机应用》2016,36(11):3044-3049
针对传统支持向量机(SVM)算法难以处理大规模训练数据的困境,提出一种基于Hadoop的数据驱动的并行增量Adaboost-SVM算法(PIASVM)。利用集成学习策略,局部分类器处理一个分区的数据,融合其分类结果得到组合分类器;增量学习中用权值刻画样本的空间分布特性,对样本进行迭代加权,利用遗忘因子实现新增样本的选择及历史样本的淘汰;采用基于HBase的控制器组件用以调度迭代过程,持久化中间结果并减小MapReduce原有框架迭代过程中的带宽压力。多组实验结果表明,所提算法具有优良的加速比、扩展率和数据伸缩度,在保证分类精度的基础上提高了SVM算法对大规模数据的处理能力。  相似文献   

16.
随着互联网的飞速发展,需要处理的数据量不断增加,在互联网数据挖掘领域中传统的单机文本聚类算法无法满足海量数据处理的要求,针对在单机情况下,传统LDA算法无法分析处理大规模语料集的问题,提出基于MapReduce计算框架,采用Gibbs抽样方法的并行化LDA主题模型的建立方法。利用分布式计算框架MapReduce研究了LDA主题模型的并行化实现,并且考察了该并行计算程序的计算性能。通过对Hadoop并行计算与单机计算进行实验对比,发现该方法在处理大规模语料时,能够较大地提升算法的运行速度,并且随着集群节点数的增加,在加速比方面也有较好的表现。基于Hadoop平台并行化地实现LDA算法具有可行性,解决了单机无法分析大规模语料集中潜藏主题信息的问题。  相似文献   

17.
18.
Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在处理对短作业响应性能有较高要求的查询应用时,Hadoop MapReduce并行计算框架存在明显不足.为了提升Hadoop对于短作业的执行效率,对原有的Hadoop MapReduce作出以下3点优化:1)通过优化原有的setup和cleanup任务的执行方式,成功地缩短了作业初始化环境准备和作业结束环境清理的时间;2)将首次任务分配从"拉"模式转变为"推"模式;3)将作业执行过程中JobTracker和TaskTrackers之间的控制消息通信从现有的周期性心跳机制中分离出来,采用即时传递机制.最后,采用一种典型的基于MapReduce并行化的查询应用BLAST,对优化工作进行了评估.各种不同类型BLAST作业的测试实验表明,与现有的标准Hadoop相比,优化后的Hadoop平均执行性能提升约23%.  相似文献   

19.
为了解决在面对海量数据时机器学习算法很难在有效时间内完成规定的任务,并且很难有效地处理高维度、海量数据等问题,提出了基于Hadoop分布式平台的谱聚类算法并行化研究。利用MapReduce编程模式,将传统的谱聚类算法进行重新编写;在该平台上用Canopy算法对数据进行预处理,以达到更好的聚类效果。实验结果表明了设计的分布式聚类算法在加速比等方面有良好的性能,并且在数据伸缩率方面效果明显,改进后的算法适合处理海量数据。  相似文献   

20.
韩伟  张学庆  陈旸 《计算机应用》2014,34(6):1600-1603
针对现有的方法不能有效用于图像大数据分类的问题,提出了一种基于MapReduce编程模型的图像分类方法,在分类的全过程利用MapReduce机制加速分类过程。首先,利用MapReduce机制实现对图像尺度不变特征变换(SIFT)特征的分布式提取,并通过稀疏编码将其转换为稀疏向量,生成图像的稀疏特征;然后,利用MapReduce机制实现对随机森林的分布式训练;在此基础上,利用MapReduce机制对图像集实现基于随机森林方法的并行分类。通过在Hadoop平台的实验结果表明,该方法能够充分利用MapReduce框架的分布式特性,对大规模图像数据实现快速准确分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号