首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
针对服饰图像都是小文件的特性,提出了一种HDFS和传统关系型数据库相结合的服饰图像及其特征数据的存储结构设计方法,实现了海量图像信息的快速存储和读取;改进了多特征点图像特征提取和匹配算法,并基于Map/Reduce框架实现了基于多特征的服饰图像数据分布式检索。实验结果表明,该方法能够均衡系统负载,提高资源利用率,扩展性强,有效地降低了海量服饰图像检索时间,是一种高效的服饰图像存储和检索的方法。  相似文献   

2.
基于MapReduce的Canopy-Kmeans改进算法   总被引:2,自引:0,他引:2  
针对分布式Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行了改进,避免了Cannopy选取的盲目性;采用MapReduce并行计算框架对算法进行了并行扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场景。以海量互联网新闻信息聚类作为应用背景,对改进后的算法进行了实验分析。实验结果表明:该方法较随机挑选Canopy策略在分类准确率以及抗噪能力上都明显提高,而且在处理海量数据时表现出较大的性能优势。  相似文献   

3.
朱为盛  王鹏 《计算机应用》2014,34(3):695-699
针对传统图像检索方法在处理海量图像数据时面临困扰的问题,提出了一种基于传统视觉词袋(BoVW)模型和MapReduce计算模型的大规模图像检索(MR-BoVW)方案。该方案充分利用了Hadoop云计算平台海量存储能力和强大的并行计算能力。为了更好地处理图像数据,首先引入一种改进的Hadoop图像数据处理方法,在此基础上分特征向量生成、特征聚类、图片的向量表示与倒排索引构建三个阶段MapReduce化。多组实验表明,MR-BoVW方案具有优良的加速比、扩展率以及数据伸缩率,效率均大于0.62,扩展率以及数据伸缩率曲线平缓,适于大规模图像检索。  相似文献   

4.
针对传统图像检索方法在处理海量图像数据时面临困扰的问题,提出了一种基于传统视觉词袋(BoVW)模型和MapReduce计算模型的大规模图像检索(MR-BoVW)方案。该方案充分利用了Hadoop云计算平台海量存储能力和强大的并行计算能力。为了更好地处理图像数据,首先引入一种改进的Hadoop图像数据处理方法,在此基础上分特征向量生成、特征聚类、图片的向量表示与倒排索引构建三个阶段MapReduce化。多组实验表明,MR-BoVW方案具有优良的加速比、扩展率以及数据伸缩率,效率均大于0.62,扩展率以及数据伸缩率曲线平缓,适于大规模图像检索。  相似文献   

5.
为缓解单一存储设备存储海量小文件的压力,提出了一种国产化环境下的海量小文件数据分布式存储技术。利用聚类算法实现海量小文件合并。以达到最大均衡度为目标,在多项约束条件下利用人工鱼群算法求解分布式存储方案。按照分布式存储方案将海量小文件数据迁移到存储节点及其存储设备上,完成海量小文件数据分布式存储。结果表明:14个存储节点和28个存储设备的内存占用较为均衡,内存资源利用率较高。将小文件样本迁移并存储到节点的过程中,分布式存储均衡度整体波动均超过设定的阈值1.0,说明分布式存储均衡度较好,证明了所提存储技术的有效性。  相似文献   

6.
基于Hadoop的海量农业数据资源管理平台   总被引:2,自引:0,他引:2       下载免费PDF全文
使用传统分布式数据库架构存储和管理海量农业数据存在资源效率不高及存储能力不足的问题,为此,在Hadoop的基础上研究海量农业数据资源组织存储与检索技术,提出基于Hadoop的大文件分块存储方法和海量农业数据资源检索方法。测试及实践结果表明,该方法为构建海量农业数据资源管理平台提供了支持,实现了海量农业数据资源高效的组织和管理。  相似文献   

7.
为将文档聚类划分的分布式检索方法直接应用于视觉检索领域,提出一种基于潜在主题的分布式视觉检索模型。给出模型框架,包括图像视觉单词的数据集划分方法和图像子集选择方法,以此优化图像分布式检索性能。实验结果表明,该模型在不降低检索准确率的前提下,能优先选择少量的图像子集进行检索,并提高查询的吞吐量。  相似文献   

8.
面向农业科学数据的分布式存储方法研究   总被引:1,自引:0,他引:1  
随着农业科技的飞速发展,农业科学数据以几何级数快速膨胀。面对持续增长的农业数据资源,如何有效地存储和管理海量的农业数据成为一个研究热点。借助Hadoop分布式存储框架的优势,提出了一种面向农业科学数据的分布式存储方法,该方法采用了“中心控制节点--数据节点”的存储体系,通过报文通信技术和混合式索引分布策略,实现了对海量数据的高并发式存储和检索。实验结果证明,该方法适用于各种类型的农业科学数据进行存储管理。  相似文献   

9.
为了解决在面对海量数据时机器学习算法很难在有效时间内完成规定的任务,并且很难有效地处理高维度、海量数据等问题,提出了基于Hadoop分布式平台的谱聚类算法并行化研究。利用MapReduce编程模式,将传统的谱聚类算法进行重新编写;在该平台上用Canopy算法对数据进行预处理,以达到更好的聚类效果。实验结果表明了设计的分布式聚类算法在加速比等方面有良好的性能,并且在数据伸缩率方面效果明显,改进后的算法适合处理海量数据。  相似文献   

10.
面向大规模数据的快速并行聚类划分算法研究   总被引:1,自引:0,他引:1  
牛新征  佘堑 《计算机科学》2012,39(1):134-137,151
随着聚类分析中处理数据量的急剧增加,面对大规模数据,传统K-Means聚类算法面临着巨大挑战。为了提高传统K-Means聚类算法的效率,针对已有基于MPI的并行K-Means聚类算法和基于Hadoop的分布式K-Means云聚类算法,从聚心初始化和通信模式等入手,提出了改进思路和具体实现。实验结果表明,所提算法能大大减少通信量和计算量,具有较高的执行效率。研究结果可以为以后设计更好的大规模数据快速并行聚类划分算法提供研究依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号