共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
文章提出了一种基于改进SVD++算法和K-means++算法的小文件合并方案。通过引入自适应学习率函数和基于并行分组的SVD++算法,优化了小文件的合并过程,以提高Hadoop存储小文件的效率。同时,利用K-means++算法对合并后的文件进行聚类,优化了数据存储方式,降低了存储空间的浪费。在Hadoop平台上进行的实验表明,该方案在保持数据处理准确性和稳定性的同时,显著提升了Hadoop存储与处理小文件的性能。 相似文献
3.
4.
针对传统Hadoop平台架构中单名字节点瓶颈和对小文件存储支持不理想的问题进行优化。首先针对第一个问题,增加节点层次并在第二层增加NameNode数量等措施,解决了单名字节点瓶颈;又通过在原 HDFS 的数据存储过程中增加合并处理模块,实现小文件合并为大文件处理的方法,提升了小文件的访问效率。实验数据对比表明这些方法是有效、可行的。 相似文献
5.
6.
7.
8.
提出一种改善Hadoop文件处理效率的方法,在Hadoop中添加一个小文件处理模块SFPM,根据文件名为海量小文件建立二级索引,同时采用预加载技术将索引提前存入缓存,可提高文件查找访问效率;在合并文件时,采取舍弃多余空间的策略,避免将一个文件拆分存储在两个block上,减少了文件访问时间开销.实验结果表明该方法能有效减轻NameNode的负荷,提高小文件读写效率. 相似文献
9.
随着科学技术的发展,各行业及领域需要处理的数据呈爆炸式增长。Hadoop是大文件存储处理的理想平台,但Hadoop在处理海量小文件时的表现并不令人满意。本文首先对HDFS的系统架构作了简要介绍,进而分析了HDFS处理海量小文件时存在的问题,最后介绍了目前国内外对该问题提出的优化方案。 相似文献
10.
Hadoop云存储架构的设计初衷是实现大文件的高效存储处理,但在处理移动终端下诸如图片等小文件时会引起名称节点索引提取速度过慢和数据节点存储空间利用率不高等问题.针对这一问题,提出一种小文件归档的方案FHAR.方案综合考虑移动终端用户访问的实时性、名称节点服务器内存使用率、数据节点存储空间利用率等方面,利用双层索引的归档技术结合FAHP(模糊多属性决策理论)的系统负载预测算法实现系统的负载均衡,提高服务效率.同时利用数据预取机制对访问操作进行优化.仿真结果表明,该方案有效提高了节点的存储效率与用户访问的实时体验性. 相似文献
11.
12.
本文面向由于互联网遥感业务和PB级遥感影像数据的发展,遥感影像文件逐渐转至云端存储的场景,为提升云端遥感影像文件的读取性能、节省云端存储成本,提出面向云端存储的遥感影像文件优化技术。本文通过优化数据存储格式,在遥感影像文件中预先生成金字塔模型,无损压缩后整理为云端存储格式,读取时利用HTTPRange请求云端遥感影像文件内区域数据,为高性能云端遥感影像文件读取提供了支撑,使其更适合于海量遥感影像文件存储在云端的场景,提升遥感影像文件在云端的读取效率,进一步为互联网遥感业务打下基础。 相似文献
13.
14.
15.
随着智能便携终端的快速普及和网络传输速度的大幅度提升,UGC视频网站飞速发展。网络视频的数据存储和传输优化等技术等在视频网站中占有很重要的地位。本文介绍了UGC网络视频的发展与现状,以及基于Hadoop海量视频小文件存储和网络视频的传输优化技术。 相似文献
16.
17.
18.
19.
Indri是开源的检索工具,我们基于其官方网站上提供的文档,论文以及源代码,并对其进行研究,采用学习该项目中检索模型及索引建立的原理和方法,得到了collection文件夹的组成形式,提出了mainfest文件是一个xml文件存储了配置信息,storage文件存储了集合中文档的压缩版本以及用来高亮显示查询结果时需要的term bounding信息,lookup文件用B-tree的结构存储了文档ID和偏移量的映射关系,用来支持随机快速访问的动态索引机制. 相似文献
20.
《信息通信》2019,(5)
近年来,硬件加速逐渐广泛用于分布式存储服务,各种存储服务的稳定性受到用户的额外关注。FPGA是最常用的硬件加速设备,用来对存储文件进行存储前的压缩和读取前的解压。长时间的压缩/解压工作,使得FPGA存在服务中断等不稳定因素。尽管存储服务中断并不像以前其他云服务中断那样具有灾难性,但它们的影响可能比以前更广泛。为了解决上述问题,文章提出了一种基于拥有自主产权的云芯一号加速卡的分布式多维混合文件存储机制。首次在多Hadoop集群中,考虑芯片温度、芯片频率、文件存储大小等三个方面的因素,结合层次分析法(AHP),进行多维度的存储节点选择。文章利用传统的软件压缩和其他FPGA加速卡作对比实验,实验结果表明本文提出硬件加速设备和所述多维文件存储机制可以有效地降低多Hadoop集群的宕机率,提高文件存储压缩率和集群中各个节点的利用率。 相似文献