期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

朱媛媛王晓京《计算机应用》2013,33(3):730-733

针对Hadoop分布式文件系统(HDFS)数据容灾效率和小文件问题,提出了基于纠删码的解决方案。该方案引用了新型纠删码(GE码)的编码和译码模块,对HDFS中的文件进行编码分片,生成很多个Slice并随机均匀的分配保存到集群中,代替原来HDFS系统的多副本容灾策略。该方法中引入了Slice的新概念,将Slice进行分类合保存在block中并然后通过对Slice建立二级索引来解决小文件问题; 该研究方法中抛弃了三备份机制,而是在集群出现节点失效的情况下,通过收集与失效文件相关的任意70%左右的Slice进行原始数据的恢复。通过相关的集群实验结果表明,该方法在容灾效率、小文件问题、存储成本以及安全性上对HDFS作了很大的优化。相似文献

2.

存储中的副本分级存储调度策略

杨冬菊李青《计算机科学》2017,44(4):85-89

当集群中的部分节点是廉价主机时,采用HDFS的随机存储策略可能使访问频率高的数据存储在廉价节点上,受到廉价节点的性能影响,访问时间过长,降低了集群效率。为改善以上问题,提出一种改进的副本分级存储调度策略。为减少副本调度的次数,先根据节点的CPU、内存、网络、存储负载以及网络距离来评价节点的性能,再从中选取高性能节点进行存储。副本调度以节点中副本的访问频率为依据,结合硬件配置,把访问频率高的副本尽可能存储在高性能、高配置的节点中,以加快集群响应速度。实验结果表明,改进后的策略可以在异构集群中提高副本的访问效率,优化负载均衡。相似文献

3.

基于纠删码的HDFS存储方案

卞艺杰马瑞敏李亚冰吴慧《计算机系统应用》2014,23(11):208-213

HDFS 文件系统通过多副本备份的方式解决数据损坏或丢失的问题,但是随着存储系统内容增多,在数据量级很大的时候,这种容灾方案消耗的额外存储空间是实际存储内容的数倍,不利于系统资源长期积累。文章提出使用纠删码编/解码文件代替 HDFS 的副本备份容灾策略,在保证数据安全性的前提下大大提高了存储空间利用率,降低存储额外消耗。相似文献

4.

一致性哈希的数据集群存储优化策略研究

邱宁佳胡小娟王鹏杨华民《信息与控制》2016,45(6):747-752

结合虚拟节点技术和均分存储区域技术,提出了嵌套循环式数据一致性哈希优化分布式集群存储的多副本放置策略．按照此优化策略,能够有序选择数据副本机架,确定数据节点存储位置,保证数据存储的均衡性分布,可以针对集群的实际要求开展扩展,并按照扩展情况制定使数据存储完成自适应优化调整,加快数据处理的速度．有效实验表明存储优化后算例的执行速度得到很大提升,能够保证解决负载均衡问题;而针对实际情况中可能出现的扩展与删减问题进行测试后表明,使用优化存储策略处理此类问题时,振荡对整体负载均衡影响不大,且执行时间与负载占比变化趋势一致. 相似文献

5.

基于P2P的分布式文件系统下载效率优化

廖彬于炯张陶杨兴耀《计算机应用》2011,31(9):2317-2320

对分布式文件系统(HDFS)集群内部数据块存储机制与下载流程进行分析研究,结合P2P多点与多线程下载思想,从数据块、文件、集群三个方面提出了数据下载效率优化算法。考虑到集群内部可能因多线程下载出现的负载均衡问题,提出下载点选择算法以优化下载点的选择。实验结果表明,三种优化算法都能提高下载效率,下载点选择算法能够很好地实现集群内部DataNode负载均衡。相似文献

6.

眼科医疗影像文件存取下的HDFS负载均衡

刘烁阳周丽娟任仲山张树东《计算机工程与应用》2017,53(2):253-259

在HDFS系统中,集群负载分配不均衡成为影响分布式文件存取速度的瓶颈。针对医院信息系统的负载现状,提出多属性双阈值决策的动态负载均衡算法,对分布式集群中使用HDFS默认的单属性评价、单阈值的负载均衡策略存在的缺陷加以改进。通过负载性能测试,对比证明运用多属性双阈值的负载均衡算法相比较HDFS默认的负载均衡更有利于将大量的影像负载数据相对均衡地分配到服务器集群中的各个节点上,大幅度地缩短了增加数据规模时数据服务器节点的平均响应时间,有利于提高HDFS集群整体的工作效率。相似文献

7.

基于灰色马尔可夫链预测模型的HDFS云存储副本选择策略

徐骁勇潘郁丁燕艳《计算机应用》2011,31(Z2):39-42

在Hadoop分布式文件系统(HDFS)云存储环境下,网络带宽和节点性能有限且动态变化,现有的副本选择策略无法根据环境的变化选择最合适副本.针对这一问题,提出一种综合考虑了网络带宽、节点I/O性能以及节点存储空间等因素,基于灰色马尔可夫链预测模型的副本选择策略,以此在系统可用性和负载均衡性之间寻求一个平衡.最后通过仿真实验,验证了该策略的可行性与有效性. 相似文献

8.

面向大数据分布式存储的动态负载均衡算法

张栗粽崔园罗光春陈爱国卢国明王晓雪《计算机科学》2017,44(5):178-183

随着大数据时代的到来,分布式存储技术应运而生。目前主流大数据技术Hadoop的HDFS分布式存储系统的元数据存储架构上一直存在可扩展性差和写延迟高等问题,其在官方2.0版本中针对可扩展性的解决方案(Fe-deration)仍不完美,仅解决了原有HDFS扩展性的问题,在元数据分配的问题上没有考虑NameNode的异构性能差异,也未解决NameNode集群动态负载均衡的问题。针对该情况,提出了一种动态负载均衡的分布NameNode算法,通过元数据多副本异构节点的动态适应性备份,使元数据在考虑节点性能及负载的情况下实现了动态分布,保证了元数据服务器集群的性能;同时结合缓存策略及自动恢复机制,提高了元数据的读写性及可用性。该算法在试验验证中达到了较为理想的效果。相似文献

9.

一种优化的Hadoop副本放置策略

《微型机与应用》2015,(16):21-23

Hadoop分布式文件系统默认采用三副本策略实现较为简单,未对数据节点负载进行充分考虑。为了改善HDFS中集群负载的均衡性,提高数据节点的资源利用率,提出一种优化的副本放置策略。该策略综合考虑数据节点的实时负载信息和工作进程数,选择负载最小的节点存放数据。实验结果表明,与默认策略相比,优化的Hadoop副本放置策略能使副本分布更加合理,集群的均衡性更加良好,并能减少数据上传响应时间。相似文献

10.

基于分布式文件系统HDFS的节能算法 总被引：10，自引：0，他引：10

廖彬于炯张陶杨兴耀《计算机学报》2013,36(5):1047-1064

与传统数据中心节能算法不同,MapReduce计算任务的数据依赖性使得设计HDFS(Hadoop Distributed File System)节能算法时必须保证集群中所有数据块的可用性,即任意数据块或其副本中的至少一块处于活动状态.根据HDFS集群结构与数据块存储等特点建立了DataNode节点矩阵、节点状态矩阵、文件分块矩阵、数据块存储矩阵与数据块状态矩阵,为后续研究建立了基础模型.结合数据块状态矩阵与数据块可用性之间的关系设计了DataNode节点休眠验证算法.概率分析了由于机架感知的存储策略带来数据块分布的随机性,使得在不改变数据块存储结构与存储策略的情况下并不能通过休眠DataNode节点达到节能的目的.进而设计了数据块存储结构配置节能算法与基于对称数据块存储策略下的节能算法,分别从改变数据块的存储结构与存储策略两方面对HDFS进行节能改进.实验结果表明:两种节能算法都能解决HDFS集群的能耗低利用率问题,并且集群负载越低节能效率越高. 相似文献

11.

基于MapFile 的HDFS 小文件存储效率问题

洪旭升林世平《计算机系统应用》2012,21(11):179-182

针对HDFS最初是为流式访问大文件而开发的,而对于大量小文件的存储效率不高问题,采用MapFile设计一个HDFS中存储小文件的方案．该方案的主要思想是在上传HDFS时增加一个文件类型判断模块,建立一个小文件队列,将小文件序列化存入一个MapFile容器,合并成大文件,并建立相应的索引文件,有效降低文件数目和提高访问效率．通过和现有的HadoopArchives（HARfiles）文件归档解决小文件问题的方案对比,实验结果表明,基于MapFile的存储小文件方案可以更为有效的提高小文件存储性能和减少HDFS文件系统的节点内存消耗．相似文献

12.

Hadoop中处理海量小文件的方法

李旭李长云张清清胡淑新周玲芳《计算机系统应用》2015,24(11):157-161

针对Hadoop中提供底层存储的HDFS对处理海量小文件效率低下、严重影响性能的问题.设计了一种小文件合并、索引和提取方案,并与原始的HDFS以及HAR文件归档方案进行对比,通过一系列实验表明,本文的方案能有效减少Namenode内存占用,提高HDFS的I/O性能. 相似文献

13.

Accelerating big data analytics on HPC clusters using two-level storage

《Parallel Computing》2017

Data-intensive applications that are inherently I/O bound have become a major workload on traditional high-performance computing (HPC) clusters. Simply employing data-intensive computing storage such as HDFS or using parallel file systems available on HPC clusters to serve such applications incurs performance and scalability issues. In this paper, we present a novel two-level storage system that integrates an upper-level in-memory file system with a lower-level parallel file system. The former renders memory-speed high I/O performance and the latter renders consistent storage with large capacity. We build a two-level storage system prototype with Tachyon and OrangeFS, and analyze the resulting I/O throughput for typical MapReduce operations. Theoretical modeling and experiments show that the proposed two-level storage delivers higher aggregate I/O throughput than HDFS and OrangeFS and achieves scalable performance for both read and write. We expect this two-level storage approach to provide insights on system design for big data analytics on HPC clusters. 相似文献

14.

基于柯西码的HDFS存储优化策略

谢果君沈记全杨焕焕《计算机工程与科学》2019,41(3):440-445

随着大数据时代的到来,数据存储正接受着严峻的考验。为了改进传统Hadoop分布式文件系统HDFS存在的冗余度高、负载均衡能力不足等问题,提出了一种基于柯西码的动态分散式存储优化策略CDDS。对于系统中的数据块,在保证数据可用性的基础上,依据其热度的不同生成相应的存储方案。对于系统中的冷数据与热数据,分别采用基于柯西码的纠删码技术进行单副本与多副本存储,既保证了数据的可靠性又保证了系统的I/O能力。经测试,运用该策略存储数据所需要的存储空间减小为原来的75%,系统的可靠性与负载均衡能力也得到了增强。相似文献

15.

一种面向HDFS中海量小文件的存取优化方法_*

孙玉强王文闻顾玉宛《计算机应用研究》2017,34(8)

为了解决HDFS(Hadoop Distributed File System)在存储海量小文件时遇到的NameNode内存瓶颈等问题,提高HDFS处理海量小文件的效率,提出一种基于小文件合并与预取的存取优化方案。首先通过分析大量小文件历史访问日志,得到小文件之间的关联关系,然后根据文件相关性将相关联的小文件合并成大文件后再存储到HDFS。从HDFS中读取数据时,根据文件之间的相关性,对接下来用户最有可能访问的文件进行预取,减少了客户端对NameNode节点的访问次数,提高文件命中率和处理速度。实验结果证明,该方法有效提升了Hadoop对小文件的存取效率,降低了NameNode节点的内存占用率。相似文献

16.

基于磁光虚拟存储系统的文件调度算法

王子炫魏力张育平《计算机与现代化》2019,(5):7

基于光盘库的Hadoop分布式文件系统（HDFS光盘库）在单位存储成本、数据安全性、使用寿命等方面非常符合当前大数据存储要求，但是HDFS不适合存储大量小文件和实时数据读取。为了使HDFS光盘库能更好地运用到更多大数据存储场景，本文提出一种更加适合大数据存储的磁光虚拟存储系统（MOVS, Magneto-optical Virtual Storage System）。系统在HDFS光盘库与用户之间加入磁盘缓存，并在磁盘缓存内通过文件标签分类、虚拟存储、小文件合并等技术将磁盘缓存内小文件合并为适合HDFS光盘库存储的大文件，提高系统的数据传输速度。系统还使用了文件预取、缓存替换等文件调度算法对磁盘缓存内文件进行动态更新，减少用户访问HDFS光盘库次数。实验结果表明，MOVS相对HDFS光盘库在响应时间和数据传输速度方面得到很大改善。相似文献

17.

基于新型存储器件的分布式文件系统性能优化

董聪张晓程文迪石佳《计算机应用》2020,40(12):3594-3603

新型存储器件的I/O性能通常比传统固态驱动器（SSD）高一个数量级,然而使用新型存储器件的分布式文件系统相对于使用SSD的分布式文件系统性能并没有显著的提高,这说明目前的分布式文件系统并不能充分发挥新型存储器件的性能。针对这个问题,对Hadoop分布式文件系统（HDFS）的数据写入流程及传输过程进行了量化分析。通过量化分析HDFS数据写入过程各阶段的时间开销,发现在写入数据的各个阶段中,节点间数据传输的时间占比较大。因此提出了对应的优化方案,通过异步写入的方式并行化数据传输与处理过程,使得不同数据包的处理阶段叠加起来,减少了数据包整体的处理时间,从而提升了HDFS的写入性能。实验结果表明,所提方案将HDFS的写入吞吐量提升了15%~24%,总体的写入执行时间降低了28%~36%。相似文献

18.

基于集群规模调整的节能存储策略

妙晓龙陈浩钟将《计算机工程与应用》2017,53(24):80-85

根据谷歌数据中心研究报告,传统数据中心存在高能耗、低利用率的问题。通过研究集群数据块访问规律,提出一种基于集群规模调整的Hadoop分布式文件系统（HDFS）节能存储策略,实现HDFS高效节能存储。策略主要在集群区域划分、数据块迁移策略优化、缓存机制等方面作出了改进。实验结果表明：使用该节能策略的HDFS比传统HDFS节能35%~40%,其中0.3%的访问需要唤醒服务器,同时引入缓存策略对集群的性能提高了5.1%。相似文献

19.

基于新型存储器件的分布式文件系统性能优化

董聪张晓程文迪石佳《计算机应用》2005,40(12):3594-3603

新型存储器件的I/O性能通常比传统固态驱动器（SSD）高一个数量级，然而使用新型存储器件的分布式文件系统相对于使用SSD的分布式文件系统性能并没有显著的提高，这说明目前的分布式文件系统并不能充分发挥新型存储器件的性能。针对这个问题，对Hadoop分布式文件系统（HDFS）的数据写入流程及传输过程进行了量化分析。通过量化分析HDFS数据写入过程各阶段的时间开销，发现在写入数据的各个阶段中，节点间数据传输的时间占比较大。因此提出了对应的优化方案，通过异步写入的方式并行化数据传输与处理过程，使得不同数据包的处理阶段叠加起来，减少了数据包整体的处理时间，从而提升了HDFS的写入性能。实验结果表明，所提方案将HDFS的写入吞吐量提升了15%~24%，总体的写入执行时间降低了28%~36%。相似文献