期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

左大鹏徐薇《软件》2015,(2):107-111

HDFS(Hadoop Distributed File System)作为开源系统广泛地适用于各类存储服务中,具有高容错,易扩展,廉价存储等特点。然而,HDFS基于单一的服务器Name Node来处理元数据信息管理,当处理海量小文件时会造成Name Node内存过分消耗以及存储和读取性能并不理想,使Name Node成为系统瓶颈。本文提出一种基于HAR(Hadoop Archive)的优化机制来提高Name Node存储元数据信息的内存利用效率和提高读取小文件的访问效率。另外,该策略也扩展了HAR文件追加的优化和为提高访问效率采用索引预取机制。实验结果表明该优化策略能够提高现有HAR处理小文件的能力和访问海量小文件的效率。相似文献

2.

一种提高海量电子健康档案存储性能的方法

《计算机应用与软件》2016,(1)

医疗旅游是目前兴起的一个新型产业,面对今后日益增长的巨大数据,有效数据的存储和用户的快速访问是急需解决的课题。Hadoop的出现满足了这一需求。但Hadoop并不适合用来处理大量的小文件,其HDFS(Hadoop distributed file system)采用主从架构,存储大量的小文件时,元数据快速增加,Name Node内存被大量占用,读取性能也受到一定的影响,直接降低了整个系统的扩展性及效率。利用RDBMS和Hadoop的优势,提出一种改进的小文件存储优化方案,同时又根据电子健康档案数据的特点,提出按副本组进行数据传输存储的方案,并采用数据预取机制,提高访问效率。实验表明,该方法能有效提高电子健康档案中的小文件存储和读取的性能,一定程度上很好地解决了NameNode内存瓶颈问题。相似文献

3.

基于NoSQL的海量航空物流小文件分布式多级存储方法

丁建立郑峰弓李永华罗云生《计算机应用研究》2017,34(5)

为了解决航空物流领域海量小文件存储效率和访问效率不高的问题,提出一种基于Nosql的海量小文件分布式多级存储方法,充分考虑到数据的时效性、本地性、操作的并发性以及文件之间的相关性,先根据相关性将文件合并,然后采用分布式多级存储,使用内存式Redis数据库做缓存,HDFS做数据的持久化存储,其过程采用预取机制。实验结果表明,该方法有效提高了小文件的存取效率和磁盘的利用率,显著地降低了网络的带宽占用和集群NameNode的内存消耗,适合解决航空领域海量小文件存储问题。相似文献

4.

Hadoop中处理海量小文件的方法

李旭李长云张清清胡淑新周玲芳《计算机系统应用》2015,24(11):157-161

针对Hadoop中提供底层存储的HDFS对处理海量小文件效率低下、严重影响性能的问题.设计了一种小文件合并、索引和提取方案,并与原始的HDFS以及HAR文件归档方案进行对比,通过一系列实验表明,本文的方案能有效减少Namenode内存占用,提高HDFS的I/O性能. 相似文献

5.

面向Hadoop分布式文件系统的小文件存取优化方法

李铁燕彩蓉黄永锋宋亚龙《计算机应用》2014,34(11):3091-3095

为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法--SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装成大文件之后存至HDFS;当从HDFS获取文件时,根据基于文件关联关系的预取算法来提高文件访问效率,并提出基于预取的缓存替换算法来管理缓存空间,从而提高文件的命中率。实验结果表明,SmartFS有效减少了HDFS中NameNode的元数据空间,减少了用户与HDFS的交互次数,提高了小文件的存储效率和访问速度。相似文献

6.

基于HDFS的小文件存储与读取优化策略 总被引：1，自引：0，他引：1

张海马建红《计算机系统应用》2014,23(5):167-171

本文对HDFS分布式文件系统进行了深入的研究,在HDFS中以流式的方式访问大文件时效率很高但是对海量小文件的存取效率比较低. 本文针对这个问题提出了一个基于关系数据库的小文件合并策略,首先为每个用户建立一个用户文件,其次当用户上传小文件时把文件的元数据信息存入到关系数据库中并将文件追加写入到用户文件中,最后用户读取小文件时通过元数据信息直接以流式方式进行读取. 此外当用户读取小于一个文件块大小的文件时还采取了数据节点负载均衡策略,直接由存储数据的DataNode传送给客户端从而减轻主服务器压力提高文件传送效率. 实验结果表明通过此方案很好地解决了HDFS对大量小文件存取支持不足的缺点,提高了HDFS文件系统对海量小文件的读写性能,此方案适用于具有海量小文件的云存储系统,可以降低NameNode内存消耗提高文件读写效率. 相似文献

7.

Hadoop中大量小文件性能优化方法研究

刘晓霞《计算机光盘软件与应用》2013,(18):78-80

随着开源云计算平台Hadoop的广泛应用,由于其HDFS是针对大文件读写而设计的,因此,大量小文件处理会给Hadoop的扩展性和性能带来瓶颈。本文针对大量小文件处理提出了改进方法,对小文件进行合并、建立索引、并对块进行压缩,减轻元数据占用主节点内存的压力,以此提高小文件读写速度,读速度提升50%左右,写速度达到原来的3-4倍,对MapReduce计算性能也有一定的提升。这样,Hadoop处理对小文件处理也具有更好的通用性。相似文献

8.

一种基于HDFS小文件存储优化方案

张晓丽  滑亚慧《计算技术与自动化》2017,(3):134-138

Hadoop分布式文件系统( HDFS) 在大数据存储中具有优良的性能,适用于处理和存储大文件,但在海量小文件处理时性能显著下降,过多的小文件使得整个系统内存消耗过大。为了提高HDFS处理小文件的效率,改进了HDFS的存储方案,提出了海量小文件的存储优化方案。根据小文件之间的相关性进行分类,然后将同一类小文件合并上传,并生成索引文件,读取时采用客户端缓存机制以提高访问效率。实验结果表明,该方案在数据迅速增长的情况下能有效提高小文件访问效率,降低系统内存开销,提高HDFS处理海量小文件的性能。 相似文献

9.

Hadoop中处理小文件的四种方法的性能分析

下载免费PDF全文

李三淼李龙澍《计算机工程与应用》2016,52(9):44-49

Hadoop的设计初衷是为了存储和分析大数据,其最擅长处理的是大数据集。但是在实际应用中,却存在着大量的小文件。一般情况下有四种处理海量小文件的方法,分别为默认输入格式TextInputFormat、为处理小文件而设计的CombineFileInputFormat输入格式、SequenceFile技术以及Harballing技术。为了比较在相同的Hadoop分布式环境下这四种技术处理大量小文件时的性能,选用了典型的数据集,利用词频统计程序,来比较四种小文件处理技术的性能差异。实验研究表明,在不同需求下处理大量小文件的时候,选用适当的处理方法能够在很大程度上提高大量小文件的处理效率。相似文献

10.

一种面向分布式文件系统的文件预取模型的设计与实现

师明刘轶唐歌实《计算机科学》2014,41(7):30-35

如何为上层应用和计算提供稳定高效的文件I/O性能,是分布式文件系统性能研究的热点。文中分析分布式文件系统在设计机理上的共同特征,基于此提出一种通用型的启发式文件预取模型,并选取HDFS平台进行系统实现。启发式文件预取对上层应用透明,采用在文件系统内部建立预取线程池的方法,以组成文件块的数据存储文件为预取单位,在分布式文件系统内部实现。这种设计思路具有一定的普适性,适合推广应用于多种分布式文件系统。实验结果表明,所述的启发式文件预取,能够有效提升分布式文件系统的I/O性能。相似文献

11.

多模态医疗数据中海量小文件存储优化方法

曾梦邹北骥张文生杨雪冰朱承璋《软件学报》2023,34(3):1451-1469

Hadoop分布式文件系统(HDFS)通常用于大文件的存储和管理,当进行海量小文件的存储和计算时,会消耗大量的NameNode内存和访问时间,成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题,提出一种基于双层哈希编码和HBase的海量小文件存储优化方法.在小文件合并时,使用可扩展哈希函数构建索引文件存储桶,使索引文件可以根据需要进行动态扩展,实现文件追加功能.在每个存储桶中,使用MWHC哈希函数存储每个文件索引信息在索引文件中的位置,当访问文件时,无须读取所有文件的索引信息,只需读取相应存储桶中的索引信息即可,从而能够在O(1)的时间复杂度内读取文件,提高文件查找效率.为了满足多模态医疗数据的存储需求,使用HBase存储文件索引信息,并设置标识列用于标识不同模态的医疗数据,便于对不同模态数据的存储管理,并提高文件的读取速度.为了进一步优化存储性能,建立了基于LRU的元数据预取机制,并采用LZ4压缩算法对合并文件进行压缩存储.通过对比文件存取性能、NameNode内存使用率,实验结果表明,所提出的算法与原始HDFS、HAR、MapFile、TypeStorage以及... 相似文献

12.

基于改进HDFS的冠字号小文件分布式存储研究

徐俊王庆华赵云龙《数字社区&智能家居》2014,(17):3980-3985

针对冠字号小图片存储到HDFS系统中带来的访问瓶颈问题,改进了原有的HDFS系统,新提出的分布式系统机制是充分基于文件相关性(File Correlation)进行合并处理的HDFS(FCHDFS)。由于HDFS中所有的文件都是由单一的主节点服务器托管-NameNode,每个存储到HDFS的文件在NameNode主存储器中都需要存储它的元数据,这必然导致小文件数量越大HDFS性能就越差。存储和管理大量的小文件,对NameNode是一个沉重的负担。可以存储在HDFS的文件数量是受到NameNode的内存大小约束。为了提高存储和访问HDFS上的冠字号小文件的效率,该文提出了一个基于文件关联性的小文件高效处理机制。在这种方法中,按照客户和时间区分,一组相关的文件相结合为一个大文件,从而减少文件数目。而新建的索引机制能从相应的联合文件中访问单个文件。实验结果表明,FCHDFS大大减少主节点内存中元数据数量,也提高了存储和访问大量小文件的效率。相似文献

13.

一种面向HDFS中海量小文件的存取优化方法_*

孙玉强王文闻顾玉宛《计算机应用研究》2017,34(8)

为了解决HDFS(Hadoop Distributed File System)在存储海量小文件时遇到的NameNode内存瓶颈等问题,提高HDFS处理海量小文件的效率,提出一种基于小文件合并与预取的存取优化方案。首先通过分析大量小文件历史访问日志,得到小文件之间的关联关系,然后根据文件相关性将相关联的小文件合并成大文件后再存储到HDFS。从HDFS中读取数据时,根据文件之间的相关性,对接下来用户最有可能访问的文件进行预取,减少了客户端对NameNode节点的访问次数,提高文件命中率和处理速度。实验结果证明,该方法有效提升了Hadoop对小文件的存取效率,降低了NameNode节点的内存占用率。相似文献

14.

海量教育资源中小文件的存储研究

游小容曹晟《计算机科学》2015,42(10):76-80

Hadoop作为成熟的分布式云平台,能提供可靠高效的存储服务,常用来解决大文件的存储问题,但在处理海量小文件时效率显著降低。提出了基于Hadoop的海量教育资源中小文件的存储优化方案,即利用教育资源小文件间的关联关系,将小文件合并成大文件以减少文件数量,并用索引机制访问小文件及元数据缓存和关联小文件预取机制来提高文件的读取效率。实验证明,以上方法提高了Hadoop文件系统对小文件的存取效率。相似文献

15.

Hdspace分布式机构知识库系统的小文件存储

卞艺杰陈超李亚冰陆小亮《计算机系统应用》2014,23(2):183-188

机构知识库作为一种新型的学术交流模式和开放获取活动的绿色通道已逐渐成为国内外图书情报界关注的新焦点,随着机构库的发展其数据规模也在不断扩大,传统的存储模式已经不能满足日益增长的存储需求．在对机构库内容存储特点的研究基础上建立基于HDFS与Dspace的分布式机构库Hdspace．首先提出一种小文件合并生成新的存储文件,并对文件提出基于学科分类的两级索引,结合索引预缓存机制提高小文件的读取响应,为海量小文件存储及后续的信息高效利用提供了一种解决方案,通过模拟测试显示本模式能够大大提高机构知识库小文件的存储、读取以及检索效率．相似文献

16.

基于MapFile 的HDFS 小文件存储效率问题

洪旭升林世平《计算机系统应用》2012,21(11):179-182

针对HDFS最初是为流式访问大文件而开发的,而对于大量小文件的存储效率不高问题,采用MapFile设计一个HDFS中存储小文件的方案．该方案的主要思想是在上传HDFS时增加一个文件类型判断模块,建立一个小文件队列,将小文件序列化存入一个MapFile容器,合并成大文件,并建立相应的索引文件,有效降低文件数目和提高访问效率．通过和现有的HadoopArchives（HARfiles）文件归档解决小文件问题的方案对比,实验结果表明,基于MapFile的存储小文件方案可以更为有效的提高小文件存储性能和减少HDFS文件系统的节点内存消耗．相似文献

17.

单机下Hadoop小文件处理性能分析 总被引：1，自引：0，他引：1

下载免费PDF全文

袁玉崔超远乌云陈祝红《计算机工程与应用》2013,49(3):57-60

Hadoop主要是针对大量数据进行分布式处理的软件框架,即适合于处理大文件,但它们是否也适合处理小文件值得商榷。以词频统计为例,通过在单机环境下一些典型文件测试集的实验,对比了不同文件输入格式对Hadoop处理小文件性能的差异。从Hadoop的工作流程和原理上解释了出现此性能差异的原因。通过分析得出多个小文件整合为一个数据片split有助于改善Hadoop处理小文件性能。相似文献

18.

HDFS中海量小文件合并与预取优化方法的研究

郑通郭卫斌范贵生《计算机科学》2017,44(Z11):516-519, 541

HDFS在存储海量文件时具有明显的优势, 但在存储小文件占绝大多数的海量文件时,HDFS单个NameNode的存储架构会导致其性能严重降低。为此,提出一种基于合并思想的方案,即将小文件合并为大文件,同时建立小文件到合并文件的映射关系,并将其存于HBase中。为了提高读取速度,建立了基于LRU的预取机制。实验表明,该方法能明显提高HDFS在处理海量文件时的整体性能。相似文献

19.

海量样本数据集中小文件的存取优化研究

下载免费PDF全文

马振哈力旦·阿布都热依木李希彤《计算机工程与应用》2018,54(22):80-84

针对Hadoop分布式文件系统（Hadoop Distributed File System,HDFS）在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,提出一种面向样本数据集存取优化方案,优化样本数据集中小文件的写入、读取、添加、删除和替换策略。该方案根据硬件配置测得大、小文件的分界点,通过变尺度堆栈算法按样本数据集的目录结构将小文件合并存储至HDFS;结合行键优化策略将文件索引存储在HBase数据表中;搭建基于Ehcache缓存框架的预取机制。实验结果表明,该方案降低了主节点的内存消耗,提高了文件的读取效率,实现了对海量样本数据集中小文件的高效存取。相似文献

20.

一种基于HADOOP的办公文件存储方法

杜继华吴伟明谷勇浩《软件》2012,33(10):6-8

HADOOP分布式文件系统为解决分布式存储提供了良好的平台。为了良好的管理办公系统中的日常办公文件,针对办公文件占用空间小而数量多而导致的体积庞大的特点,系统应用HADOOP分布式文件系统,为了减少命名节点的内存过大,提出了使用二进制序列化合并小文件的方案,并设置合并器,采取闲时合并,忙时存在本地降低写操作时间。并根据文件的属性分类归并写入,可以在查询时避免不必要的遍历而降低速度,提高检索性能。通过测试文件合并时间、文件上传时间以及文件查找读取时间,本方法可以很好的处理办公文件的上传与读取,解决办公文件的存储问题。相似文献