期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

孙玉强王文闻顾玉宛《计算机应用研究》2017,34(8)

为了解决HDFS(Hadoop Distributed File System)在存储海量小文件时遇到的NameNode内存瓶颈等问题,提高HDFS处理海量小文件的效率,提出一种基于小文件合并与预取的存取优化方案。首先通过分析大量小文件历史访问日志,得到小文件之间的关联关系,然后根据文件相关性将相关联的小文件合并成大文件后再存储到HDFS。从HDFS中读取数据时,根据文件之间的相关性,对接下来用户最有可能访问的文件进行预取,减少了客户端对NameNode节点的访问次数,提高文件命中率和处理速度。实验结果证明,该方法有效提升了Hadoop对小文件的存取效率,降低了NameNode节点的内存占用率。相似文献

2.

海量样本数据集中小文件的存取优化研究

下载免费PDF全文

马振哈力旦·阿布都热依木李希彤《计算机工程与应用》2018,54(22):80-84

针对Hadoop分布式文件系统（Hadoop Distributed File System,HDFS）在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,提出一种面向样本数据集存取优化方案,优化样本数据集中小文件的写入、读取、添加、删除和替换策略。该方案根据硬件配置测得大、小文件的分界点,通过变尺度堆栈算法按样本数据集的目录结构将小文件合并存储至HDFS;结合行键优化策略将文件索引存储在HBase数据表中;搭建基于Ehcache缓存框架的预取机制。实验结果表明,该方案降低了主节点的内存消耗,提高了文件的读取效率,实现了对海量样本数据集中小文件的高效存取。相似文献

3.

HDFS中高效存储小文件的方法

尹颖林庆林涵阳《计算机工程与设计》2015,(2):406-409

为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一块中存储多个小文件,并对系统加以实现,为海量小文件的存储提供了一个有效的解决方案。实验结果表明,该机制可以在数据迅速增长的背景下实现海量小文件的高效存取。相似文献

4.

面向Hadoop分布式文件系统的小文件存取优化方法

李铁燕彩蓉黄永锋宋亚龙《计算机应用》2014,34(11):3091-3095

为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法--SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装成大文件之后存至HDFS;当从HDFS获取文件时,根据基于文件关联关系的预取算法来提高文件访问效率,并提出基于预取的缓存替换算法来管理缓存空间,从而提高文件的命中率。实验结果表明,SmartFS有效减少了HDFS中NameNode的元数据空间,减少了用户与HDFS的交互次数,提高了小文件的存储效率和访问速度。相似文献

5.

基于磁光虚拟存储系统的文件调度算法

王子炫魏力张育平《计算机与现代化》2019,(5):7

基于光盘库的Hadoop分布式文件系统（HDFS光盘库）在单位存储成本、数据安全性、使用寿命等方面非常符合当前大数据存储要求，但是HDFS不适合存储大量小文件和实时数据读取。为了使HDFS光盘库能更好地运用到更多大数据存储场景，本文提出一种更加适合大数据存储的磁光虚拟存储系统（MOVS, Magneto-optical Virtual Storage System）。系统在HDFS光盘库与用户之间加入磁盘缓存，并在磁盘缓存内通过文件标签分类、虚拟存储、小文件合并等技术将磁盘缓存内小文件合并为适合HDFS光盘库存储的大文件，提高系统的数据传输速度。系统还使用了文件预取、缓存替换等文件调度算法对磁盘缓存内文件进行动态更新，减少用户访问HDFS光盘库次数。实验结果表明，MOVS相对HDFS光盘库在响应时间和数据传输速度方面得到很大改善。相似文献

6.

HDFS中海量小文件合并与预取优化方法的研究

郑通郭卫斌范贵生《计算机科学》2017,44(Z11):516-519, 541

HDFS在存储海量文件时具有明显的优势, 但在存储小文件占绝大多数的海量文件时,HDFS单个NameNode的存储架构会导致其性能严重降低。为此,提出一种基于合并思想的方案,即将小文件合并为大文件,同时建立小文件到合并文件的映射关系,并将其存于HBase中。为了提高读取速度,建立了基于LRU的预取机制。实验表明,该方法能明显提高HDFS在处理海量文件时的整体性能。相似文献

7.

一种提高海量电子健康档案存储性能的方法

《计算机应用与软件》2016,(1)

医疗旅游是目前兴起的一个新型产业,面对今后日益增长的巨大数据,有效数据的存储和用户的快速访问是急需解决的课题。Hadoop的出现满足了这一需求。但Hadoop并不适合用来处理大量的小文件,其HDFS(Hadoop distributed file system)采用主从架构,存储大量的小文件时,元数据快速增加,Name Node内存被大量占用,读取性能也受到一定的影响,直接降低了整个系统的扩展性及效率。利用RDBMS和Hadoop的优势,提出一种改进的小文件存储优化方案,同时又根据电子健康档案数据的特点,提出按副本组进行数据传输存储的方案,并采用数据预取机制,提高访问效率。实验表明,该方法能有效提高电子健康档案中的小文件存储和读取的性能,一定程度上很好地解决了NameNode内存瓶颈问题。相似文献

8.

基于改进HDFS的冠字号小文件分布式存储研究

徐俊王庆华赵云龙《数字社区&智能家居》2014,(17):3980-3985

针对冠字号小图片存储到HDFS系统中带来的访问瓶颈问题,改进了原有的HDFS系统,新提出的分布式系统机制是充分基于文件相关性(File Correlation)进行合并处理的HDFS(FCHDFS)。由于HDFS中所有的文件都是由单一的主节点服务器托管-NameNode,每个存储到HDFS的文件在NameNode主存储器中都需要存储它的元数据,这必然导致小文件数量越大HDFS性能就越差。存储和管理大量的小文件,对NameNode是一个沉重的负担。可以存储在HDFS的文件数量是受到NameNode的内存大小约束。为了提高存储和访问HDFS上的冠字号小文件的效率,该文提出了一个基于文件关联性的小文件高效处理机制。在这种方法中,按照客户和时间区分,一组相关的文件相结合为一个大文件,从而减少文件数目。而新建的索引机制能从相应的联合文件中访问单个文件。实验结果表明,FCHDFS大大减少主节点内存中元数据数量,也提高了存储和访问大量小文件的效率。相似文献

9.

基于HDFS的海量文件存储优化设计

李娜《电脑编程技巧与维护》2016,(7):63-65

针对Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)在存储海量数据时对小文件支持性能低下的问题,提出了基于HDFS的通用文件存储系统(Common File Storage-Hadoop Distributed File System,CFSHDFS)。该方案采用了分类处理的设计思想,区别对待大文件和小文件。对大文件不做任何处理,按照HDFS原有的流程完成既定的操作;对小文件的存取,经过缓存、预读、合并等机制的处理,从而在提高Namenode内存利用率和Datanode空间利用率的基础上,提高了小文件的读写性能。区别对待文件的处理以及对小文件的一系列的处理,对用户来说都是透明的,因此,该方案并不会增加用户使用HDFS的复杂性。相似文献

10.

基于EHDFS的海量小文件存储与检索方法

李文武张建锋王景林《计算机工程与设计》2022,43(2):376-383

为有效解决HDFS面对多类型的海量小文件存在存储效率与检索速率低下的问题,构建一种基于EHDFS架构的存取方案.存储阶段,引入最优化策略,建立新的合并存储模型,使小文件最大化填满且均匀分布于Block,提高DataNode空间利用,降低NameNode内存开销.检索阶段,改进MapFile映射关系结构、索引存储位置与组... 相似文献

11.

Hadoop中处理海量小文件的方法

李旭李长云张清清胡淑新周玲芳《计算机系统应用》2015,24(11):157-161

针对Hadoop中提供底层存储的HDFS对处理海量小文件效率低下、严重影响性能的问题.设计了一种小文件合并、索引和提取方案,并与原始的HDFS以及HAR文件归档方案进行对比,通过一系列实验表明,本文的方案能有效减少Namenode内存占用,提高HDFS的I/O性能. 相似文献

12.

Hdspace分布式机构知识库系统的小文件存储

卞艺杰陈超李亚冰陆小亮《计算机系统应用》2014,23(2):183-188

机构知识库作为一种新型的学术交流模式和开放获取活动的绿色通道已逐渐成为国内外图书情报界关注的新焦点,随着机构库的发展其数据规模也在不断扩大,传统的存储模式已经不能满足日益增长的存储需求．在对机构库内容存储特点的研究基础上建立基于HDFS与Dspace的分布式机构库Hdspace．首先提出一种小文件合并生成新的存储文件,并对文件提出基于学科分类的两级索引,结合索引预缓存机制提高小文件的读取响应,为海量小文件存储及后续的信息高效利用提供了一种解决方案,通过模拟测试显示本模式能够大大提高机构知识库小文件的存储、读取以及检索效率．相似文献

13.

多模态医疗数据中海量小文件存储优化方法

曾梦邹北骥张文生杨雪冰朱承璋《软件学报》2023,34(3):1451-1469

Hadoop分布式文件系统(HDFS)通常用于大文件的存储和管理,当进行海量小文件的存储和计算时,会消耗大量的NameNode内存和访问时间,成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题,提出一种基于双层哈希编码和HBase的海量小文件存储优化方法.在小文件合并时,使用可扩展哈希函数构建索引文件存储桶,使索引文件可以根据需要进行动态扩展,实现文件追加功能.在每个存储桶中,使用MWHC哈希函数存储每个文件索引信息在索引文件中的位置,当访问文件时,无须读取所有文件的索引信息,只需读取相应存储桶中的索引信息即可,从而能够在O(1)的时间复杂度内读取文件,提高文件查找效率.为了满足多模态医疗数据的存储需求,使用HBase存储文件索引信息,并设置标识列用于标识不同模态的医疗数据,便于对不同模态数据的存储管理,并提高文件的读取速度.为了进一步优化存储性能,建立了基于LRU的元数据预取机制,并采用LZ4压缩算法对合并文件进行压缩存储.通过对比文件存取性能、NameNode内存使用率,实验结果表明,所提出的算法与原始HDFS、HAR、MapFile、TypeStorage以及... 相似文献

14.

一种基于授权机制的分布式文件系统小文件访问优化策略

曹风华《计算机系统应用》2013,22(7):183-186,176

针对分布式文件系统应用于海量小文件访问模式时, 元数据请求过多导致系统性能下降的问题, 提出了客户端元数据缓存授权机制的解决方案. 客户端从服务器读取元数据时, 申请相应类型的授权, 服务器分析请求并决定是否授予此客户端所访问的元数据的授权. 若客户端成功获取授权, 则将其与本地缓存的元数据相关联, 作为缓冲有效性的凭证. 当再次访问本地缓存的元数据时, 若有相关授权, 则可以直接从本地获取元数据, 无需向服务器发送缓存数据的有效性验证RPC. 仿真实验表明, 文中的方法有效的降低了客户端发送元数据请求RPC的数量, 节省了宝贵的网络带宽资源, 降低了元数据服务器的负载. 相似文献

15.

基于HDFS的小文件存储与读取优化策略 总被引：1，自引：0，他引：1

张海马建红《计算机系统应用》2014,23(5):167-171

本文对HDFS分布式文件系统进行了深入的研究,在HDFS中以流式的方式访问大文件时效率很高但是对海量小文件的存取效率比较低. 本文针对这个问题提出了一个基于关系数据库的小文件合并策略,首先为每个用户建立一个用户文件,其次当用户上传小文件时把文件的元数据信息存入到关系数据库中并将文件追加写入到用户文件中,最后用户读取小文件时通过元数据信息直接以流式方式进行读取. 此外当用户读取小于一个文件块大小的文件时还采取了数据节点负载均衡策略,直接由存储数据的DataNode传送给客户端从而减轻主服务器压力提高文件传送效率. 实验结果表明通过此方案很好地解决了HDFS对大量小文件存取支持不足的缺点,提高了HDFS文件系统对海量小文件的读写性能,此方案适用于具有海量小文件的云存储系统,可以降低NameNode内存消耗提高文件读写效率. 相似文献

16.

基于Hadoop的海量医疗小文件处理系统

魏强孔广黔吴云《计算机与数字工程》2015,43(4)

由于Hadoop自身不适合处理海量的小文件,论文提出了一种小文件处理方案,将小文件归并到SequenceFile中有效地解决了NameNode内存使用问题,设计了基于Hadoop的海量医疗小文件处理系统,实验证明该系统在内存使用以及处理大文件时具有良好的性能. 相似文献

17.

基于Hadoop平台的海量文本分类的并行化 总被引：1，自引：0，他引：1

向小军高阳商琳杨育彬《计算机科学》2011,38(10):184-188

文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。近来年随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据。在Ha- doop分布式平台下实现了一简单有效的文本分类算法—TFIDF分类算法,即一种基于向量空间模型的分类算法, 它用余弦相似度得到分类结果。在两个数据集上做了实验,结果表明,这一并行化算法在大数据集上很有效并可以在实际领域中得到良好的应用。相似文献

18.

国产化环境下的海量小文件数据分布式存储技术

梁懿 刘迪陈又咏董晓祺许志毅《计算技术与自动化》2023,(3):141-146

为缓解单一存储设备存储海量小文件的压力,提出了一种国产化环境下的海量小文件数据分布式存储技术。利用聚类算法实现海量小文件合并。以达到最大均衡度为目标,在多项约束条件下利用人工鱼群算法求解分布式存储方案。按照分布式存储方案将海量小文件数据迁移到存储节点及其存储设备上,完成海量小文件数据分布式存储。结果表明：14个存储节点和28个存储设备的内存占用较为均衡,内存资源利用率较高。将小文件样本迁移并存储到节点的过程中,分布式存储均衡度整体波动均超过设定的阈值1.0,说明分布式存储均衡度较好,证明了所提存储技术的有效性。相似文献

19.

一种Hadoop小文件存储优化策略研究

《电脑学习》2015,(3)

相似文献