期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于海量数据存储系统多级存储介质的热点数据区分方法 总被引：2，自引：0，他引：2

宋丽娜戴华东任怡《计算机研究与发展》2012,(Z1):6-11

海量数据的应用导致文件读写压力变大,必然需要考虑文件I/O带来的系统性能瓶颈.考虑到不同存储设备性能和成本不同,而且数据访问具有时间和空间局部性,因此需要进行分级存储.考虑到数据存在着周期性的变化规律,数据访问的热度是变化的,海量存储系统中相当大比例的数据静止不动,而且高性能存储设备有限,因此基于分级存储技术进行数据迁移,并且对常规价值评定模型进行改进后提出它所适用的基于文件级的数据迁移算法.针对并发访问读写压力变大之后对数据进行迁移的场景,用Web并发访问测试工具来对数据迁移之后的硬件读写进行评估,经过对Web服务器并发访问响应时间的测试验证,与常规迁移方法相比该算法的确改进了系统的性能. 相似文献

2.

海量样本数据集中小文件的存取优化研究

下载免费PDF全文

马振哈力旦·阿布都热依木李希彤《计算机工程与应用》2018,54(22):80-84

针对Hadoop分布式文件系统（Hadoop Distributed File System,HDFS）在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,提出一种面向样本数据集存取优化方案,优化样本数据集中小文件的写入、读取、添加、删除和替换策略。该方案根据硬件配置测得大、小文件的分界点,通过变尺度堆栈算法按样本数据集的目录结构将小文件合并存储至HDFS;结合行键优化策略将文件索引存储在HBase数据表中;搭建基于Ehcache缓存框架的预取机制。实验结果表明,该方案降低了主节点的内存消耗,提高了文件的读取效率,实现了对海量样本数据集中小文件的高效存取。相似文献

3.

基于随机森林的高能物理数据放置策略

下载免费PDF全文

程振京程耀东陈刚汪璐李海波胡庆宝《计算机工程与应用》2020,56(21):60-64

随着LHAASO高海拔宇宙线等高能物理实验规模的不断扩大,每年需要存储PB级的海量物理数据。高能物理海量存储系统一般采用随机的数据放置策略,没有考虑数据访问场景和服务器节点、存储设备的差异性。针对以上问题,提出一种异构存储环境下基于随机森林算法的数据放置策略,根据存储设备性能差异划分快慢存储池,同时对后期文件的读写访问场景进行预测和识别,综合考虑当前设备负载为数据找到最佳的放置位置。使用真实物理实验数据验证了算法的有效性。相似文献

4.

基于Hadoop的访问热点副本迁移技术

冯钧王纯朱康康魏童童《计算机与现代化》2016,(1):108

提出一种云环境下的访问热点负载均衡模型：基于节点的吞吐量与响应时间等主要参考指标,构建节点负载判定模块;文件在HDFS存储的过程中,将文件对应的数据块编号与存储路径相结合,设计存放在数据节点中的数据块到文件目录映射表;提出一种基于节点负载以及节点的存储空间的迁移源节点和目标节点选择方法;基于机架感知的机制,制定一种动态副本迁移方案。最后利用执行器下发指令给相应的数据节点,执行具体的迁移任务以及完善迁移后副本因子等参数信息的调整。通过迅速扩散副本的方式,来增加热点文件的副本数量,使得系统能够对外提供更大的吞吐量,缩短系统反应时间。  相似文献

5.

基于 Hadoop平台的并行特征匹配算法研究

李宝禄张伟《计算机应用研究》2014,(11)

很多大企业采用Hadoop分布式文件系统来存储海量数据,而传统的病毒扫描主要针对单机系统环境。研究如何并行化病毒扫描中的核心特征匹配算法来处理分布式海量数据。在Hadoop平台下,基于MapReduce并行编程模型来实现大数据高效的病毒扫描,特别是针对Hadoop处理海量小文件效率低的问题,通过将小文件合并,再利用索引来提高海量小文件的处理效率。实验结果表明,提出的并行特征匹配算法可以显著降低处理时间,适用于大数据的病毒扫描。相似文献

6.

基于NoSQL的海量航空物流小文件分布式多级存储方法

丁建立郑峰弓李永华罗云生《计算机应用研究》2017,34(5)

为了解决航空物流领域海量小文件存储效率和访问效率不高的问题,提出一种基于Nosql的海量小文件分布式多级存储方法,充分考虑到数据的时效性、本地性、操作的并发性以及文件之间的相关性,先根据相关性将文件合并,然后采用分布式多级存储,使用内存式Redis数据库做缓存,HDFS做数据的持久化存储,其过程采用预取机制。实验结果表明,该方法有效提高了小文件的存取效率和磁盘的利用率,显著地降低了网络的带宽占用和集群NameNode的内存消耗,适合解决航空领域海量小文件存储问题。相似文献

7.

结合云存储的新一代博客系统架构

张宝军潘瑞芳《计算机应用》2015,35(8):2158-2163

为解决新一代博客系统海量信息的存储问题,结合云存储技术,提出了一种新的博客系统架构BlogCloud。该架构以分布式存储技术为核心,避免了集中式存储的性能瓶颈问题,可扩展性高;采用半分布式P2P网络拓扑结构,能快速定位网络中的存储资源;只将稳定节点作为存储节点,避免了不稳定节点带来的网络波动问题;遵循就近存储原则,同时在客户端缓存文件,减少了网络传输;允许用户自定义文件分块的大小,对大的文件可分块并行传输,提高了文件传输的速度,对小的文件则不用分块,节省了文件分块、合并的开销;具备数据冗余备份功能,在网络中多个存储节点保留文件副本,并实行异地备份,增强了数据的安全性和可靠性。在虚拟机上对BlogCloud和ZSWIN博客系统进行比较测试,结果显示:BlogCloud的吞吐量明显高于ZSWIN;将不稳定节点作为存储节点会降低BlogCloud的性能;在存储节点和索引节点减少的情况下BlogCloud仍然能够稳定运行,可靠性较高。结果表明,BlogCloud架构能够满足新一代博客系统的存储要求。相似文献

8.

海量小数据分布式聚类优化与负载均衡算法

《计算机工程》2018,(2):40-45

Sensor FS系统中的集中式传感器聚类算法会使主节点成为系统瓶颈,并且在传感器量大时速度较慢。为此,分别设计分布式传感器聚类算法和细粒度负载均衡算法对系统进行改进。令主节点只负责初始写调度,传感器再次发出写请求时则直接与对应的ChunkServer节点进行交互。在各ChunkServer节点内部利用传感依赖图进行传感器聚类,得到多个传感器类后由主节点聚类。在此基础上,根据各传感器产生数据的速度计算服务器负载,以传感器类为最小单位进行细粒度迁移。实验结果表明,分布式聚类算法和负载均衡算法能有效提升Hadoop分布式文件系统对海量传感小数据的读写性能。相似文献

9.

HMSST+:基于分布式内存数据库的HMSST算法优化

董书暕汪璟玢陈远《计算机科学》2016,43(3):220-224, 230

为了解决HMSST(HashMapSelectivityStrategyTree)算法在集中式环境下受限于有限内存的问题,提出了一种新的分布式SPARQL查询优化算法HMSST+。该算法基于Redis提出了一种分布式存储方案,通过平行扩展存储节点和分布式调度,使得海量RDF数据的查询得以在分布集群的内存中实现。采用LUBM1000所大学的测试数据集对查询策略进行了实验,结果表明提出的方法与HMSST算法相比具有更好的扩展能力,与现有的分布式查询方案相比也具有更好的查询效率。相似文献

10.

多机群网格的数据负载均衡模型

黄雨田陈庆奎《计算机应用》2008,28(1):52-55

在多个计算机机群构成的网格环境下,为了提高异构资源的利用率,提出了一个数据负载均衡模型。根据查询节点的计算能力、存储能力、通信能力,研究了查询节点的性能模型。利用数据饱和度、数据负载矩阵、数据迁移技术描述了系统的数据负载均衡机制。试验结果表明：该模型适合海量数据的查询。相似文献

11.

多模态医疗数据中海量小文件存储优化方法

曾梦邹北骥张文生杨雪冰朱承璋《软件学报》2023,34(3):1451-1469

Hadoop分布式文件系统(HDFS)通常用于大文件的存储和管理,当进行海量小文件的存储和计算时,会消耗大量的NameNode内存和访问时间,成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题,提出一种基于双层哈希编码和HBase的海量小文件存储优化方法.在小文件合并时,使用可扩展哈希函数构建索引文件存储桶,使索引文件可以根据需要进行动态扩展,实现文件追加功能.在每个存储桶中,使用MWHC哈希函数存储每个文件索引信息在索引文件中的位置,当访问文件时,无须读取所有文件的索引信息,只需读取相应存储桶中的索引信息即可,从而能够在O(1)的时间复杂度内读取文件,提高文件查找效率.为了满足多模态医疗数据的存储需求,使用HBase存储文件索引信息,并设置标识列用于标识不同模态的医疗数据,便于对不同模态数据的存储管理,并提高文件的读取速度.为了进一步优化存储性能,建立了基于LRU的元数据预取机制,并采用LZ4压缩算法对合并文件进行压缩存储.通过对比文件存取性能、NameNode内存使用率,实验结果表明,所提出的算法与原始HDFS、HAR、MapFile、TypeStorage以及... 相似文献

12.

基于HDFS的小文件存储与读取优化策略 总被引：1，自引：0，他引：1

张海马建红《计算机系统应用》2014,23(5):167-171

本文对HDFS分布式文件系统进行了深入的研究,在HDFS中以流式的方式访问大文件时效率很高但是对海量小文件的存取效率比较低. 本文针对这个问题提出了一个基于关系数据库的小文件合并策略,首先为每个用户建立一个用户文件,其次当用户上传小文件时把文件的元数据信息存入到关系数据库中并将文件追加写入到用户文件中,最后用户读取小文件时通过元数据信息直接以流式方式进行读取. 此外当用户读取小于一个文件块大小的文件时还采取了数据节点负载均衡策略,直接由存储数据的DataNode传送给客户端从而减轻主服务器压力提高文件传送效率. 实验结果表明通过此方案很好地解决了HDFS对大量小文件存取支持不足的缺点,提高了HDFS文件系统对海量小文件的读写性能,此方案适用于具有海量小文件的云存储系统,可以降低NameNode内存消耗提高文件读写效率. 相似文献

13.

海量教育资源中小文件的存储研究

游小容曹晟《计算机科学》2015,42(10):76-80

Hadoop作为成熟的分布式云平台,能提供可靠高效的存储服务,常用来解决大文件的存储问题,但在处理海量小文件时效率显著降低。提出了基于Hadoop的海量教育资源中小文件的存储优化方案,即利用教育资源小文件间的关联关系,将小文件合并成大文件以减少文件数量,并用索引机制访问小文件及元数据缓存和关联小文件预取机制来提高文件的读取效率。实验证明,以上方法提高了Hadoop文件系统对小文件的存取效率。相似文献

14.

基于EHDFS的海量小文件存储与检索方法

李文武张建锋王景林《计算机工程与设计》2022,43(2):376-383

为有效解决HDFS面对多类型的海量小文件存在存储效率与检索速率低下的问题,构建一种基于EHDFS架构的存取方案.存储阶段,引入最优化策略,建立新的合并存储模型,使小文件最大化填满且均匀分布于Block,提高DataNode空间利用,降低NameNode内存开销.检索阶段,改进MapFile映射关系结构、索引存储位置与组... 相似文献

15.

基于Ceph存储系统的小文件存储优化方案

陈法河柴小丽《计算机系统应用》2022,31(2):108-113

针对Ceph存储系统面对小文件存储时存在元数据服务器性能瓶颈、文件读取效率低等问题.本文从小文件之间固有的数据关联性出发,通过轻量级模式匹配算法,提取出关联特征并以此为依据对小文件进行合并,提高了合并文件之间的合理性,并在文件读取时将同一合并文件内的小文件存入客户端缓存来提高缓存读取命中率,经过实验验证本文的方案有效的提高了小文件的访问效率. 相似文献

16.

基于小文件的内存云存储优化策略

英昌甜于炯鲁亮刘建矿《计算机应用》2014,34(11):3104-3108

由于内存云RAMCloud采用日志段的方式存储数据,因此当大量小文件存储于RAMCloud集群时,每个小文件独占整个段,会产生较多的段内碎片,从而导致内存的有效利用率较低以及大量的内存空间浪费。为了解决这个问题,提出基于文件分类的RAMCloud小文件存储优化策略。该策略首先根据文件的相关特性将小文件分为结构相关文件、逻辑相关文件以及相互独立文件三类;然后在存储时对结构相关的文件使用文件合并算法,逻辑相关和相互独立的小文件则使用分组算法。实验结果表明:同未进行优化的RAMCloud存储策略相比,该策略能有效提高集群内存利用率。相似文献

17.

一个网络文件存储系统TNS关键技术

徐阳《计算机工程与应用》2015,51(2):71-75

基于多服务器架构、为多用户服务的网络文件存储系统普遍存在资源分配不均,重复文件多,存储空间浪费严重的问题。设计并实现了TNS网络文件存储系统,该系统基于多服务器存储架构,分别由用户服务器、索引服务器、数据服务器、共享服务器、管理服务器和登录服务器组成,为多用户服务,采用一致性Hash实现负载均衡,支持在客户端进行文件粒度的重复数据删除。经过实际生产环境运行测试,具有良好的负载均衡能力和重复数据删除功能,可以有效节省存储空间,提高存储设备利用率。相似文献