首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
基于海量数据存储系统多级存储介质的热点数据区分方法   总被引:2,自引:0,他引:2  
海量数据的应用导致文件读写压力变大,必然需要考虑文件I/O带来的系统性能瓶颈.考虑到不同存储设备性能和成本不同,而且数据访问具有时间和空间局部性,因此需要进行分级存储.考虑到数据存在着周期性的变化规律,数据访问的热度是变化的,海量存储系统中相当大比例的数据静止不动,而且高性能存储设备有限,因此基于分级存储技术进行数据迁移,并且对常规价值评定模型进行改进后提出它所适用的基于文件级的数据迁移算法.针对并发访问读写压力变大之后对数据进行迁移的场景,用Web并发访问测试工具来对数据迁移之后的硬件读写进行评估,经过对Web服务器并发访问响应时间的测试验证,与常规迁移方法相比该算法的确改进了系统的性能.  相似文献   

2.
虚拟网络存储系统自适应性研究   总被引:2,自引:0,他引:2  
在虚拟网络存储系统中通常包含各种异构的存储设备节点,传统数据放置策略往往侧重于研究对系统I/O性能的影响。该文在分析了虚拟网络存储系统特点的基础上,提出了一种提高系统自适应性的均分hash算法,实验证明,该算法能有效地解决异构网络存储环境的数据放置不平衡问题,从而提高了系统的自适应性。  相似文献   

3.
高能物理计算是典型的数据密集型计算,其主要采用基于文件的分级存储方案,根据访问热度的不同将数据存储于不同性能的存储设备上,然而当前数据热度预测采用基于人工经验的启发式算法,准确率较低。提出一种借助长短期记忆网络预测文件未来访问热度的方法,包括网络结构设计、训练和预测算法等。该方法通过划分动态时间窗口构造文件访问特征的时序序列,预测不同数据的访问趋势。在LHAASO高能物理实验数据集上的实验结果表明,与SVM、MLP等算法相比,该方法预测准确率提升了30%左右,具有更强的适用性。  相似文献   

4.
《计算机工程》2017,(1):13-19
为提高移动云数据存储远程服务器的计算和存储能力,提出一种改进的移动云数据存储算法。利用表决数据分配和表决数据处理框架,构建考虑节点失效概率的重采样期望传播时间计算模型,并建立整合能源效率和容错性的表决动态网络。采用概率分布估计对动态网络模型进行存储路径优化,应用Gibbs采样解决分布估计的样本数据高维耦合和无监督训练问题。实验结果表明,与贪心算法、随机放置算法和分布估计算法相比,该算法具有更高的能源效率和存储可靠性。  相似文献   

5.
为缓解单一存储设备存储海量小文件的压力,提出了一种国产化环境下的海量小文件数据分布式存储技术。利用聚类算法实现海量小文件合并。以达到最大均衡度为目标,在多项约束条件下利用人工鱼群算法求解分布式存储方案。按照分布式存储方案将海量小文件数据迁移到存储节点及其存储设备上,完成海量小文件数据分布式存储。结果表明:14个存储节点和28个存储设备的内存占用较为均衡,内存资源利用率较高。将小文件样本迁移并存储到节点的过程中,分布式存储均衡度整体波动均超过设定的阈值1.0,说明分布式存储均衡度较好,证明了所提存储技术的有效性。  相似文献   

6.
三级存储设备随机调度研究   总被引:3,自引:0,他引:3  
随着信息时代的来临,世界上每时每刻都有大量的数据产生。因此有必要找到一种更加方便和有效的方式来管理这些海量的数据信息。为了解决海量信息管理中的数据存储问题,文章讨论了诸如磁带库、光盘库等三级存储设备在海量存储系统中的应用。另外,针对目前三级存储设备I/O调度算法的一些缺陷,提出了一种自适应的随机I/O调度算法来弥补这些缺点。  相似文献   

7.
传统存储架构采用的是两级平台:在线存储和离线海量存储。在线存储又称工作级存储,采用高速数据存储设备,满足计算平台对数据访问的速度要求。一般在线存储有磁盘阵列等,价格相对昂贵。  相似文献   

8.
基于MapReduce的Canopy-Kmeans改进算法   总被引:2,自引:0,他引:2  
针对分布式Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行了改进,避免了Cannopy选取的盲目性;采用MapReduce并行计算框架对算法进行了并行扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场景。以海量互联网新闻信息聚类作为应用背景,对改进后的算法进行了实验分析。实验结果表明:该方法较随机挑选Canopy策略在分类准确率以及抗噪能力上都明显提高,而且在处理海量数据时表现出较大的性能优势。  相似文献   

9.
伴随着高速网络传输技术的发展,存储区域网络逐渐兴起并得到广泛应用。存储区域网络具有专用的存储设备、连接方式和网络协议,为海量数据安全存储提供了解决方案。本文介绍了基于存储区域网络的海量数据容灾和备份系统的设计与实现方法,探讨了如何利用存储区域网络为企业关键业务提供海量数据信息管理服务。  相似文献   

10.
数据副本管理是云计算系统管理的重要组成部分,在云计算系统的海量数据处理过程中,针对目前已知的数据存放与资源调度算法存在考虑副本动态性和可靠性的不足,提出了一种动态的副本放置机制。该机制基于区域结构,考虑数据处理时其副本的数量和放置位置,以及副本的产生对于内存和带宽等系统资源的开销:首先根据云存储中的副本信息,对被访问频率高且访问平均响应时间长的数据信息进行复制,并给出副本数量的计算方法;考虑缩小副本分布的节点选择范围,提出动态的副本放置算法——DRA,将一定范围内的节点根据提出的域的划分,进行放置筛选,以存放数据副本。实验结果表明,提出的动态放置机制不仅减少了低访问率副本对系统存储空间的浪费;同时也减少了高访问率副本所需跨节点的传输延迟,有效提高了云存储系统中的数据文件的访问效率、负载的均衡水平,以及云存储系统的可靠性和可用性。  相似文献   

11.
数据副本管理机制是云存储系统的重要组成部分。为了提高云存储系统的可伸缩性、可靠性,同时改善用户访问时间,通常采用多数据副本机制,并且需要解决数据副本放置问题。为此,提出了一种用于云存储系统的智能多数据副本放置机制。该机制基于p-中心模型,以最小化访问代价为优化目标,基于遗传算法(genetic algorithm,GA)确定优化的数据副本放置方案,基于生物地理学优化(biogeography-based optimization,BBO)算法确定用户访问请求对数据副本的优化分配。基于CloudSim进行了仿真实现和性能评价,结果表明,云存储智能多数据副本放置机制是可行和有效的。  相似文献   

12.
针对云存储系统节点在数据分布策略和系统响应时间方面的综合负载计算问题,提出了一种云存储系统的负载均衡算法,并对该算法进行了验证。算法基于层次分析法(Analytic Hierarchy Process,AHP),通过建立综合评估指标体系,从可用存储空间、可用CPU、可用内存和访问热度四个方面,计算各个存储节点的综合负载,并据此对数据存取进行均衡调度。验证结果表明,通过调整不同指标的权重,算法能够很好地满足不同的应用需求,同时,该算法能够很好地反应各节点的综合负载,实现云存储系统整机性能的优化,尤其适用于一些高并发的大数据存储。  相似文献   

13.
Ceph分布式存储系统正成为广泛使用的开源云环境存储解决方案。异构存储如果应用有效的数据管理策略,则能够在保持低成本的同时提供大容量和高性能存储。在Ceph中使用异构存储设备不能有效发挥异构存储设备的性能,由于数据的多个副本可以存放到不同的存储介质中,因此不同的副本组合的性能和成本都不一样。针对Ceph提出一种面向异构存储的数据放置方法,通过划分多种不同的副本组合,根据数据热度和读写比例将不同的数据放到不同的副本组合上,在提升系统性能的同时有效地控制了系统容量成本。  相似文献   

14.
针对海量存储系统中数据分布存在可扩展性以及灵活性的问题,提出一种高效的数据分布算法。该算法采用一致性哈希的存储思想,利用“二分”的映射方式映射物理存储节点,摒弃了Chord算法中每台节点对路由表维护的做法,实现O(1)时间内直接路由。该算法还采用了“微分逼近”的思想,实现数据的均匀分布性。实验结果证明, TTD算法具备数据分布无关性的特点,且当物理节点逼近2^N (N〉0)时,数据分布就会越均匀。反之,可以通过虚拟节点的引入,确保数据的均匀分布。算法改进了海量存储系统中数据分布的均匀程度,有效优化了系统的整体性能。  相似文献   

15.
文章在对NFS协议进行分析的基础上,针对于Linux用户设计并实现了基于NFS协议的存储加密代理——NFSA,以实现企业文件数据在网络存储设备上的加密存储。NFSA完成对于Linux用户数据文件的安全共享与存储,并提供多种访问控制规则相结合的访问控制机制、权限分离的安全审计机制,保证文件数据在网络存储设备上的安全。最后通过实验测试NFSA的基本功能,保证了NFSA自身功能的可用。  相似文献   

16.
近年来对NTFS引导扇区的研究越来越受到数据恢复、计算机取证从业人员的重视,一个重要原因是因为NTFS引导扇区故障在数据故障中占有率居高不下,许多文献报告了NTFS引导扇区易被病毒感染的特性。然而,对NTFS引导扇区出现实质性损坏后的补救与修复研究却停滞不前。文章通过分析引导扇区相关的文件系统参数,采用借鉴、填补的方法,在其它文件系统参数中寻找有用信息,搜寻范围包括引导扇区备份、主控文件表、分区表。文章提出的修复系统不仅可以快速准确判断NTFS引导扇区故障,还能根据故障判断结果自动修复故障。相比同类系统,该系统不仅智能化程度更高,修复速度也大幅提升,为广大数据丢失者节约了宝贵精力和时间。  相似文献   

17.
Scalable storage architectures allow for the addition or removal of storage devices to increase storage capacity and bandwidth or retire older devices. Assuming random placement of data objects across multiple storage devices of a storage pool, our optimization objective is to redistribute a minimum number of objects after scaling the pool. In addition, a uniform distribution, and hence a balanced load, should be ensured after redistribution. Moreover, the redistributed objects should be retrieved efficiently during the normal mode of operation: in one I/O access and with low complexity computation. To achieve this, we propose an algorithm called random disk labeling (RDL), based on double hashing, where storage can be added or removed without any increase in complexity. We compare RDL with other proposed techniques and demonstrate its effectiveness through experimentation.Received: 23 June 2003, Accepted: 16 February 2004, Published online: 23 June 2004Edited by: G. AlonsoThis research has been funded in part by NSF grants EEC-9529152 (IMSC ERC), IIS-0082826 (ITR), IIS-0238560 (CAREER), IIS-0324955 (ITR), and IIS-0307908 and unrestricted cash gifts from Okawa Foundation and Microsoft. Any opinions, findings, and conclusions or recommendations expressed in this material are those of the authors and do not necessarily reflect the views of the National Science Foundation.  相似文献   

18.
分布式文件系统HDFS采用机架感知的副本放置策略在一定程度上保证了数据的可靠性,但系统运行一段时间后会出现数据分布不均衡的情况.虽然使用Balancer程序可以对数据进行重分布,但对数据存储不均衡处理的后置性影响了系统的数据读取速率和可靠性.采用多层一致性哈希的副本放置策略,首先通过一致性哈希算法获得数据副本对应的机架位置,再通过一致性哈希算法获得该机架下对应的数据节点位置并最终成为存储位置.一致性哈希算法在查找对应位置的过程中采用地址等分和虚拟节点的技术,提高了查找的效率和分布的均衡性.该策略在数据均衡存储、上传速率方面较原有策略都有很大的提高,并且具有数据自适应性的能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号