首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
王理想  刘波  林伟伟 《微机发展》2013,(12):82-85,91
云数据处理系统中广泛采用了多数据副本复制技术,以防止数据丢失,如果数据复制的份数或位置不当,就会引起数据的可用性小于用户期望的数据可用性或存储空间的浪费(如复制份数过多)。针对该问题,经研究提出了一种基于模糊预测的数据复制优化模型,该模型由模糊预测模块和复制优化模块组成。模糊预测模块以节点信息(CPU信息、节点带宽信息、内存信息和硬盘信息)作为输入,预测出节点的可用性;复制优化模块把节点的可用性和用户期望的数据可用性作为输入,计算出在满足用户期望情况下数据复制的份数和位置。提出的复制优化模型能根据云数据存储系统中数据节点可用性实现动态的优化数据复制,能获得较高的存储性价比。模拟实验中基于模糊预测的数据复制优化模型策略需要的存储空间分别是Hadoop策略的42.62%,42.84%,但文件的平均可用性可达到88.69%,90.54%,表明提出的基于模糊预测的复制模型实现了在节省存储空间的同时保证了文件可用性。  相似文献   

2.
介绍了Oracle的应用程序接口OCI,分析了SQL的执行过程。针对常规数据存储方法在海量数据存储和系统并发用户较多时效率低下的问题,定义一种简洁的数据结构,创建存储过程并完成对SQL信息的压缩。对比优化前后的实验数据,可以发现此方法能显著提高Oracle的数据存储效率。  相似文献   

3.
通过利用WSN应用环境工作负载先验知识,提出了一种无线传感器网络存储数据可用性优化框架.首先根据节点的查询负载将WSN网络分区,然后提出了基于法定票数的数据复制策略以优化能耗,并保证满足给定的最小数据可用性要求.最后,基于真实的Great Duck Island WSN实验工作负载假设,通过四种代表不同工作负载的查询集合进行实验,结果表明,该策略可以在能耗、数据可用性和节点可用性间实现高效平衡.  相似文献   

4.
在云存储中心, 由于节点失效带来的文件数据块副本丢失不仅会影响系统的可靠性, 还会影响文件的并发访问效率. 针对Hadoop中默认的副本复制方法存在的问题, 即副本复制过程某些节点数据传输过于集中, 负载不均衡, 磁盘I/O吞吐率低, 提出一种基于热度的快速副本复制算法. 该算法优先复制热度高的数据块, 合理选择数据块复制的源节点和目的节点. 仿真结果表明, 该算法平衡了系统的工作负载, 提高了磁盘I/O吞吐率, 显著降低用户请求平均响应时间.  相似文献   

5.
本文分析了面向分布存储SIMD/MIMD并行机的并行程序的优化数据安放问题,在FORALL程序模型和MESH通信模型之上,研究了数据分解过程中减少通信代价的优化要求.我们使用维偏好图描述并行数组之间的对准需求,通过消除维偏好图中的冲突,可得到维对准图.一个维对准图就对应一个数据安放方案.维对准图的总代价越大,对应的通信代价就越小.文中给出了求最大代价维对准目的一个近似算法.  相似文献   

6.
孙彤  方滨兴 《计算机学报》1995,18(7):539-544
本文分析了面向分布存储SIMD/MIMD并行机的并行程序的优化数据安放问题,在FORALL程序模型和MESH通信模型上,研究了数据分解过程中减少通信代价的优化要求,我们使用编好图描述并行数组之间的对准需求,通过消除维偏好图中的冲突,可得到维对准对准图,一个维对准图就对应一个数据安放方案,维对准图的总代价越大,对应的通信代价就越小,文中给出了最大代价维对准图的一个近似算法。  相似文献   

7.
王正也  李书芳 《软件》2014,(11):94-100
从2002年起,某金融机构积累了大量的银行卡支付日志数据。随着业务的不断增长,数据集高速增长,原生的Hive的查询性能已经不能令人满意。文章研究了大数据及存储的现状,提出了一种基于存储日志的分析的Hive存储格式优化方法,通过该优化方法从查询时间和存储空间利用率两方面使系统性能得到提升,提升了查询效率。论文对该金融机构原有Hive存储系统通过基于存储日志分析的Hive存储格式优化方法进行改进,通过实际数据,充分证明了该方法的可行性。  相似文献   

8.
针对海量数据的指数级增长,现有的文件存储系统很难满足现有系统需求,提出基于Hadoop的Scool云存储平台,系统通过采用Linux集群技术、分布式文件系统和云计算框架等技术,来实现海量数据存储和高速数据处理。通过比较云存储和传统存储模式的区别,分析了云存储技术优势和可行性,介绍了云存储架构模型,设计了基于Hadoop的Scool云存储文件管理系统,为今后深入研究云计算和云存储提供了一定的基础。  相似文献   

9.
云数据处理系统中广泛采用了多数据副本复制技术,以防止数据丢失,如果数据复制的份数或位置不当,就会引起数据的可用性小于用户期望的数据可用性或存储空间的浪费(如复制份数过多)。针对该问题,经研究提出了一种基于模糊预测的数据复制优化模型,该模型由模糊预测模块和复制优化模块组成。模糊预测模块以节点信息(CPU信息、节点带宽信息、内存信息和硬盘信息)作为输入,预测出节点的可用性;复制优化模块把节点的可用性和用户期望的数据可用性作为输入,计算出在满足用户期望情况下数据复制的份数和位置。提出的复制优化模型能根据云数据存储系统中数据节点可用性实现动态的优化数据复制,能获得较高的存储性价比。模拟实验中基于模糊预测的数据复制优化模型策略需要的存储空间分别是Hadoop策略的42.62%,42.84%,但文件的平均可用性可达到88.69%,90.54%,表明提出的基于模糊预测的复制模型实现了在节省存储空间的同时保证了文件可用性。  相似文献   

10.
数据复制     
闪四清 《个人电脑》1999,5(4):169-172,174
在分布数据管理方面,与以前的版本相比,SQL Server 7.0有了显著的增强和提高。例如,第一次在数据库管理系统上集成的数据转换服务可以非常方便地在多种数据源之间转换数据。面目一新的备份和恢复功能更加完善,使用更加方便。可以把数据库中的数据信息发布到Internet上的Web助手工具,具有更大的柔性。特别是在数据复制方面,从复制的功能到复制的实现和监测等多方面都有了很大的增  相似文献   

11.
云存储技术已经成为当前互联网中共享存储和数据服务的基础技术,云存储系统普遍利用数据复制来提高数据可用性,增强系统容错能力和改善系统性能。提出了一种云存储系统中基于分簇的数据复制策略,该策略包括产生数据复制的时机判断、复制副本数量的决定以及如何放置复制所产生的数据副本。在放置数据副本时,设计了一种基于分簇的负载均衡副本放置方法。相关的仿真实验表明,提出的基于分簇的负载均衡副本放置方法是可行的,并且具有良好的性能。  相似文献   

12.
一种海量的人口信息存储与复制策略   总被引:2,自引:0,他引:2  
在分析公安信息系统环境和持征的基础上,提出了一种适合公安信息系统的海量人口信息存储与复制策略,该策略采用多数据库结构,实现了数据访问的负载分担,大大提高PSMIS的访问性能,可用性和可靠性,同时,该策略支持可接受的数据弱一致性,能够使多数据库系统在有限的时间内收敛,达到各个数据节点数据完全一致,因而该策略能够很好的应用于公安信息系统的海量人口信息管理系统。  相似文献   

13.
Several data replication strategies have been proposed to provide high data availability for database applications. However, the trade-offs among the different strategies for various workloads and different operating modes have not been studied before. In this paper, we study the relative performance of three high availability data replication strategies, chained declustering, mirrored disks, and interleaved declustering, in a shared nothing database machine environment. In particular, we have examined (1) the relative performance of the three strategies when no failures have occurred, (2) the effect of load imbalance caused by a disk or processor failure on system throughput and response time, and (3) the tradeoff between the benefit of intra query parallelism and the overhead of activating and scheduling extra operator process. Experimental results obtained from a simulation study indicate that, in the normal mode of operation, chained declustering and interleaved declustering perform comparably. Both perform better than mirrored disks if an application is I/O bound, but slightly worse than mirrored disks if the application is CPU bound. In the event of a disk failure, because chained declustering is able to balance the workload among all remaining operational disks while the other two cannot, it provides noticeably better performance than interleaved declustering and much better performance than mirrored disks.  相似文献   

14.
对Hadoop平台的作业调度算法进行了研究, 提出了支持作业类型区分的多队列调度优化算法。优化算法支持根据节点当前的负载情况分配不同类型的作业, 以提高节点的资源利用率; 允许作业队列的资源在闲置时被其他作业队列占用; 在原作业队列需要时可以被即时回收, 即回收过程支持任务抢占; 采用共享队列列表和非共享队列列表的逻辑划分来防止乒乓效应。Hadoop平台的性能测试结果表明, 优化算法相比系统默认算法在作业调度的执行效率、执行平稳性等方面都有了显著的提升。  相似文献   

15.
Cloud computing environment is getting more interesting as a new trend of data management. Data replication has been widely applied to improve data access in distributed systems such as Grid and Cloud. However, due to the finite storage capacity of each site, copies that are useful for future jobs can be wastefully deleted and replaced with less valuable ones. Therefore, it is considerable to have appropriate replication strategy that can dynamically store the replicas while satisfying quality of service (QoS) requirements and storage capacity constraints. In this paper, we present a dynamic replication algorithm, named hierarchical data replication strategy (HDRS). HDRS consists of the replica creation that can adaptively increase replicas based on exponential growth or decay rate, the replica placement according to the access load and labeling technique, and finally the replica replacement based on the value of file in the future. We evaluate different dynamic data replication methods using CloudSim simulation. Experiments demonstrate that HDRS can reduce response time and bandwidth usage compared with other algorithms. It means that the HDRS can determine a popular file and replicates it to the best site. This method avoids useless replications and decreases access latency by balancing the load of sites.  相似文献   

16.
数据复制正在并行信息系统的设计中起着越来越重要的作用.特别地,为了提高性能和可用性,对集群体系结构的广泛使用经常要求复制数据.然而,维持不同拷贝的一致性带来严重的可伸缩性问题.为了克服这个局限性,基于表决的协议经常被作为一种缩减复制的总开销的方法.为了更好理解它们在实际中的性能,分析了几种表决算法,结果是基于表决的复制协议表现出不错的性能.测试表明ROWA-A(read-one/write-all-available)协议对于需要大量数据复制的应用是最好的选择.  相似文献   

17.
This paper presents a novel Bee Colony based optimization algorithm, named Job Data Scheduling using Bee Colony (JDS-BC). JDS-BC consists of two collaborating mechanisms to efficiently schedule jobs onto computational nodes and replicate datafiles on storage nodes in a system so that the two independent, and in many cases conflicting, objectives (i.e., makespan and total datafile transfer time) of such heterogeneous systems are concurrently minimized. Three benchmarks – varying from small- to large-sized instances – are used to test the performance of JDS-BC. Results are compared against other algorithms to show JDS-BC's superiority under different operating scenarios. These results also provide invaluable insights into data-centric job scheduling for grid environments.  相似文献   

18.
基于层次化调度策略和动态数据复制的网格调度方法   总被引:2,自引:0,他引:2  
针对在网格中如何有效地进行任务调度和数据复制, 以便减少任务执行时间等问题, 提出了任务调度算法(ISS)和优化动态数据复制算法(ODHRA), 并构建一个方案将两种算法进行了有效结合。该方案采用ISS算法综合考虑任务等待队列的数量、任务需求数据的位置和站点的计算容量, 采用网络结构分级调度的方式, 配以适当的权重系数计算综合任务成本, 搜索出最佳计算节点区域; 采用ODHRA算法分析数据传输时间、存储访问延迟、等待在存储队列中的副本请求和节点间的距离, 在众多的副本中选取出最佳副本位置, 再结合副本放置和副本管理, 从而降低了文件访问时间。仿真结果表明, 提出的方案在平均任务执行时间方面, 与其他算法相比表现出了更好的性能。  相似文献   

19.
Data Grid integrates graphically distributed resources for solving data intensive scientific applications. Effective scheduling in Grid can reduce the amount of data transferred among nodes by submitting a job to a node, where most of the requested data files are available. Scheduling is a traditional problem in parallel and distributed system. However, due to special issues and goals of Grid, traditional approach is not effective in this environment any more. Therefore, it is necessary to propose methods specialized for this kind of parallel and distributed system. Another solution is to use a data replication strategy to create multiple copies of files and store them in convenient locations to shorten file access times. To utilize the above two concepts, in this paper we develop a job scheduling policy, called hierarchical job scheduling strategy (HJSS), and a dynamic data replication strategy, called advanced dynamic hierarchical replication strategy (ADHRS), to improve the data access efficiencies in a hierarchical Data Grid. HJSS uses hierarchical scheduling to reduce the search time for an appropriate computing node. It considers network characteristics, number of jobs waiting in queue, file locations, and disk read speed of storage drive at data sources. Moreover, due to the limited storage capacity, a good replica replacement algorithm is needed. We present a novel replacement strategy which deletes files in two steps when free space is not enough for the new replica: first, it deletes those files with minimum time for transferring. Second, if space is still insufficient then it considers the last time the replica was requested, number of access, size of replica and file transfer time. The simulation results show that our proposed algorithm has better performance in comparison with other algorithms in terms of job execution time, number of intercommunications, number of replications, hit ratio, computing resource usage and storage usage.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号