首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
当前,在分布式云文件系统中,纠删码冗余技术以较高的容错性能和较大的空间利用率逐步取代副本冗余技术来保证数据的可靠性。多数基于纠删码的云文件系统中,数据放置方法采用随机放置策略并假设集群节点同构,然而在实际的云存储系统中节点的同构性并不理想,且节点的存储性能会随着系统的运行动态地发生变化,所以随机地选取节点进行数据放置并不能有效地保证系统的均衡性。为此,文中分析确定了影响节点负载性能的关键因素,并采用层次分析法建模求出不同存储数据类型的负载影响因子。同时基于节点负载性能,计算提出了一种全局随机、局部顺序的数据放置算法,该算法在选择节点的过程中综合考虑节点内的实时负载均衡和数据可靠性两个因素。实验结果显示,相比于随机放置方法,提出的该数据放置方法不仅能够实现存储系统节点内的实时负载均衡,还能加快数据写入和恢复的速度。  相似文献   

2.
海量数据利用传统Apriori算法进行挖掘会浪费大量存储空间和通信资源,导致算法效率低下,因此,提出MapReduce框架下Aprioi算法的改进方法,首先采用水平划分的方法将MapReduce数据库分成n个独立的数据块,然后发送到采用动态负载均衡划分的m个工作节点上。每个节点扫描各自的数据块,产生局部候选频繁项集,计算每个候选频繁项集的支持度阈值并与最小支持度阈值进行比较以确定最终的频繁项集。改进后的算法可以减少各个节点之间的数据流动,只需要扫描两次事务数据库就能挖掘出全部频繁项集,节省扫描时间和存储空间,提高挖掘效率。  相似文献   

3.
针对医疗大数据服务系统中生理数据流动态负载不均衡问题,传统方法处理能力只局限在某算子所处节点可处理的窗口范围,在数据逐渐增加的状态下处理能力不足,容易出现数据流拥塞的情况,而且忽略了对整个体系的负载分布和动态负载均衡中迁移决策的研究。为此,提出了一种新的大数据网络并行计算环境的生理数据流动态负载均衡方法。首先利用元组key的Hash值得到节点相应数据块,利用数据块记录获取相应目标节点,将数据元组输出。同时,对并行计算熵进行扩展,将其定义至异构集群,对其进行求解。将网络并行计算环境下并行计算熵看作医疗大数据服务系统中生理数据流动态负载均衡度的衡量指标,通过并行计算熵对是否需要进行负载迁移进行判断,并且通过并行计算熵确定迁移任务的方式及迁移量,从而制定迁移决策,实现大数据网络并行环境中生理数据流动态负载均衡处理。经实验验证,本文方法可行性高,计算性能及动态负载均衡性好。  相似文献   

4.
面对传统医疗健康管理系统在存储和管理海量数据方面表现欠佳的问题,提出基于Hadoop对医疗健康数据进行高效管理和快速处理的方法。根据医疗健康数据特点,将HBase与Solr相结合实现多条件查询从而提高查询效率。设计医疗健康数据HBase数据库、医疗健康数据写入HBase过程和医疗健康数据MapReduce查询分析三个组成部分,搭建Hadoop集群环境,对HBase和MapReduce的性能进行测试对比。经测试,当数据量逐渐增大到一定规模时,该模型表现出明显的优势,可满足海量的医疗健康数据管理要求,缩短了计算时间,提高了处理效率。  相似文献   

5.
MapReduce模型是一种典型的分布式计算模型,被广泛应用于大规模数据处理,其性能很大程度上依赖于数据分布状态。由于数据内容往往都是不均衡的,再加上存储的随机性,因此MapReduce模型在计算过程中容易出现数据倾斜的问题。针对该问题,通过改进的基于MapReduce的数据直方图并行构建算法,对数据块和整个文件分别建立数据直方图,根据数据块分布情况,判断每个存储节点的数据倾斜程度,并定义了文件均衡偏差值作为数据倾斜的度量标准,进而通过数据均衡算法来降低文件均衡偏差值。改进的基于MapReduce的数据直方图并行构建算法能够适应各种类型的数据应用场景,直方图构建过程中Map端向Reduce端只需要传输直方图统计信息,不需要传输文件内容,数据传输量几乎可以忽略不计;基于直方图的数据均衡算法采用了贪心策略,可以获得均衡分布最优解的一个比较好的近似解,经过不同数据多次实验验证,该算法与随机block分布算法相比,可以降低40%左右的文件均衡偏差值,具有更好的数据均衡效果。  相似文献   

6.
网格环境下,分布式数据源的更新一致过程无法实现.通过计算分布式数据流的频繁项,进行有选择的数据更新清洗,是当前研究的热点.本文提出MDF算法(Mining Distributed Frequent items),计算分布式数据流的频繁项,用以满足诸如更新频繁和查询频繁的数据更新需求.算法采用根节点和节点独立处理的方式,使用简单的位串操作和频繁项副本政策,极大的减小了各节点的计算负载.同时对节点的频繁阈值设置给出了准确的计算公式.用实际数据对算法进行检测.实验结果证明,MDF算法有效的计算分布式数据流频繁项,提高了网格环境下数据更新的效率.  相似文献   

7.
在Hadoop MapReduce环境中,如果能预知作业的执行时间,就可在资源分配、任务调度以及负载均衡过程中作出更合理的决策,改善系统性能.在分析Hadoop MapReduce作业执行模式后,提出了一种作业执行时间在线预测方法.该方法在结合历史信息的基础上,可根据作业在不同阶段的执行进度在线预测执行时间.该方法已在Hadoop-0.20.2中实现,并在一个包含19个节点的Linux集群中进行了验证.实验结果表明,在最好情况下,根据该方法预测的执行时间和真实执行时间的误差约2%.  相似文献   

8.
针对分布式存储系统中数据被访问频率的不同,提出一种基于哈夫曼树的可变重复度的异构部分重复(HVFR)码,将不同访问频率的数据块作为哈夫曼树带有确定权值的叶子节点,构造哈夫曼树并确定数据块的重复度,利用成对平衡设计构造异构部分的重复码,能够提高热数据的并行访问速度和系统存储效率. 性能分析和实验结果表明,与里所码以及简单再生码相比,HVFR码可以显著减少故障节点的修复时间及修复局部性,提高热数据的并行访问速度,达到负载均衡,且计算复杂度低.  相似文献   

9.
提出了一种能耗均衡的自适应数据存储算法, 将数据尽量存储在适合查询的位置. 首先建立基于网格的网络模型, 然后分析采集节点与初始存储节点、查询节点之间的位置关系, 存储模式可在集中存储和分布存储之间切换. 算法引入了虚拟扩展网格和能量分级消耗的机制, 可有效均衡网络能耗. 实验结果表明, 该算法的节点能耗、生命周期和丢包率相比于GHT算法有一定的改善.  相似文献   

10.
针对海洋大数据环境的数据量大和实时动态变化的特点,提出了一种基于云存储的海洋大数据迁移算法。首先,对海洋大数据进行了表示;设计了一种灰色模型的服务器负载预测算法,该算法能根据服务器历史负载信息来预测下一个时刻的负载。基于服务器的负载预测信息,提出了一种对服务器的负载进行实时迁移的数据迁移算法,通过设定最大负载阈值和最小负载阈值来实现服务器负载的均衡分配。在CloudSim环境下进行实验,实验结果表明文中方法能有效地实现海洋大数据环境的云环境的负载均衡,具有负载均衡高和负载均衡效率高的优点,与其他方法相比,具有更好的负载均衡能力。  相似文献   

11.
无线传感器网络(WSN)是以数据为中心的网络,如何对传感器节点采集的感知数据进行有效的存储和查询访问已经成为WSN研究的重点。提出一种基于层次路由的分布式数据存储方法,降低了WSN网络的通信负载且使得网络内各节点能耗更加均衡,从而有效地延长了无线传感器网络的生存时间.  相似文献   

12.
一种基于本体的并行网络流量分类方法   总被引:1,自引:0,他引:1  
海量网络流量数据的处理与单一节点的计算能力瓶颈这一矛盾导致数据分类效率低,无法满足现实需求。为解决这一问题,结合本体与MapReduce技术各自在海量异构数据描述与处理方面的优势,提出一种基于本体的并行网络流量分类方法。该方法基于MapReduce并行计算架构,根据网络流量本体结构,对网络流量本体并行化构建;通过并行知识推理完成基于流量统计特征的网络流量分类。实验结果表明,集群环境下基于MapReduce的网络流量本体构建效率明显高于单机环境,而且适当增加计算节点使得加速比线性提升;并行知识推理的分类方法能够有效地提高大规模网络流量的分类效率。  相似文献   

13.
多目标迁移机制的动态负载平衡算法   总被引:2,自引:0,他引:2  
针对并行计算中的负载失衡现象.提出一种新型动态负载平衡算法.将重载节点和轻载节点间需要交流的进程数目信息包括在负载平衡消息中,并视情况扩展目标节点的搜索范围.使重载节点能在算法的一次执行中外迁进程到多个目标节点,还提出 3条规则以减少消息传播的路由耦合现象.通过矩阵运算和求素数这 2个典型的并行计算实验,比较了 4种动态负载平衡算法的性能.结果表明,提出的算法因多目标迁移机制而具有最少的迭代执行次数,并能在一次执行中发现最多的轻载节点,有效缩减了系统对计算密集型任务的平均响应时间.  相似文献   

14.
计算图的互模划分在许多应用领域中起着至关重要的作用.图中两个点是互模的当且仅当这两点具有相同的特征.随着图数据规模的增大,传统的运行在单机上的互模划分算法面临着越来越大的挑战,分布式算法以及并行算法则成为提高图计算可扩展性的重要途径.最近研究人员提出两种基于MapReduce计算模型的分布式互模划分算法,算法均计算图的局部互模划分.采用MapReduce计算模型的分布式互模划分算法具有网络通讯代价高昂的问题,每次MapReduce迭代操作均会将整个图中所有点边的状态通过网络传输,重新为点边分配计算节点,但实际上计算点的局部互模划分特征仅需要局部信息.以此为研究出发点,本文提出了基于分布式图数据处理平台的互模划分算法,仅使用点的局部信息来计算其特征,进而提升计算效率.经过实验验证,本文算法可以大幅度减少算法执行过程中的网络数据传输量.在包含数亿边大图上的实验表明,在未经图的预处理的情况下,本文算法的时间效率提升了7~16倍,有效的解决了MapReduce计算模型带来的网络通讯代价高昂的问题.  相似文献   

15.
为了解决大数据环境下快速求解数据场势值的计算效率问题,基于膜计算领域的酶数值P系统(ENPS),提出一种数据场分析方法。该方法先引入转移P系统对ENPS加以改进,以提高后者的流程可控性,再基于改进的系统给出计算大数据场势值的ENPS的具体实现。P系统的极大并行性导致大数据场势值求解在3步内完成,每个步骤的计算时间为常数,且与数据规模无关。在真实人脸图像数据场上的实验结果验证了此方法的高效性。  相似文献   

16.
重复数据删除集群是解决不断增长的海量数据备份需求的一种有效方法。它的关键问题是数据路由策略,即如何把数据合理分配到集群内的各个节点。目前的数据路由策略利用文件或者数据段的最小数据块签名计算路由目标节点,称作MCS(minimum chunk signature)数据路由策略。当重复数据删除集群规模较小时,这种方法的存储使用量接近单节点重复数据删除。但是,当集群规模较大时,它的存储使用量远远劣于单节点重复数据删除。为了降低重复数据删除集群的存储使用量,提出一种基于路径的重复数据删除集群的数据路由策略,称作DRSD(data routing strategy based on directories)。实验结果表明,对于各种不同的节点数量,DRSD的重复数据删除率都明显高于MCS,并且接近单节点重复数据删除。当节点数量是64时,DRSD的重复数据删除率比MCS高35%。  相似文献   

17.
针对分布式文件系统的应用存在处理小文件效率不高的问题,提出一种适用于中小规模分布式文件系统集群的应用架构,将传统分布式文件系统集群中的内网划分为两个子网:对外子网和对内子网,对外子网中传输与外网之间的交互数据,对内子网中传输分布件系统集群的管理数据.每个数据结点同时与对外和对内两个子网连接,并代替名称节点负责与外网直接的数据交流;名称节点本身只与对内子网连接.对外子网与外网之间使用防火墙设备加强安全性,并使用负载均衡设备将来自外网的数据请求合理的分配到每个数据节点上;增加了缓存机制对系统处理小文件操作进行优化,部署实验环境,设计一个测试程序对缓存效率测试,对1000个100KB的文件,通过模拟多线程连续读取大量文件来测试缓存的性能,实验证明系统设计方案可行,增加磁盘缓存有利于提高系统处理小文件的存取效率,系统优化效果显著.  相似文献   

18.
采用一种属性约简算法,将待分类的数据样本进行两次约简处理--初次决策表属性约简和基于核属性值的二次约简。通过属性约简方法来删除数据集中的冗余数据,进而提高KNN算法的分类精度。在此基础上应用MapReduce并行编程模型,在Hadoop集群环境上实现并行化分类计算实验。实验结果表明,改进后的算法在集群环境下执行的效率得到很大提升,能够高效处理实验数据。实验执行的加速比也有明显提高。  相似文献   

19.
大数据环境下的相似重复记录影响数据统计分析结果的准确性,需要过滤相似重复记录.对相似重复记录检测的研究现状做了介绍,在此基础上提出了属性加权的思想,对属性进行加权,并根据属性权值进行排序分组;在对属性加权时,考虑到一些字段的取值是一一对应的关系,权值相同,提出了同义属性的概念,在原数据集的基础上排除部分同义属性来缩减数据集,提高重复数据检测的效率,最后给出了相似重复记录判定的方法.考虑到大数据集给重复记录检测带来的挑战,将大数据集拆分成若干小数据集,充分利用MapReduce机制进行处理,将大数据集按照权重较大的属性取值进行分组,分割成若干个map任务,分别进行处理.实验结果表明,该方法能够有效地提高相似重复记录检测的效率.  相似文献   

20.
为实现Hadoop分布式文件系统的负载均衡,并保证较低的负载迁移代价和数据传输代价,提出了确定环境下多阶段多目标(CMM)决策模型. 该模型以CPU、内存和磁盘剩余负载能力作为决策条件,以负载均衡效果、负载迁移代价和数据传输代价作为决策目标,依据决策节点间的影响关系构建有向无环图,通过多个决策阶段的决策,并计算方案效用确定最优均衡方案. 仿真实验结果表明,基于CMM模型的负载均衡策略能取得较好的负载均衡效果、负载迁移代价和数据传输代价.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号