首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
一种并行数据库的动态多维数据分布方法   总被引:7,自引:0,他引:7  
李建中 《软件学报》1999,10(9):909-916
并行数据库系统的性能与数据库在多处理机之间的分布密切相关.目前已经出现一些并行数据库的数据分布方法.但是,这些方法都不能有效地支持动态数据库.文章提出了一种并行数据库的动态多维数据分布方法.该方法不仅能够有效地支持动态数据库的分布,还具有多维数据分布的诸多优点.此方法由初始数据分布机构和启发式动态数据分布调整机构组成.初始分布机构完成给定数据库文件的初始分布.动态数据分布调整机构实现动态数据库数据分布的动态调整.理论分析和实验结果表明,这种方法十分有效,并且能够有力地支持动态数据库上的各种并行数据操作算法.  相似文献   

2.
由于计算机访问本地存储器的速度远远快于通过网络访问异地计算机存储器的速度,因此,在分布式存储环境中,如何对程序中引用的数据进行合理的分布,从而达到在本地进行计算时只需访问存储在本地的数据(即无通信的数据分布)的目的,已成为提高并行计算速度的关键问题,本文主要讨论如何在数组下标表达式为线性的条件下,对一种种锘于线性代数中超平面概念的数组线性划分技术进行扩充,并给出了完整的数据划式计算算法。  相似文献   

3.
一种有效的并行数据库数据分布方法RCMD   总被引:1,自引:0,他引:1  
艾春宇  李建中  高宏 《计算机科学》2005,32(11):108-111
在并行数据库中,数据的分布方法是影响系统查询处理性能的主要因素。目前已有的几种数据分布方法都只适用于某一类查询,而处理其它类型的查询则效率较低。本文提出了一种新的数据分布方法RCMD,可以高效地支持多种查询类型。理论分析和试验结果表明本文提出的RCMD方法优于现有的数据分布方法,具有最好的查询处理性能。  相似文献   

4.
针对当前云存储系统海量数据应用环境中数据分布策略可扩展性以及灵活性的不足,提出一种高效的数据分布策略。一方面,该策略基于一致性哈希数据分布算法,引入了虚拟化的设计思路,采用虚拟节点进行存储资源分配;另一方面,该策略采用了一种基于节点容量感知的负载均衡方法,有效地优化了系统性能,提高了系统可扩展性。通过实验分析,不管在同构还是异构的云存储架构中,该策略改善了存储资源负载均衡程度,有效优化了系统整体性能。  相似文献   

5.
《计算机工程》2017,(12):30-37
为提高车载云计算资源调度的可靠性,减少数据处理时间,提出一种服务质量感知的并行MapReduce启发式车载云资源调度算法。在MapReduce并行计算模型的基础上,设计云计算环境中以车载单元为基础的车辆并行检测服务框架,利用相对优先级因子构建车载云计算调度模型,并通过启发式并行优化算法对模型进行优化,降低算法复杂度。在NS-3中的仿真结果表明,该算法可有效缩短作业执行时间,并具有较高的可靠性。  相似文献   

6.
传统聚类算法K-Medoids对初始点的选择具有随机性,容易产生局部最优解;替换聚类中心时采用的全局顺序替换策略降低了算法的执行效率;同时难以适应海量数据的运算。针对上述问题,提出了一种云环境下的改进K-Medoids算法,该改进算法结合密度法和最大最小原则得到优化的聚类中心,并在Canopy区域内对中心点进行替换,再采用优化的准则函数,最后利用顺序组合MapReduce编程模型的思想实现了算法的并行化扩展。实验结果表明,该改进算法与传统算法相比对初始中心的依赖降低,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间。  相似文献   

7.
FFT(快速傅里叶变换)的复杂度为O(nlog2n),但因其实现的不同,执行时间相差很大,并且,某一具体实现对固定长度的变换也有不同的适应性,本文对此进行了详细的分析,并将其延伸到了多维变换和并行应用。  相似文献   

8.
详细地介绍了在Linux环境下如何构架基于PVM的工作站机群.给出了具体的步骤和基本配置过程。最后采用并行求和算法在4节点机群上采用Master/Slave编程模型进行实验测试。测试结果表明,该机群并行计算环境运行正常、稳定,数据规模越大.并行效率越高。当数据规模达到10^9数量级时,其并行效率达到100%。  相似文献   

9.
FCM算法是目前广泛使用的算法之一。,针对FCM聚类质量和收敛速度依赖于初始聚类中心的问题,结合Canopy聚类算法能够粗略快速地对数据集进行聚类的优点,提出了一种基于Canopy聚类的FCM算法。该算法通过将Canopy算法快速获取到的聚类中心作为FCM算法的输入来加快FCM算法收敛速度。并在云环境下设计了其MapReduce化方案,实验结果表明,MapReduce化的基于Canopy聚类的FCM算法比MapReduce化的FCM聚类算法具有更好的聚类质量和运行速度。  相似文献   

10.
针对很少有方法对云中系统发育基因组学分析工作流程的并行性进行评估的问题,提出了一种适用于真实云环境中SciPhylomics执行的性能评估工作流程。呈现了SciCumulus云工作流引擎,在亚马逊EC2云上,使用两种并行执行方法(SciCumulus和Hadoop)实施该工作流程。实验结果表明,尽管系统发育基因组学实验对计算环境要求严格,但此类实验仍然适合在云中执行。所评估的工作流程呈现了几组数据密集型工作流程的许多特征,实验结果表明,这些云执行结果可以扩展到其他实验类型。  相似文献   

11.
传统的主曲线算法在小规模数据集上能获得良好的效果,但单节点的计算和存储能力都不能满足海量数据主曲线的提取要求,而算法分布式并行化是目前解决该类问题最有效的途径之一。本文提出基于MapReduce框架的分布式软K段主曲线算法(Distributed soft k-segments principal curve,DisSKPC)。首先,基于分布式K-Means算法,采用递归粒化方法对数据集进行粒化,以确定粒的大小并保证粒中数据的关联性。然后调用软K段主曲线算法计算每个粒数据的局部主成分线段,并提出用噪声方差来消除在高密集、高曲率的数据区域可能产生的过拟合线段。最后借助哈密顿路径和贪婪算法连接这些局部主成分线段,形成一条通过数据云中间的最佳曲线。实验结果表明,本文所提出的DisSKPC算法具有良好的可行性和扩展性。  相似文献   

12.
大数据技术在环境信息中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
在“辽河流域水环境管理技术综合示范”项目中,随着时间的累积,环境监测数据处理系统采集到的数据量越来越大.然而目前辽宁省环境监测数据处理系统无法有效处理日益增长的海量数据.研究运用大数据技术,改进环境监测数据处理系统中的数据中心.利用HDFS强大的数据存储、管理功能,以应对数据量的增长,利用MapReduce及Hadoop其他相关工具,快速处理海量数据,降低数据规模,最后将数据存储到数据库中.  相似文献   

13.
FP—Growth算法MapReduce化研究   总被引:1,自引:0,他引:1  
随着云计算概念的盛行,以及数据挖掘技术在分布式环境下的应用问题,该文献针对当前业界中流行的大规模并行计算模型MapReduce,将其引入数据挖掘领域关联规则算法的并行化改进中,提出基于FP-Growth算法并行化改进的MR—FP算法,为并行化关联规则挖掘提供节点可扩展、可容错、故障可恢复的运行保证。并通过案例分析得出系统在事务数呈数量级级别增长下仍可保持较高的性能。通过理论分析和案例实验表明,数据挖掘理论和方法在云计算环境下可以充分发挥能力,具有广阔的、有价值的研究空间。  相似文献   

14.
针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通过添加Balance任务,对Map任务处理完成的中间数据进行均衡操作,使得分配到Reduce任务节点的数据比较均衡,从而确保Reduce任务的完成时间基本一致。仿真实验结果表明,经过Balance任务后,Map任务产生的中间数据能够比较均衡的分配给Reduce任务节点,达到数据计算均衡的目的,在一定程度上减少了整个作业的执行时间。  相似文献   

15.
.一种基于云计算模型的遥感处理服务模式研究与实现*   总被引:11,自引:1,他引:11  
随着空间遥感技术、对地观测技术的不断发展,一个以多时相、多分辨率、多传感器、多波段为特征的多层、立体、多角度、全方位和全天候遥感对地观测数据获取与处理体系正在形成。该体系必然会带来海量、多源的遥感数据。提出了采用目前商业上成功的云计算模型来实现一个高性能、高可扩展性、高可用的遥感处理服务,并结合原型系统,详细阐述了该处理系统的组成与关键技术。  相似文献   

16.
模糊C均值是一种重要的软聚类算法,针对模糊C均值的随着数据量的增加,时间复杂度过高的缺点,提出了一种基于MapReduce的并行模糊C均值算法。算法重新设计模糊C均值,使其符合MapReduce的基于key/value的编程模型,并行计算数据集到中心点的隶属度,并重新计算出新的聚类中心,提高了模糊C均值处理大容量数据的计算效率。实验结果表明,基于MapReduce的并行模糊C均值算法具有较高的加速比和扩展性。  相似文献   

17.
针对矩形空间数据对象,以传统CIF四叉树索引技术为基础,利用Hadoop平台与MapReduce并行编程模型,采用“分而治之”的思想,对数据空间进行划分,设计适用于分布式环境的创建索引、相交查询、区域删除的并行算法。在此基础上,通过改变数据集中矩形对象的数目与map数进行实验,分析并行创建与相交查询的效率。实验结果表明,对于大数据量的数据集与多数据集,并行创建与查询可以提高处理效率。  相似文献   

18.
大数据时代的到来,对数据的管理和存储带来了挑战。为了更好地管理和利用大数据,对大数据的基本特征进行了剖析,从大数据和分析技术平台的视角,分析了海量并行处理架构、云计算、网格计算和MapReduce这几种重要的技术,比较了其技术特点,对运用不同的技术对大数据时代数据管理产生的作用进行了分析,讨论了大数据分析工作所需要的混合环境,整合环境资源以使能够协同工作,使得每一项技术变得更加强大有效。  相似文献   

19.
基于Hadoop MapReduce模型的应用研究   总被引:4,自引:0,他引:4  
MapReduce是一种简化并行计算的分布式编程模型,是Google的一项重要技术,通常被用于数据密集型的分布式并行计算.探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的工作方式和应用方法.  相似文献   

20.
交叉证认是实现多波段数据融合的关键技术,目前还缺乏对其分布式算法的研究。快速增长的数据规模使该问题必须要依赖分布式并行计算技术解决。提出了一种基于MapReduce分布式模型的新方法,根据Map-Reduce的要点,尽量减少了任务间的通信量,并通过合理设置划分粒度保证了效率与存储间的平衡。实验结果表明,该方法对海量数据交叉证认的效率提升明显,在大规模集群上达到了接近线性的加速比。该方法为交叉证认提供了一种快速有效的解决途径。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号