期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

抗数据偏斜的高效并行join运算算法研究

卢姝颖朱平《数字社区&智能家居》2008,3(11):938-939

通过分析ABJ＋算法和Hybrid hash join算法,并对两个算法进行了结合和改进,提出了一种能克服各种数据偏斜的并行二元连接运算算法,可在不同的数据偏斜情况下启动不同的模块,克服数据偏斜造成的负载不平衡现象。相似文献

2.

抗数据偏斜的高效并行连接运算算法研究

王于同张立宇毕伟文《计算机应用与软件》2001,18(5):58-62

本文提出了一种能克服各种数据偏斜、高效的、并行二元连接运算算法,可在不同的数据偏斜情况下启动不同的模块,克服数据偏斜造成的负载不平衡现象。相似文献

3.

N-body算法及其并行化

王小伟郭力杨章远《计算机与应用化学》2003,(Z1)

N-body问题涉及了科学和工程中的许多领域,它的主要特点就是O(N~2)的计算量,采用并行计算方法是解决N-body问题巨大计算量的终极选择。针对该类问题的具体特点以及不同的并行计算机体系结构,目前有多种算法有效地减少了计算量,加快了求解速度。本文介绍了N-body问题的几种常见算法和它们的并行化方法。相似文献

4.

基于Spark的并行DBSCAN算法的设计与实现

黄明吉张倩《计算机科学》2017,44(Z11):524-529

随着云应用对运行时间和性能水平要求的逐步提高,以及内存价格的持续走低,基于内存的分布式计算框架Spark获得了前所未有的关注。主要研究DBSCAN算法在Spark上并行化的设计与实现,通过整体分析找到算法并行化可能的性能瓶颈,并从Spark的角度设计了并行DBSCAN算法的DAG图,优化了算法的并行化策略,最大化地降低了shuffle频率和数据量。最后将并行DBSCAN算法与单机DBSCAN算法进行性能对比,并通过实验分析不同参数对聚类结果的影响。结果表明,与单机DBSCAN算法相比,基于Spark的并行DBSCAN算法在聚类精度没有明显损失的情况下,数据量在3百万行时运行效率提高了37.2%,且加速比达到1.6。相似文献

5.

一种层次的、混合并行离散事件仿真算法 总被引：5，自引：0，他引：5

李宏亮叶超群金士尧王俊伟《计算机研究与发展》2002,39(10):1355-1360

并行仿真算法是并行离散事件仿真中心的核心问题，对于具体的应用系统，采用不同的并行仿真算法将导致其仿真性能大的差异，提出了一种针对于分布环境中特定应用系统仿真的层次的，混合并行离散事件仿真算法，测试和应用表明，和通常的保守机制或者乐观机制相比，能够较大地提高仿真效率，并且具有良好的可扩展性，首先给出了在通信开销不可忽略的环境下，保守机制和乐观机制的性能测试结果和两者适用情况的分析，然后根据测试结果和具体应用系统的特点，提出了层次的，混合并行离散事件仿真算法，给出了LP级和组级算法算，最后对算法进行了测试和性能分析。相似文献

6.

PPS的集中和分布式并行分组交换算法分析

李玉峰兰巨龙《计算机工程》2004,30(24):37-39

集中式并行分组交换算法（Centratized Parallel Packet Switch Algorithm,CPA)和分布式并行分组交换算法（Distribntd Parallel Packet Switch Algoritlun,DPA)是目前并分行分组交换（Parallel Packet Switch,PPS研究中的典型算法，该文对两种算法进行了描述及理论分析和性能比较，作出了两种算法的应用性分析，探讨了DPA算法实现需要继续研究和解决的几个关键问题。相似文献

7.

自适应并行蚁群算法

姚宝珍《模式识别与人工智能》2007,20(4)

蚁群算法是一种模拟进化算法,具有很强的全局搜索能力.本文提出一种自适应的并行蚁群算法(A-PACO),该算法可以根据不同的搜索阶段,自适应确定参数的最优组合,在一定程度上避免停滞现象的出现并加速算法收敛.而且自适应的迁移策略可以较大丰富系统多样性的同时也较大降低子蚁群间的通信量,有效提高算法的搜索质量和缩短算法的运行时间.最后选用中国CHN144问题对该算法进行检验,结果显示该算法具有较好的稳定性和较快的收敛速度. 相似文献

8.

基于算法图的并行计算优化

席裕庚王轶《控制与决策》1997,12(1):8-13

研究基于算法图的并行计算优化设计方法。通过引入算法图，从数学机理上算法的并行结构进行描述，针对不同要求提出了对计算网络的并行优化设计方法，为设计并行算法提供了新的有途途径。相似文献

9.

一种优化BITONIC算法:"并行-优化-串行"合并和分类向量算法

胡玥高庆狮刘宏岚《计算机研究与发展》2002,39(10):1307-1316

串行算法并行化是发挥各种巨型机的效率的关键技术之一。“并行－优化－串行”归并向量算法（OSVM），是一种串行算法并行化的优化方法，它用O（N／p)时间把总长为N的两个有序序列归并或把总长为N的一个Bitonic序列排序。“并行－优化－串行”排序向量算法（POSVS）用O（NlogN)/p）时间在实际SIMD机上把N个数排序，这些是第1个满足以下两个条件的向量Optimal算法（加速比＝O（p))，（1）它能在实际SIMD计算机上实现，处理机的台数p的范围很宽1≤N^1-ε，这里，ε是任意的小的正数。（2）它统一了3种不同类的合并算法：Batcher的Bitonic算法（最快但效率随参数变大而向于0），优化(Optimal)算法（效率为常数的算法）和最佳的串行算法。而且综合了3个算法的优点，“并行－优化－串行”（POS）方法是一个通用方法，它还可以应用到其它类型问题上。相似文献

10.

基于DSVM的并行Hash连接算法及其性能评价

王国仁于戈叶峰郑怀远《计算机学报》1999,22(10):1032-1041

提出了一个基于分布式共享虚拟存储器技术的并行Ｈａｓｈ连接算法,然后设计了一个并行连接算法的测试评价基准,并评价和分析了该算法在均匀情况下３个不同负载的性能比较和Ｚｉｐｆ顺斜数据分布情况下两种度策略的算法性能。同时与其它并行连接算法进行性能比较与分析。相似文献

11.

An Adaptive Parallel Distributive Join Algorithm on a Cluster of Workstations

Soon M. Chung Arindam Chatterjee 《The Journal of supercomputing》2002,21(1):5-35

In this paper, we present an adaptive version of the parallel Distributive Join (DJ) algorithm that we proposed in [5]. The adaptive parallel DJ algorithm can handle the data skew in operand relations efficiently. We implemented the original and adaptive parallel DJ algorithms on a network of Alpha workstations using the Parallel Virtual Machine (PVM). We analyzed the performance of the algorithms, and compared it with that of the parallel Hybrid-Hash (HH) join algorithms. Our results show that the parallel DJ algorithms perform comparably with the parallel HH join algorithms over the entire range of the number of processors used and for different join selectivities. A significant advantage of the parallel DJ algorithms is that they can easily support non-equijoin operations. 相似文献

12.

基于直方图的并行结构连接算法

李建新王国仁汤南王斌于亚新张海宁《计算机研究与发展》2004,41(10):1768-1773

连接操作是最昂贵且常用的数据库操作．在传统数据库系统中，主要的连接操作是等值连接操作，因此，传统的并行连接算法主要集中于并行等值连接操作．另外，随着XML在Web应用中变得越来越重要，XML已经成为Internet上一种新的数据交换标准．对XML数据的连接操作不同于传统数据库中的等值连接操作，它属于结构连接操作．以前适合等值连接操作的并行连接算法并不能有效地解决结构连接问题．因此，第1次提出了并行结构连接问题，并且通过应用直方图的思想于并行连接中，从而提出两种基本的并行XML结构连接算法、等高直方图连接算法和等宽直方图连接算法．实验表明这两种算法具有较好的性能．相似文献

13.

一种有效的并行数据库动态负载平衡连接算法 总被引：1，自引：0，他引：1

关心欧增桂王玲《计算机工程与应用》2007,43(12):150-154

在基于Shared-nothing结构的并行数据库中,负载平衡一直是影响查询处理性能的重要因素。在数据库中频繁使用的连接操作会因为各种因素导致的负载倾斜和额外的通讯开销而降低数据库的整体性能。提出了一种基于RCMD分布方法的动态负载平衡连接算法,能够在连接操作的执行过程中动态调整各个结点的负载。理论分析和实验结果证明提出的算法能够有效地平衡负载,提高并行数据库的执行效率。相似文献

14.

Using intrinsic data skew to improve hash join performance

Bryce Cutt Ramon Lawrence 《Information Systems》2009

Hash join is used to join large, unordered relations and operates independently of the data distributions of the join relations. Real-world data sets are not uniformly distributed and often contain significant skew. Although partition skew has been studied for hash joins, no prior work has examined how exploiting data skew can improve the performance of hash join. In this paper, we present histojoin, a join algorithm that uses histograms to identify data skew and improve join performance. Experimental results show that for skewed data sets histojoin performs significantly fewer I/O operations and is faster by 10–60% than hybrid hash join. 相似文献

15.

基于CPU-GPU异构体系结构的并行字符串相似性连接方法

徐坤浩聂铁铮申德荣寇月于戈《计算机研究与发展》2021,58(3):598-608

相似性连接技术在数据清洗、数据集成等领域中具有重要意义,近年来引起了学术界的广泛关注.随着数据量的不断增大、数据处理实时性的要求逐渐提高以及处理器性能提升瓶颈的出现,传统的串行相似性连接方法已经不能满足当前大数据处理的需求.近些年,GPU作为协处理器在机器学习等领域取得了良好的加速效果,因此基于GPU的并行算法开始成为解决各类性能问题的有效解决方案.为此,提出了基于CPU-GPU异构体系的并行相似性连接方法.首先,方法使用GPU构建倒排索引,索引采用SoA(struct of arrays)结构,从而解决了传统索引结构在并行模式下读写效率低的问题.其次,针对串行算法的性能问题,提出基于过滤验证框架的并行双重长度过滤算法,其中利用前缀过滤和构建好的倒排索引提升过滤效果.方法中相似度精确计算验证过程使用CPU计算执行,从而充分利用CPU-GPU的异构计算资源.最后,在多个数据集上进行实验验证性能.通过与串行相似性连接算法进行对比,实验结果表明所提出方法相对于已有方法具有更好的过滤效果和更低的索引生成代价,并在相似性连接上具有更好的性能和良好的加速比. 相似文献

16.

基于并行B+-树的并行Join算法的设计、分析与实现 总被引：1，自引：0，他引：1

孙文隽李建中常红《计算机学报》1998,21(1):10-17

Ｂ＾＋－树是一种有效的数据库存储结构，被普遍应用于各种关系数据库系统。把Ｂ＾＋－树并行化，使之用于并行数据库系统显然是一项很有意义的重要工作。本文研究了适用于并行数据库的并行Ｂ＾＋－树存储结构，提出两类基于并行Ｂ＾＋－树工并行Ｊｏｉｎ算法。理论和实验结果表明，这些算法效率高基其它并行Ｊｏｉｎ算法。相似文献

17.

Data Partitioning for Parallel Spatial Join Processing 总被引：1，自引：0，他引：1

Xiaofang Zhou David J. Abel David Truffet 《GeoInformatica》1998,2(2):175-204

The cost of spatial join processing can be very high because of the large sizes of spatial objects and the computation-intensive spatial operations. While parallel processing seems a natural solution to this problem, it is not clear how spatial data can be partitioned for this purpose. Various spatial data partitioning methods are examined in this paper. A framework combining the data-partitioning techniques used by most parallel join algorithms in relational databases and the filter-and-refine strategy for spatial operation processing is proposed for parallel spatial join processing. Object duplication caused by multi-assignment in spatial data partitioning can result in extra CPU cost as well as extra communication cost. We find that the key to overcome this problem is to preserve spatial locality in task decomposition. In this paper we show that a near-optimal speedup can be achieved for parallel spatial join processing using our new algorithms. 相似文献