首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
为满足文本检索、计算生物学等领域海量数据匹配对高性能计算的要求,提出一种基于计算统一设备架构(CUDA)的位并行近似串匹配算法。结合图形处理器(GPU)的高并行计算结构及存储带宽特性,通过优化数据存储方式,实现并行化动态规划矩阵算法(BPM)的加速,并对加速性能进行对比测试。实验结果表明,BPM算法通过GPU加速能获得20倍左右的加速比。  相似文献   

2.
提出了一个并行矩阵乘算法IPBPMM(Interconnected Processor-Based Parallel Matrix Multiplication).该算法运行在以五角形、Petersen图和Hoffman-Singleton图等直径为2的摩尔图(满足n=d2+1,n为节点数,d为度)为拓扑结构的由n个独立处理器构成的机群并行计算环境中.与基于二维环绕网孔阵列拓扑结构的Cannon和Fox等并行矩阵乘法算法相比较,IPBPMM算法通信开销较小,加速比更高,同时还具有矩阵分块可随机分布在各个节点中,无需事先按一定规律装入各节点中的特点.同时IPBPMM算法也能很好地扩充到由多个直径为2的摩尔图为拓扑结构组合构成的并行计算环境中,且随着网络的扩大,算法的并行加速比更高.  相似文献   

3.
针对拉格朗日多项式逻辑回归算法中逻辑回归参数计算复杂高、耗时长,直接制约其在大数据量遥感图像上应用的问题,提出了基于图形处理器GPU对算法进行数据级并行计算处理。算法首先利用已知的训练样本进行多元回归参数估算,然后利用得到的回归参数和光谱数据进行分类,能够获得较高的分类精度,其中算法步骤中的矩阵乘法、矩阵求逆、矩阵特征值计算采用CULA库函数并行实现。利用真实场景的高光谱图像对文中提出的并行计算优化方案实验验证,结果表明,该方法能够实现对多元回归参数计算加速200倍左右,对整个拉格朗日多项式逻辑回归分类算法计算加速60倍左右。  相似文献   

4.
蔡勇  李胜 《计算机应用》2016,36(3):628-632
针对传统并行计算方法实现结构拓扑优化快速计算的硬件成本高、程序开发效率低的问题,提出了一种基于Matlab和图形处理器(GPU)的双向渐进结构优化(BESO)方法的全流程并行计算策略。首先,探讨了Matlab编程环境中实现GPU并行计算的三种途径的优缺点和适用范围;其次,分别采用内置函数直接并行的方式实现了拓扑优化算法中向量和稠密矩阵的并行化计算,采用MEX函数调用CUSOLVER库的形式实现了稀疏格式有限元方程组的快速求解,采用并行线程执行(PTX)代码的方式实现了拓扑优化中单元敏度分析等优化决策的并行化计算。数值算例表明,基于Matlab直接开发GPU并行计算程序不仅编程效率高,而且还可以避免不同编程语言间的计算精度差异,最终使GPU并行程序可以在保持计算结果不变的前提下取得可观的加速比。  相似文献   

5.
王鑫  张铭 《计算机应用研究》2023,40(6):1745-1749
针对应用普通卷积结构的卷积计算复杂度较高、计算量与参数量较大的问题,提出以国产SW26010P众核处理器为平台的并行分组卷积算法。核心思想是利用独特的数据布局,通过多核映射处理进行并行计算。实验测试结果表明,与单核串行算法相比,使用该并行分组卷积算法可以获得79.5的最高加速比及186.7MFLOPS的最大有效算力。通过SIMD指令对并行分组卷积算法进行数据并行优化后,与使用优化前的并行分组卷积算法相比,可以获得10.2的最高加速比。  相似文献   

6.
在多重链路上联网络环境下,采用并行路由搜索的思想寻找最优路径,能够获得较好的路径寻优结果,并且算法的时间复杂度较低.给出一种两级并行QoSR算法,将多重链路环境按一定规则划分为若干分区,为每个分区分配一定数量的QoS度量并行处理器和1个分区处理器,在各个分区分别采用QPAS算法,由QoS度量并行处理器并行计算出各分区内的QoS度量Pareto最佳路径,最终由分区处理器调用最短路径并行算法完成分区间代价最小路径的计算.  相似文献   

7.
研究动态模式识别算法在GPU并行计算平台的实现。随着GPGPU(通用计算图形处理器)硬件的发展,基于GPU的大规模并行计算技术将有效地处理动态模式识别算法带来的海量计算问题。文中通过介绍动态模式识别算法,对算法中涉及的巨大计算量进行分析,并针对性地对其中密集计算部分进行并行化分解,移除原算法中在执行中存在的依赖关系,最终得到算法在特定的GPU平台———Jacket上的并行计算实现。实例验证表明,相比于原CPU串行程序,在GPU上运行的并行化程序能实现明显加速,因而具有很好的工程应用价值。  相似文献   

8.
基于星形互连网络的并行快速傅立叶变换算法   总被引:6,自引:0,他引:6  
星形互连网络是一种易于实现大规模并行计算的互连网络拓扑结构。利用星形互连网络的递归可分解性的多样性,提出了一种基于星形互连网络的并行快速傅立叶变换算法的实现方法。该方法能够有效地减少计算过程中处理器结点之间的通信开销。提出的星图结点和数据的映射应运 及实现并行FFT的思想可推广到线性方程组求解、矩阵乘法等其它并行算法在星形互连网络上的实现。  相似文献   

9.
为了达到提高颗粒流体动力学方法 GHM计算效率的目标,分析了GHM模型的主要计算模块,抽取其中的可并行计算模块,基于多核计算机的硬件环境,应用OpenMP多线程并行计算模型,对采用数值积分方法求解颗粒运动方程的部分,实现求解过程的并行计算。最后通过多次实验验证程序的正确性及算法性能。实验结果表明,在Windows 7系统4核8线程处理器的计算机上,并行程序的并行加速比最高达到了2.5,说明OpenMP多核并行技术能较显著地提高GHM方法的计算性能。  相似文献   

10.
海洋数值预报技术的发展与高性能计算密切相关。为提高OVALS海洋资料同化系统的时效性,本文实现了OVALS系统的并行化。在温盐资料同化模块并行化过程中,本文提出了层优先处理器划分算法,并研究了基于该算法的并行I/O、全局通讯等实现方法;在高度计资料同化模块并行化过程中,设计实现了基于预处理的非规则区域分解算法,较好地实现了OVALS并行计算负载平衡。数值实验表明,OVALS并行系统在36并行规模下取得了17.45的并行加速比。  相似文献   

11.
排序是C语言教学中经常碰到的内容,其方法有很多,常用的有三种:交换排序法、选择排序和冒泡排序等。对这三种方法用C语言进行详细分析,以便初学者能够更好的理解和应用。  相似文献   

12.
13.
并行双调排序算法的有效实现及性能分析   总被引:1,自引:0,他引:1  
排序是计算机中最常见的操作之一,双调排序是一个非常著名的排离算法,也是最早的并行排序算法,又调排离对排序算法的研究具有非常深远的影响,基于双调排序算法的基本思想,介绍了双调排序在分布存储的并行计算机环境下的一种有效实现方式,采用局部多对多通信替换全局通信,很好地解决了双调排序中的通信问题,算法的计算复杂度为⊙n/p(logn log^2p),其中n为待排序的关键字个数,p为处理器数,算法在二维网孔结构上通信时间复杂度达到了O(2.12132√p.n/p)其量级达到了理论上的下限,分析结果表明,双调排序算法也具有很好的通信性能和可扩展性。  相似文献   

14.
15.
This paper reports the development of a sorting algorithm, called a ‘pocket sort.’ It is primarily directed to sorting of character data. The algorithm is strictly of order O(n); sorting time is directly proportional to the number of data elements to be sorted. Further, through the use of pointer - linked list data structures, no internal movement of the records containing the sort field is required. The algorithm has been implemented in Turbo Pascal. Data are presented comparing this pocket sort to other sorting techniques.  相似文献   

16.
一种新的并行归并排序算法   总被引:5,自引:0,他引:5  
文章提出了一种新的并行归并排序算法。算法充分利用并行系统中各个处理机中数据排序后序列长度相等的特点,计算出归并段对中的一个元素和最后一个元素的位置,然后再从相应的位置进行归并排序。该算法可使排序后的数据分布完全达到平衡,具有较高的负载平衡性、可扩展性和排序稳定性。文章最后给出了基于PC集群的实验结果,并把该结果与PSRS算法作了比较。  相似文献   

17.
Dalia Motzkin 《Software》1981,11(6):607-611
A sorting algorithm, called Stable Quicksort, is presented. the algorithm is comparable in speed with the Quicksort algorithm, but is stable. The experimental evidence presented support the theoretical evaluation of the performance of Stable Quicksort.  相似文献   

18.
最佳基数排序   总被引:3,自引:0,他引:3  
  相似文献   

19.
文中提出了一种新的多路归并排序网络,该网络基于倾斜与振荡多路归并排序算法.该网络有两个主要特点.一是其基本构件为k-sorters,即k个数的排序器,k为任意素数,而传统的排序网络的基本构件为两个数的排序,即2-sorters.二是该网络的延迟可以小于传统的基于2-sorters的Batcher排序网络.文中给出了该排序网络的具体实现;作为实例给出了N=27,k=3时的排序网络;分析了该网络的时间延迟;通过具体设计排序网络的基本构件2-sorters和3-sorters,表明这种新的多路归并排序网络和Batcher排序网络相比是一种高速的排序网络.  相似文献   

20.
二次链接桶排序法   总被引:5,自引:0,他引:5  
本文进一步研究了桶排序法,提出了适用于非均匀分布数据的高效率的二次链接桶排序地。本文是文献「1」中桶排序的推广。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号