首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
介绍无约束最优化问题的BFGS算法及其收敛性,提出利用行卷帘格式并行Cholesky分解法、同步并行Wolfe-Powell非线性搜索和并行处理BFGS修正公式来构建BFGS的并行算法,并对该算法的时间复杂性、加速比进行分析。在PC机群数值实验的结果表明,BFGS并行算法提高了无约束最优化问题的求解速度,理论分析与实验结果相一致,并行算法具有线性加速比。  相似文献   

2.
广义Hermitian特征问题并行求解器的性能依赖于所选择的并行算法和矩阵的分布策略等诸多方面.基于块存储和快算法策略,提出了一个新的标准化转化的并行算法,该并行算法将Cholesky分解结合到广义特征问题标准化转换中,降低了已有并行算法的通信开销,并增加了算法的并行性.新算法可显著改善已有并行算法的性能和可扩展性.另外给出了一个有效求解具有多个右端项的三角矩阵方程AX=B的并行块算法.通过自主开发的特征问题并行软件包PSEPS的测试结果表明,并行算法比传统的并行算法快大约1倍,并具有较好的可扩展性.  相似文献   

3.
为解决大规模非线性最优化问题的串行求解速度慢的问题,提出应用松弛异步并行算法求解无约束最优化问题。根据无约束最优化问题的BFGS串行算法,在PC机群环境下将其并行化。利用CHOLESKY方法分解系数为对称正定矩阵的线性方程组,运用无序松弛异步并行方法求解解向量和Wolfe-Powell非线性搜索步长,并行求解BFGS修正公式,构建BFGS松弛异步并行算法,并对算法的时间复杂性、加速比进行分析。在PC机群的实验结果表明,该算法提高了无约束最优化问题的求解速度且负载均衡,算法具有线性加速比。  相似文献   

4.
利用近似三对角Toeplitz矩阵的特殊结构,提出了一种新的求解近似三对角Toeplitz方程组的快速算法.在三对角Toeplitz矩阵的近似LU分解的基础上,利用“分而治之”的思想,并结合秦九韶技术和特殊的数学技巧减少大量的冗余计算,提出了求解近似Toeplitz三对角方程组的快速分布式并行算法,并在理论上证明了算法具有近似于线性的加速比.最后通过数值实验证明,新的并行算法具有较高的并行效率,并且当矩阵阶数n足够大时,算法的加速比趋近于线性加速比.  相似文献   

5.
为适应海量地震数据以及集群并行规模不断增大的趋势,提出了多维度成像空间分解算法.根据大规模集群系统有多个并行层次的特征,首先沿炮检距方向分解成像空间;然后再沿in-line方向继续切分,直到成像空间小于计算节点物理内存;最后在二维地表上以面元为单位分解成像空间.算法实现上,共炮检距成像空间映射到计算节点组上,计算节点内的CPU核之间按照round-robin均分面元.该并行算法在不增加数据通信量的情况下,降低了内存的需求,减少了通信开销和同步时间,提高了数据的局部性.实际资料测试表明,该并行算法比传统的输出并行和输入并行算法具备更好的性能与可扩展性,实验作业调度多达497个节点、7 552个线程,仍然具备较好的加速效果.  相似文献   

6.
将Parareal算法中的预估校正格式加以改进,提出时域分解并行算法。基于主从模式和消息传递,具体考察了群体通信和非阻塞通信模式,并设计出通用而简便的并行化模型。在集群系统下对热传导方程和对流扩散方程的数值模拟结果表明:算法具有较高的加速性能以及良好的可扩展性,体现了时域分解的独特优势。  相似文献   

7.
一类Toeplitz三对角方程组的一种分布式并行算法   总被引:3,自引:0,他引:3  
文中提出一类Toeplitz三对角方程组的一种分布式并行算法。该算法以系数矩阵的分解为基础,充分利用了系数矩阵结构的特殊性,算法因并行化而引入的冗余计算量非常少,算法的通信机制简单,通信量仅与处理 机台数p有关,与方程组规模n无关,算法具有很高的并行效率,理论分析和数值试验表明,其加速比Sp(n)→p(n→ ∞),此为线性加速比的理想情况。文中给出了算法在分布存储多计算机系统上的数值试验结果。  相似文献   

8.
由于线性规划在理论和实践中的重要性,对求解大规模规划问题并行算法的研究已引起许多学者的兴趣.本文根据Galperin提出的线性规划的一种线性时间的立方算法特别适合并行的特点,提出了一种基于SPMD模型和主从式MPI的线性规划并行算法,并对算法性能进行了深入分析,理论分析和在曙光3000上的实验结果表明:该算法具有粗粒度并行、良好的可扩展性和理想加速比模型等优点,明显优于目前为止求解同类不对称线性规划问题的其他并行算法,可用于求解此类大规模线性规划问题的高性能计算.  相似文献   

9.
对称矩阵三对角化的有效并行块算法设计   总被引:1,自引:0,他引:1  
在矩阵数值计算中,块算法通常比非块算法更有效,但这也增加了并行算法设计和实现的难度.在广义稠密对称矩阵特征问题并行求解器中,并行块算法的构造可应用到正定对称矩阵的Choleski分解、对称矩阵的三对角化和回代转化(back-transiation)操作中.本文将并行块算法的讨论集中在具有代表性的对称矩阵三对角化上,给出在非块存储方式下对称矩阵三对角化的并行块算法设计方法.分析块算法大小同矩阵规模和处理器数量的关系.在深腾6800上的试验表明,我们的算法具有很好的性能,并得到了比ScaLAPACK更高的性能.  相似文献   

10.
为减少空间降水插值的计算时间,以MPI并行接口为技术手段,采用数据划分建模方法,实现改进Kriging算法的并行算法.在Linux操作系统上搭建并行计算环境,试验数据表明,该并行算法能有效节省计算时间并具有良好的加速比、并行效率和扩展性.为Kriging插值算法的并行化实现和应用提供有意义的参考.  相似文献   

11.
王鑫  张铭 《计算机应用研究》2023,40(6):1745-1749
针对应用普通卷积结构的卷积计算复杂度较高、计算量与参数量较大的问题,提出以国产SW26010P众核处理器为平台的并行分组卷积算法。核心思想是利用独特的数据布局,通过多核映射处理进行并行计算。实验测试结果表明,与单核串行算法相比,使用该并行分组卷积算法可以获得79.5的最高加速比及186.7MFLOPS的最大有效算力。通过SIMD指令对并行分组卷积算法进行数据并行优化后,与使用优化前的并行分组卷积算法相比,可以获得10.2的最高加速比。  相似文献   

12.
We propose and evaluate a parallel “decomposite best-first” search branch-and-bound algorithm (dbs) for MIN-based multiprocessor systems. We start with a new probabilistic model to estimate the number of evaluated nodes for a serial best-first search branch-and-bound algorithm. This analysis is used in predicting the parallel algorithm speed-up. The proposed algorithm initially decomposes a problem into N subproblems, where N is the number of processors available in a multiprocessor. Afterwards, each processor executes the serial best-first search to find a local feasible solution. Local solutions are broadcasted through the network to compute the final solution. A conflict-free mapping scheme, known as the step-by-step spread, is used for subproblem distribution on the MIN. A speedup expression for the parallel algorithm is then derived using the serial best-first search node evaluation model. Our analysis considers both computation and communication overheads for providing realistic speed-up. Communication modeling is also extended for the parallel global best-first search technique. All the analytical results are validated via simulation. For large systems, when communication overhead is taken into consideration, it is observed that the parallel decomposite best-first search algorithm provides better speed-up compared to other reported schemes  相似文献   

13.
J. N. Magee  S. C. Cheung 《Software》1991,21(3):235-250
Clusters of workstations connected by local area networks are in common use in many organizations. The combined processing power of these clusters is rarely exploited owing to the lack of suitable parallel algorithms. The paper describes a parallel programming paradigm called supervisor-worker, suitable for the workstation environment, which can be used to speed up the execution of a large class of existing sequential programs. Simple formulae are developed to predict the speed-up of a parallel algorithm developed in this way. The predictions depend on two easily-determined parameters of the sequential program and the characteristic communication cost of the workstation cluster. Consequently, it is possible to estimate the benefits of the parallel program before proceeding with detailed implementation. As an example, the parallel version of a travelling salesman program is developed and the measured speed-up compared with the predicted speed-up.  相似文献   

14.
多核计算机上的快速傅里叶变换并行算法   总被引:1,自引:0,他引:1       下载免费PDF全文
王刚强  钟诚  柯琦 《计算机工程》2011,37(16):57-59
针对现有多核结构上快速傅里叶变换(FFT)并行算法没有利用多级缓存和线程级并行等多核特性问题,通过运用多核多级存储特性合理划分数据,采取子序列FFT计算和多线程并行逐对计算FFT相结合的方法,给出一个N点、一维、有序和基数为2的多核多线程并行计算FFT非递归算法。理论分析和实验结果表明,该算法实用、高效,能获得较好的加速比和可扩展性。  相似文献   

15.
A new parallel sorting algorithm, called parsort, suitable for implementation on tightly coupled multiprocessors is presented. The algorithm is based upon quicksort and two-way merging. An asynchronous parallel partitioning algorithm is used to distribute work evenly during merging to ensure a good load balance amongst processors, which is crucial if we are to achieve high efficiency. The implementation of this parallel sorting algorithm exhibits theoretical and measured near linear speed-up when compared to sequential quicksort. This is illustrated by the results of experiments carried out on the Sequent Balance 8000 multiprocessor.  相似文献   

16.
曾芷德  曾献君 《软件学报》1999,10(11):1185-1190
文章从理论上分析了提高基于故障划分的并行测试生成算法的加速比的途径.在此基础上,提出了把相关故障识别和最短路径敏化相结合的基于输出扇入锥的逆向故障划分方法BFPOC(backword fault partitioning of output fan-in cones),并把该方法与Banejee推荐的基于输入扇出锥的正向故障划分方法TFPIC(toword fault partitioning of input fan-out cones)和常用的基于故障顺序的等步长划分方法EDPFS(equal dis  相似文献   

17.
多序列比对是生物信息学中的基本问题。由于生物序列数据库的快速增长,即使优秀的串行算法已不能满足实际的需要。研究了Gusfield提出的星型比对模型的串行算法,进行了空间和时间上的改进,基于cluster结构的菜并行机提出了一种并行算法,并对大量基因数据进行了测试,结果表明对于大规模的多序列比对,算法能达到较高的加速比。  相似文献   

18.
本文以Mandelbrot集图像生成为例提出一种并行Fractal图像生成算法,在发布式环境下所实现的算法具有高可靠性,自然负载平衡等特性,实验数据表明所设计算法具有较高的加速比。  相似文献   

19.
针对大规模IC芯片中局部高温热效应问题,提出基于网格的随机行走方法分析稳态温度分布。该算法只计算热源附近的点,从而大幅减少计算量。首先对金字塔型非规则热分析模型进行了研究,然后提出了一种预先保存概率表的加速策略。将随机行走算法在CUDA上实现了并行,得出了最大限度使用GPU资源并保证最大加速比的最优配置。实验结果表明,提出的并行随机行走算法,使总体计算性能提升了7-10倍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号