期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张丹丹徐莹徐磊《计算机科学》2012,39(4):296-298,303

对CPU+GPU异构平台下的多种并行编程模式进行了研究,并针对格子Boltzmann方法实现了CUDA,MPI+CUDA,MPI+OpenMP+CUDA多级并行算法。结果表明,算法具有较好的加速性能;提出的根据计算量比例参数调节CPU和GPU之间负载均衡的方法,对于在异构平台上实现多级并行处理及资源的有效利用具有一定的参考和应用价值。相似文献

2.

面向节点异构GPU集群的编程框架

盛冲冲胡新明李佳佳吴百锋《计算机工程》2015,(2)

基于异构GPU集群的主流编程方法是MPI与CUDA的混合编程或者其简单变形。因为对底层的集群架构不透明,程序员对GPU集群采用MPI与CUDA编写应用程序时需要人为考虑硬件计算资源,复杂度高、可移植性差。为此,基于数据流模型设计和实现面向节点异构GPU集群体系结构的新型编程框架分布式并行编程框架(DISPAR)。 DISPAR框架包含2个子系统：(1)代码转换系统StreamCC,是DISPAR源代码到MPI+CUDA代码的自动转换器。(2)任务分配系统StreamMAP,具有自动发现异构计算资源和任务自动映射功能的运行时系统。实验结果表明,该框架有效简化了GPU集群应用程序的编写,可高效地利用异构GPU集群的计算资源,且程序不依赖于硬件平台,可移植性较好。相似文献

3.

基于SMP集群的MPI+CUDA模型的研究与实现

许彦芹陈庆奎《计算机工程与设计》2010,31(15)

为了研究GPU的通用计算能力和适合SMP集群的编程模型,首次提出MPI+CUDA多粒度混合并行编程的新方法,节点间采用MPI实现粗粒度并行,节点内采用CUDA实现细粒度并行的混合编程方式.利用此方法在搭建的3节点SMP集群环境中,测试了大规模矩阵乘问题的并行计算能力.实验结果表明,该方法能够显著提升并行效率,同时证明MPI+CUDA混合编程模型能够充分发挥SMP集群节点间分布式存储和节点内共享内存的优势,为装有CUDA-enabled GPU的SMP集群提供了一种有效的并行策略. 相似文献

4.

GPU加速分子动力学模拟中的电荷分布计算

张德好刘青昆宫利东《计算机应用与软件》2012,(10):79-81,93

在集群与GPU组成的异构并行计算平台上,使用MPI+CUDA混合编程模型,实现基于ABEEMσπ模型的分子动力学模拟中电荷分布的计算.通过对电荷分布分布求解中的计算部分移植到GPU上进行,并针对算法中通信开销大和资源未充分利用的问题,通过异构平台的异步并发方法进行优化,提高了求解效率.性能测试结果表明,相比于单纯MPI并行算法,优化后GPU加速的异构并行算法,在化学大分子模型电荷分布计算上,有着明显的性能优势. 相似文献

5.

基于CPU与GPU的异构模板计算优化研究

李博黄东强贾金芳吴利王晓英黄建强《计算机工程》2023,(4):131-137

模板计算是一类使用固定模板的算法，被广泛应用于图像处理、计算流体动力学模拟等领域，现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口（MPI）计算模型和跨平台多线程（OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构（CUDA）+OpenMP两种混合计算模型。相较于常规的MPI计算模型，MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信，使用OpenMP实现进程内部的细粒度并行计算，并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术，提高模板计算过程中的缓存命中率与计算并行能力，加快计算速度。在只采用CUDA进行模板计算时，CPU的计算资源没有得到充分利用，浪费了大量计算资源，CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中，以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明，OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+Ope... 相似文献

6.

应用GPU集群加速计算蛋白质分子场 总被引：3，自引：2，他引：1

张繁王章野姚建吴韬彭群生《计算机辅助设计与图形学学报》2010,22(3)

针对生物化学计算中采用量子化学理论计算蛋白质分子场所带来的巨大计算量的问题,搭建起一个GPU集群系统,用来加速计算基于量子化学的蛋白质分子场.该系统采用消息传递并行编程环境(MPI)连接集群各结点,以开放多线程OpenMP编程标准作为多核CPU编程环境,以CUDA语言作为GPU编程环境,提出并实现了集群系统结点中GPU和多核CPU协同计算的并行加速架构优化设计.在保持较高计算精度的前提下,结合MPI,OpenMP和CUDA混合编程模式,大大提高了系统的计算性能,并对不同体系和规模的蛋白质分子场模拟进行了计算分析.与相应的CPU集群、GPU单机和CPU单机计算方法对比,该GPU集群大幅度地提高了高分辨率复杂蛋白质分子场模拟的计算效率,比CPU集群的平均计算加速比提高了7.5倍. 相似文献

7.

基于混合编程模型的支持向量机训练并行化

李涛刘学臣张帅王恺杨愚鲁《计算机研究与发展》2015,52(5)

支持向量机(support vector machine,SVM)是一种广泛应用于统计分类以及回归分析的监督学习方法.基于内点法(interior point method,IPM)的SVM训练具有空间占用小、送代趋近快等优点,但随着训练数据集规模的增大,仍面临处理速度与存储空间所带来的双重挑战.针对此问题,提出利用CPU-GPU异构系统进行大规模SVM训练的混合并行机制.首先利用计算统一设备架构(compute unified device architecture,CUDA)对基于内点法的SVM训练算法的计算密集部分并行化,并改进算法使其适合利用cuBLAS线性代数库加以实现,提高训练速度;然后利用消息传递接口(message passing interface,MPI)在集群系统上实现CUDA加速后算法的分布并行化,利用分布存储有效地增加所处理数据集规模并减少训练时间;进而基于Fermi架构支持的页锁定内存技术,打破了GPU设备存储容量不足对数据集规模的限制.结果表明,利用消息传递接口(MPI)和CUDA混合编程模型以及页锁定内存数据存储策略,能够在CPU-GPU异构系统上实现大规模数据集的高效并行SVM训练,提升其在大数据处理领域的计算性能和应用能力. 相似文献

8.

LBM算法在GPU组中的应用

王鹏封卫兵《计算机工程与设计》2011,32(12):4237-4240

为提高大规模并行计算的并行效率,充分发挥CPU与GPU的功能特点,特别是体现GPU强大的运算能力,提出了用消息传递接口(MPI)将一组GPU连接起来。使GPU通用计算与计算流体力学中的LBM(latticeBoltzmannmethod)算法相结合。根据GPU通用计算与LBM算法的原理,使MPI作为计算分配的机制,CUDA(compute unified device architecture)作为主要的计算执行引擎,建立支持CUDA的GPU集群,在集群上对LBM算法中的D2Q9模型进行二维方腔流数值模拟。实验结果表明,利用GPU组模拟与CPU模拟结果一致,更充分发挥了GPU的计算能力,提高了并行效率。相似文献

9.

GRAPES动力框架中大规模稀疏线性系统并行求解及优化

张琨贾金芳严文昕黄建强王晓英《计算机工程》2022,48(1):149-154+162

赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解大规模稀疏线性方程组的广义共轭余差法,并利用不完全分解LU预处理子（ILU）优化系数矩阵的条件数,加快迭代法收敛。在CPU并行方案中,MPI负责进程间粗粒度并行和通信,OpenMP结合共享内存实现进程内部的细粒度并行,而在GPU并行方案中,CUDA模型采用数据传输、访存合并及共享存储器方面的优化措施。实验结果表明,通过预处理优化减少迭代次数对计算性能提升明显,MPI+OpenMP混合并行优化较MPI并行优化性能提高约35%,CUDA并行优化较MPI+OpenMP混合并行优化性能提高约50%,优化性能最佳。相似文献

10.

基于MPICUDA环境的静电相互作用能并行求解

刘青昆马名威杨荣杰宫利东《计算机应用与软件》2012,(11)

ABEEMσπ(Atom BondElectronegativityEqualizationσπModel)模型中,原串行程序求静电相互作用能的方法非常耗时,致使研究问题的效率降低.针对原程序中多个循环相互嵌套的求解部分,采用带状卷帘存储迭代分配的MPI(MessagePassingInter face)并行化处理;对体系中所有原子、σ键、孤对电子、π键位点之间的静电相互作用能采用多线程CUDA(ComputerUnifiedDevice Architecture)并行化处理.传统MPI+CUDA环境中,GPU和CPU之间的数据传输开销大,导致整体性能下降以及各种粒子间计算串行调用CUDA,致使时间浪费.针对上述情况,使用GPU核心的缓存机制解决传输开销大的问题,并利用多CUDA流技术实现多个循环异步进行计算,从而缩短了运行时间.然后选取多个不同类型的大分子体系进行测试,结果表明,利用改进的MPI+CUDA并行模型进行动力学模拟,并行加速比显著提高,大幅度缩减了求解静电相互作用能的时间,并得到与串行一致的结果. 相似文献

11.

Hadoop云平台MapReduce模型优化研究

张红王晓明曹洁马彦宏郭义戎王慜《计算机工程与应用》2016,52(22):22-25

针对Hadoop平台MapReduce分布式计算模型运行机制中的顺序制约而产生的计算资源浪费问题,从提高平台中每个执行节点的细粒度并行数据处理角度出发,结合Java共享内存多线程编程技术,对该模型进行了优化,提出一种MapReduce+OpenMP粗细粒度相结合的分布式并行计算模型。并在由四个节点组成的Hadoop集群环境下对不同规模大小的出租车GPS轨迹数据分析处理,验证该模型的性能和效率,实验结果证明MapReduce+OpenMP分布式并行计算模型确实能够提高针对大数据集的计算效率,是对Hadoop平台大数据分析处理模型有效的完善和优化。相似文献

12.

Hadoop平台分布式SVM算法分类研究

满蔚仕吉元元《计算机系统应用》2017,26(8):141-146

随着大数据的发展,分布式支持向量机（SVM）成为该领域研究热点.传统层级分布式SVM算法（Cascade SVM）,在Hadoop平台下寻找全局最优支持向量的过程十分缓慢.本文提出了一种改进方法,先将传统的网格法与粒子群（PSO）算法结合,改进了单机PSO算法,再将单机PSO算法与Hadoop平台结合实现了一种新型卫星并行PSO算法（NPP-PSO）.实验结果表明,相比于单机SVM算法,本文的分布式SVM算法,在保证了准确率的前提下大幅提高了计算速度;而使用NPP-PSO参数寻优后的分布式SVM,分类准确率相比于分布式SVM算法又有了明显提高. 相似文献

13.

Portable Solution for Modeling Compressible Flows on All Existing Hybrid Supercomputers

S. A. Soukov A. V. Gorobets P. B. Bogdanov 《Mathematical Models and Computer Simulations》2018,10(2):135-144

A variant of a numerical algorithm for simulating viscous gasdynamic flows on unstructured hybrid grids and its software implementation for heterogeneous computations is described. The system of Navier–Stokes equations is approximated by the finite-volume method of an increased approximation order with the values of the variables being defined at the mass centers of the grid elements. The distributed software implementation of the numerical algorithm is adapted to running on hybrid computer systems of various architectures. Comparative implementations were created using the MPI, OpenMP, CUDA, and OpenCL software models permitting the use of multicore processors and various types of accelerators, including NVIDIA and AMD graphics processors, and Intel Xeon Phi multicore coprocessors. The data exchange between MPI processes and between processors and accelerators is carried out simultaneously with the execution of calculations (both in MPI + OpenMP mode and when using CUDA or OpenCL). The indicators of parallel efficiency and performance on systems with different types of computing devices are studied in detail. In the tests, up to 260 GPUs were successfully used. 相似文献

14.

广义稠密对称特征问题标准化算法在GPU集群上的有效实现

刘世芳赵永华于天禹黄荣锋《计算机科学》2020,47(4):6-12

广义稠密对称特征问题的求解是许多应用科学和工程的主要任务,并且是计算电磁学、电子结构、有限元模型和量子化学等计算中的重要部分。将广义对称特征问题转化为标准对称特征问题是求解广义稠密对称特征问题的关键计算步骤。针对GPU集群,文中给出了广义稠密对称特征问题标准化块算法在GPU集群上基于MPI+CUDA的实现。为了适应GPU集群的架构,广义对称特征问题标准化算法将正定矩阵的Cholesky分解与传统的广义特征问题标准化块算法相结合,降低了标准化算法中不必要的通信开销,并且增强了算法的并行性。在基于MPI+CUDA的标准化算法中,GPU与CPU之间的数据传输操作被用来掩盖GPU内的数据拷贝操作,这消除了拷贝所花费的时间,进而提高了程序的性能。同时,文中还给出了矩阵在二维通信网格中行通信域和列通信域之间完全并行的点对点的转置算法和基于MPI+CUDA的具有多个右端项的三角矩阵方程BX=A求解的并行块算法。在中科院计算机网络信息中心的超级计算机系统“元”上,每个计算节点配置2块Nvidia Tesla K20 GPGPU卡及2颗Intel E5-2680 V2处理器,使用多达32个GPU对不同规模矩阵的基于MPI+CUDA的广义对称特征问题标准化算法进行测试,取得了较好的加速效果与性能,并且具有良好的可扩展性。当使用32个GPU对50000×50000阶的矩阵进行测试时,峰值性能达到了约9.21 Tflops。相似文献

15.

基于Hadoop的FP-Growth关联规则并行改进算法 总被引：1，自引：0，他引：1

厍向阳张玲《计算机应用研究》2018,35(1)

大数据环境下,传统的串行FP-Growth算法在处理海量数据时,占用内存过大、频繁项多,适用于大数据情况的PFP(Parallel FP-Growth)算法存在数据量增大无法处理的缺陷。针对这些问题,本文提出了基于Hadoop的负载均衡数据分割FP-Growth并行算法。在Hadoop平台下,本文使用负载均衡和数据分割相结合的方式对原始事务数据集分片实现并行化。实验证明基于Hadoop的负载均衡数据分割FP-Growth并行算法在处理数据量和效率上有所提高。相似文献

16.

Cloud computing-based parallel genetic algorithm for gene selection in cancer classification

Kečo Dino Subasi Abdulhamit Kevric Jasmin 《Neural computing & applications》2018,30(5):1601-1610

Cancer classification is one of the main steps during patient healing process. This fact enforces modern clinical researchers to use advanced bioinformatics methods for cancer classification. Cancer classification is usually performed using gene expression data gained in microarray experiment and advanced machine learning methods. Microarray experiment generates huge amount of data, and its processing via machine learning methods represents a big challenge. In this study, two-step classification paradigm which merges genetic algorithm feature selection and machine learning classifiers is utilized. Genetic algorithm is built in MapReduce programming spirit which makes this algorithm highly scalable for Hadoop cluster. In order to improve the performance of the proposed algorithm, it is extended into a parallel algorithm which process on microarray data in distributed manner using the Hadoop MapReduce framework. In this paper, the algorithm was tested on eleven GEMS data sets (9 tumors, 11 tumors, 14 tumors, brain tumor 1, lung cancer, brain tumor 2, leukemia 1, DLBCL, leukemia 2, SRBCT, and prostate tumor) and its accuracy reached 100% for less than 25 selected features. The proposed cloud computing-based MapReduce parallel genetic algorithm performed well on gene expression data. In addition, the scalability of the suggested algorithm is unlimited because of underlying Hadoop MapReduce platform. The presented results indicate that the proposed method can be effectively implemented for real-world microarray data in the cloud environment. In addition, the Hadoop MapReduce framework demonstrates substantial decrease in the computation time.

相似文献

17.

企业级Hadoop 大数据平台安全管理方案的研究

韩磊陈含郝晓雪《广东电脑与电讯》2017,1(11):40-43

本文旨在对企业级Hadoop 大数据平台安全管理机制进行探究。首先介绍当前企业级Hadoop 大数据集群安全管理方案存在的问题和不足;然后结合当前Hadoop 生态圈安全管理组件的发展现状和第三方安全信息管理解决方案,针对现有的Hadoop 大数据平台安全管理机制的不足进行优化和整合;最后提出了以Ranger+FreeIPA(Kerberos+LDAP)为整体的Hadoop 大数据平台安全管理解决方案。相似文献

18.

基于并行计算的大数据挖掘技术研究

朱月恒《网络安全技术与应用》2014,(5):53-53

大数据时代的到来催生了并行数据挖掘技术.本文介绍了大数据的基本概念,研究了Hadoop平台分布式程序设计模型MapReduce,并设计了并行数据挖掘中的并行分类算法和并行聚类算法. 相似文献