共查询到20条相似文献,搜索用时 0 毫秒
1.
异构重构计算是目前高性能计算的研究热点.由于应用任务的异构性,以及体系结构的可重构性,导致异构重构计算的性能分析非常困难,现有的并行计算性能分析方法不再适用.本文提出一种基于应用任务调度的性能分析方法,该方法以异构重构计算系统模型和应用任务模型为基础,利用异构匹配、重构耦合矩阵,实现应用任务和处理部件的优化选择和耦合匹配,通过调度算法求出应用任务在异构重构计算系统中的完成时间,并进行了实例分析. 相似文献
2.
应用GPU集群加速计算蛋白质分子场 总被引:1,自引:2,他引:1
针对生物化学计算中采用量子化学理论计算蛋白质分子场所带来的巨大计算量的问题,搭建起一个GPU集群系统,用来加速计算基于量子化学的蛋白质分子场.该系统采用消息传递并行编程环境(MPI)连接集群各结点,以开放多线程OpenMP编程标准作为多核CPU编程环境,以CUDA语言作为GPU编程环境,提出并实现了集群系统结点中GPU和多核CPU协同计算的并行加速架构优化设计.在保持较高计算精度的前提下,结合MPI,OpenMP和CUDA混合编程模式,大大提高了系统的计算性能,并对不同体系和规模的蛋白质分子场模拟进行了计算分析.与相应的CPU集群、GPU单机和CPU单机计算方法对比,该GPU集群大幅度地提高了高分辨率复杂蛋白质分子场模拟的计算效率,比CPU集群的平均计算加速比提高了7.5倍. 相似文献
3.
4.
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+Ope... 相似文献
5.
在集群与GPU组成的异构并行计算平台上,使用MPI+CUDA混合编程模型,实现基于ABEEMσπ模型的分子动力学模拟中电荷分布的计算.通过对电荷分布分布求解中的计算部分移植到GPU上进行,并针对算法中通信开销大和资源未充分利用的问题,通过异构平台的异步并发方法进行优化,提高了求解效率.性能测试结果表明,相比于单纯MPI并行算法,优化后GPU加速的异构并行算法,在化学大分子模型电荷分布计算上,有着明显的性能优势. 相似文献
6.
研究基于GPU的有限元求解中的总刚矩阵生成和线性方程组求解问题.通过对单元着色和分组完成总刚矩阵的生成,并以行压缩存储(Compressed Sparse Row,CSR)格式存储,用预处理共轭梯度法求解所生成的大规模线性稀疏方程组.在CUDA(Compute Unified Device Architecture)平台上完成程序设计,并用GT430 GPU对弹性力学的平面问题和空间问题进行试验.结果表明,总刚矩阵生成和方程组求解分别得到最高11.7和8的计算加速比. 相似文献
7.
一直以来,3D世界的技术发展都是最迅速的。显卡领域的激烈竞争让广大用户深深地为PC里最重要的芯片之一——图形芯片而着迷。毫无疑问,2008年图形芯片领域的竞争比以往更激烈,在传统的3D技术和图形处理速度以外,越来越多的新元素加入其中。物理加速、通用计算、电影式的3D交互画面……每一个新特性都让图形芯片的未来更加让人期待。 相似文献
8.
在地震资料的处理应用中,逆时偏移等处理技术由于计算资源的需求量巨大,而不能在实际生产中被广泛采用。GPU及CUDA编程架构的引入大幅提高其运算性能,是解决类似技术应用的有效途径。同时,GPU独特的物理特性使得一些应用不仅不能提高性能,甚至使性能急剧下降。通过逆时偏移技术应用实例来说明GPU的加速效果,同时将其和常规流程进行对比和分析给出应用软件的GPU适用性评价方法。 相似文献
9.
《计算机应用与软件》2016,(9)
针对大型实对称正定矩阵的Cholesky分解问题,给出其在图形处理器(GPU)上的具体实现。详细分析了Volkov计算Cholesky分解的混合并行算法,并在此基础上依据自身计算机的CPU以及GPU的计算性能,给出一种更为合理的三阶段混合调度方案,进一步减少CPU的空闲时间以及避免GPU空闲情况的出现。数值实验表明,当矩阵阶数超过7000时,新的混合调度算法相比标准的MKL算法获得了超过5倍的加速比,同时对比原Volkov混合算法获得了显著的性能提升。 相似文献
10.
针对双向相似性计算在CPU下串行计算效率低下,无法满足实际需求的问题,利用该计算中数据独立性的特点,应用CUDA编程模型实现基于GPU加速的图像双向相似性计算。与CPU相比,在392x300的分辨率实验下,该算法在GPU上可获得超过1200倍的加速比。 相似文献
11.
随着可编程图形处理单元(GPU)性能的增强,许多基于GPU的三维几何造型系统的应用也与日俱增。Coons曲面片作为三维建模中重要的基本单元,在农作物的建模仿真以及曲面造型中是重要的。为了适应于GPU的通用计算,对传统Coons曲面片方程进行分解,从而并行构造出Coons曲面片。通过实验表明,随着插值点数的增加,片元程序执行的时间依然保持一定程度的稳定,并没有出现明显的增加;GPU上执行时间的增长速度明显低于在CPU上的增长速度。 相似文献
12.
13.
GPU可以显著提升一些网络功能的性能,但在GPU加速的网络功能虚拟化(Network Function Virtualization,NFV)系统中,由于网络功能需要以虚拟化方式独立开发和部署,其CPU-GPU处理流水线的CPU处理阶段会有较大的额外开销,使得网络功能GPU加速的效果不明显。为解决该问题,提出一个新的支持GPU加速的NFV系统框架。利用服务链中网络功能之间共享数据和流状态的特性,设计了共享式状态管理机制,以减少网络功能中重复性的协议栈处理和流状态管理开销,提升GPU加速的效果。对原型系统进行评估表明,相比于现有的系统框架,该框架能够显著地降低多种GPU加速的网络功能中CPU处理阶段的时间开销,并在常见的网络功能服务链上实现了高达2倍的吞吐量提升。 相似文献
14.
15.
密码学是保障网络安全的核心基础, 其在数据保护、身份验证、加密通信等方面发挥着至关重要的作用. 随着5G和物联网技术的迅速普及, 网络安全面临着空前的挑战, 对密码学性能的要求呈现出爆发式增长. GPU能够利用数以千计的计算核心并行化加速复杂计算问题, 这种并行化特性非常适用于密码学算法的计算密集型特性. 鉴于此, 研究人员广泛探索了在GPU平台上加速各种密码算法的方法, 与CPU、FPGA等平台相比, GPU展现出明显的性能优势. 论述各类密码算法的分类与GPU平台架构, 对各类密码在GPU异构平台上的研究现状进行详细分析, 总结当前基于GPU平台高性能密码学面临的技术难题, 并对未来技术发展进行展望. 通过深入研究和总结, 旨在为密码工程研究从业者提供有关基于GPU的高性能密码计算的最新研究进展和应用实践的综合参考. 相似文献
16.
为提高非线性数据降维算法效能,分析这类算法的特点,综合考虑KNN计算和解决Sparse特征值两个问题,提出将LLE算法中的KNN搜索算法及大型稀疏矩阵解特征值这两个部分并行在GPU的运算平台上,通过这种方法来加快所有基于LLE发展而来的数据降维技术的执行时间.仿真计算结果表明,在KNN方面整体加速可达40至50倍,在解... 相似文献
17.
使用GPU加速分子动力学模拟中的非绑定力计算 总被引:1,自引:0,他引:1
在分子动力学模拟(MD)中,对非绑定力的计算需要花费大量的时间。本文提出了基于CUDA和Brook+的两种双精度算法,分别在NVIDIA和AMD两款主流GPU上实现了非绑定力的计算,借助GPU的计算能力加速了整个MD程序。算法对MD进行了任务分割,采用区域分解的方法将非绑定力的计算映射到GPU的计算核心上,同时针对两款GPU的各自特点提出了线程块内共享存储、最小化数据集两种优化方法。性能测试结果表明,与Intel Xeon 2.6GHzCPU的单核相比,43.2万粒子的高速粒子碰撞模拟,在配置NVIDIA Tesla C1060的系统上性能提高了6.5倍,在配置AMD HD4870的系统上性能提高了4.8倍。 相似文献
18.
19.
研究GPU/CPU异构系统任务调度的节能问题.与传统同构体系结构相比,异构系统任务调度呈现较大的随机性和不定性,GPU/CPU异构系统中时间间隙片段呈现了较大的随机性,导致传统调度方法很难建立规则的描述时间片段的模型,调度能耗较高.为解决上述问题,提出了一种改进功耗优化的GPU/CPU异构环境下的任务调度算法,将任务关系图按照依赖关系计算量拆分,并分配到计算节点.在计算节点内根据权重法的思想,统计所有计算节点的处理情况,进而将节点内的子任务调度到合适的处理器.实验结果表明,在不影响应用性能的前提下,降低了异构系统的能耗开销,优化效果明显. 相似文献
20.
卷积神经网络(CNN)凭借其优秀的表现正在诸如图像分类、语音识别等领域里扮演着越来越重要的角色,已经有一些研究人员想要将这个深度学习过程复制到手机上。但是,由于CNN巨大的计算量,移植程序的性能一直难以令人满意。为了探讨如何解决这一问题,借助MXNet这样一个深度学习的框架在手机上实现了CNN的前向过程,并且将注意力放在了使用手机上另一个强大的计算设备——GPU上。最终选择使用OpenCL通用编程框架将前向过程中最耗时的卷积操作利用矩阵乘来完成,并转移到GPU上进行。在此基础之上还针对手机GPU做了一些优化。最终,实验结果显示我们成功地将前向过程的时间降低到了原来时间的一半。 相似文献