共查询到10条相似文献,搜索用时 21 毫秒
1.
GPU拥有几百GFlops甚至上TFlops的浮点计算能力,将GPU应用于粒子模拟,可有效提高大规模粒子模拟的速度,降低计算成本。本文利用GPU加速三维激光等离子体模拟算法LARED-P,提出了基于CPU+GPU的任务划分、GPU上任务分解、大规模计算核心的分解方法,结合使用了寄存器、纹理内存对算法进行加速。在双精度条件下,移植后的算法在工作频率为1.44GHz的NVIDIA Tesla S1070的单个GPU上获得了相当于主频2.4GHz的Intel(R)Core(TM)2 Quad CPU Q6600单核的6倍加速比。 相似文献
2.
基于MIC集群平台的GMRES算法并行加速 总被引:1,自引:0,他引:1
广义极小残量法(GMRES)是最常用的求解非对称大规模稀疏线性方程组的方法之一,其收敛速度快且稳定性良好。Intel Xeon Phi众核协处理器(MIC)具有计算能力强、易编程、易移植等特点。采用MPI+OpenMP+offload混合编程模型将GMRES算法移植到MIC集群平台上。采用进程间集合通信异步隐藏、数据传输优化、向量化以及线程亲和性优化等多种手段,大幅提升了GMRES算法的求解效率。最后将并行算法应用到“局部径向基函数求解高维偏微分方程”问题的求解中。测试表明,CPU节点集群上开启32个进程,并行效率高达71.74%,4块MIC卡的最高加速性能可达单颗CPU的7倍。 相似文献
3.
图形硬件加速的柔性物体连续碰撞检测 总被引:1,自引:0,他引:1
给出了一种图形硬件加速的柔性物体连续碰撞检测算法,可以实时检测复杂柔性物体场景中所有物体间碰撞和自碰撞.算法将柔性物体的碰撞检测过程进行流式分解,映射到图形硬件上并行执行,同时使用了并行流式登记算法,在图形硬件上高效实现了变长数据结构.该算法已经使用OpenCL在AMD Radeon HD 5870图形硬件上实现.针对一组各具特色的柔性物体仿真场景进行测试,对比CPU(Intel Q6600@2 4GHz)上的单线程优化实现,可以获得9 2~11 4倍的计算加速. 相似文献
4.
5.
HMMer是用PHMM来对蛋白质或氨基酸序列查询进行分类和匹配的生物信息学软件工具包,但是由于HMMer的并行特性,HMMer在传统的串行化CPU平台上运行十分耗时。采用FPGA对HMMer的核心算法P7Viterbi进行加速,在P7Viterbi算法中存在一个限制并行性的多层循环的迭代间数据依赖关系,以前的工作都是忽略该循环反馈或者串行化这部分程序,从而导致精度和效率的降低。提出了一种基于FPGA的可以适应P7Viterbi的数据依赖特性的基于脉动阵列的并行运算结构,采用自动重算机制来解决阻碍计算并行的回边问题。在FPGA中通过并行流水技术实现的加速系统能够有效地提高HMMer的运算效率。实验结果表明,提出的带有20个运算单元的结构和Intel Core2 Duo 2.33 GHz CPU平台相比,加速比能够达到56.8倍。 相似文献
6.
7.
基于CUDA的Kirchhoff叠前时间偏移算法设计与实现* 总被引:2,自引:2,他引:0
Kirchhoff叠前时间偏移是地震数据处理中最耗时的常用模块之一。为加快计算和显示速度,针对CUDA平台多处理器流水线特性,对传统Kirchhoff叠前时间偏移算法在CUDA平台上进行了重新设计,包括基于CUDA的Kirchhoff叠前时间偏移算法、基于CUDA的纵波波动方程算法和GPU与CPU间的通信算法三个子算法。所有算法在NVIDIA GeForce 8800 GT系统上编译实现,通过对比相同数据在Intel Core2Due CPU 2.0 GHz的地震偏移,综合分析和实验结果表明,基于CUDA 相似文献
8.
9.
10.
我们的话题是从下面四款CPU的信息对比开始的:
很显然,Intel Core 2 Duo E6320与AMD Athlon64 X2 6000+的价格是差不多的,Intel Core 2 Quad Q6600与AMD Phenom X4 9750的价格差也很小,但是为什么Intel CPU的二级缓存总是比AMD的大上不少呢? 相似文献