首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 21 毫秒
1.
GPU拥有几百GFlops甚至上TFlops的浮点计算能力,将GPU应用于粒子模拟,可有效提高大规模粒子模拟的速度,降低计算成本。本文利用GPU加速三维激光等离子体模拟算法LARED-P,提出了基于CPU+GPU的任务划分、GPU上任务分解、大规模计算核心的分解方法,结合使用了寄存器、纹理内存对算法进行加速。在双精度条件下,移植后的算法在工作频率为1.44GHz的NVIDIA Tesla S1070的单个GPU上获得了相当于主频2.4GHz的Intel(R)Core(TM)2 Quad CPU Q6600单核的6倍加速比。  相似文献   

2.
基于MIC集群平台的GMRES算法并行加速   总被引:1,自引:0,他引:1  
王明清  李明  张清  张广勇  吴韶华 《计算机科学》2017,44(4):197-201, 240
广义极小残量法(GMRES)是最常用的求解非对称大规模稀疏线性方程组的方法之一,其收敛速度快且稳定性良好。Intel Xeon Phi众核协处理器(MIC)具有计算能力强、易编程、易移植等特点。采用MPI+OpenMP+offload混合编程模型将GMRES算法移植到MIC集群平台上。采用进程间集合通信异步隐藏、数据传输优化、向量化以及线程亲和性优化等多种手段,大幅提升了GMRES算法的求解效率。最后将并行算法应用到“局部径向基函数求解高维偏微分方程”问题的求解中。测试表明,CPU节点集群上开启32个进程,并行效率高达71.74%,4块MIC卡的最高加速性能可达单颗CPU的7倍。  相似文献   

3.
图形硬件加速的柔性物体连续碰撞检测   总被引:1,自引:0,他引:1  
给出了一种图形硬件加速的柔性物体连续碰撞检测算法,可以实时检测复杂柔性物体场景中所有物体间碰撞和自碰撞.算法将柔性物体的碰撞检测过程进行流式分解,映射到图形硬件上并行执行,同时使用了并行流式登记算法,在图形硬件上高效实现了变长数据结构.该算法已经使用OpenCL在AMD Radeon HD 5870图形硬件上实现.针对一组各具特色的柔性物体仿真场景进行测试,对比CPU(Intel Q6600@2 4GHz)上的单线程优化实现,可以获得9 2~11 4倍的计算加速.  相似文献   

4.
翁捷  吴强  杨灿群 《计算机工程》2011,37(4):119-121
在基于GPU的异构平台上,采用开放计算语言(OpenCL)实现破解算法,利用分轮生成攻击密码、图形渲染管线加速存取以及多密码并行等方法对算法进行优化,在Intel四核CPU Q8230(2.3 GHz)和一片NVIDIA GT200组成的平台上进行实验。实验结果表明,在相同CPU平台上该算法能够获得高于破解软件John the ripper 17倍的破解速度。  相似文献   

5.
HMMer是用PHMM来对蛋白质或氨基酸序列查询进行分类和匹配的生物信息学软件工具包,但是由于HMMer的并行特性,HMMer在传统的串行化CPU平台上运行十分耗时。采用FPGA对HMMer的核心算法P7Viterbi进行加速,在P7Viterbi算法中存在一个限制并行性的多层循环的迭代间数据依赖关系,以前的工作都是忽略该循环反馈或者串行化这部分程序,从而导致精度和效率的降低。提出了一种基于FPGA的可以适应P7Viterbi的数据依赖特性的基于脉动阵列的并行运算结构,采用自动重算机制来解决阻碍计算并行的回边问题。在FPGA中通过并行流水技术实现的加速系统能够有效地提高HMMer的运算效率。实验结果表明,提出的带有20个运算单元的结构和Intel Core2 Duo 2.33 GHz CPU平台相比,加速比能够达到56.8倍。  相似文献   

6.
《网络与信息》2011,25(9):6-6
在Intel最新曝光的桌面CPU产品路线图中。SandyBridge—E平台将牢牢占据高端产品线直至2012年第三季度。顶级的Core i7—3960X将顶替原来Corei7990X的位置,Corei7—3960X同样拥有6个核心。默认频率3.33GHz,三级缓存达到15M.可通过Turbo Boost加速至39GHz;集成的控制器支持四通道DDR3—1333内存。TDP为135W;同时Donanimhaber网站称Core i7-3980X有可能是Intel首个八核心桌面处理器。  相似文献   

7.
基于CUDA的Kirchhoff叠前时间偏移算法设计与实现*   总被引:2,自引:2,他引:0  
Kirchhoff叠前时间偏移是地震数据处理中最耗时的常用模块之一。为加快计算和显示速度,针对CUDA平台多处理器流水线特性,对传统Kirchhoff叠前时间偏移算法在CUDA平台上进行了重新设计,包括基于CUDA的Kirchhoff叠前时间偏移算法、基于CUDA的纵波波动方程算法和GPU与CPU间的通信算法三个子算法。所有算法在NVIDIA GeForce 8800 GT系统上编译实现,通过对比相同数据在Intel Core2Due CPU 2.0 GHz的地震偏移,综合分析和实验结果表明,基于CUDA  相似文献   

8.
Q&A热线     
《微型计算机》2010,(16):154-155
近有读者来信询问Dr.Ben,通过CPU-Z软件查询发现新购买的Core i7 860处理器的频率在1.2GHz到3.33GHz之间跳来跳去,他怀疑这是不是由主板引起的。其实,这并不是主板的问题,而是由CPU的智能加速技术引起的。事实上,CPU智能加速技术已经成为当前的热门话题(AMD的相关技术为Turbo Core,英特尔则叫做Turbo Boost),你不需要计算复杂的CPU超频参数、不需要挑选豪华超频主板、不需要购买大功率电源,CPU在使用过程中可以根据实际情况自动提升主频以提升性能。  相似文献   

9.
基于CUDA的地震数据相干体并行算法   总被引:5,自引:0,他引:5  
在地震探测解释方面,运用相干体技术可以清楚地识别断层和地层特征。由于相干体是通过三维地震数据体计算得到,传统方法难以满足计算需求。基于CUDA平台,提出了一种并行相干体算法,该算法可加速相干体算法中的矩阵相乘计算。理论分析和配有Intel Core2Due CPU和NVIDIA GeForce 8800 GT显卡的实验结果表明:基于GPU的并行相干体算法可取得理想的线性加速比,提高系统的计算效率。  相似文献   

10.
我们的话题是从下面四款CPU的信息对比开始的: 很显然,Intel Core 2 Duo E6320与AMD Athlon64 X2 6000+的价格是差不多的,Intel Core 2 Quad Q6600与AMD Phenom X4 9750的价格差也很小,但是为什么Intel CPU的二级缓存总是比AMD的大上不少呢?  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号