共查询到18条相似文献,搜索用时 46 毫秒
1.
针对双向相似性计算在CPU下串行计算效率低下,无法满足实际需求的问题,利用该计算中数据独立性的特点,应用CUDA编程模型实现基于GPU加速的图像双向相似性计算。与CPU相比,在392x300的分辨率实验下,该算法在GPU上可获得超过1200倍的加速比。 相似文献
2.
3.
在地震资料的处理应用中,逆时偏移等处理技术由于计算资源的需求量巨大,而不能在实际生产中被广泛采用。GPU及CUDA编程架构的引入大幅提高其运算性能,是解决类似技术应用的有效途径。同时,GPU独特的物理特性使得一些应用不仅不能提高性能,甚至使性能急剧下降。通过逆时偏移技术应用实例来说明GPU的加速效果,同时将其和常规流程进行对比和分析给出应用软件的GPU适用性评价方法。 相似文献
4.
图形处理器(Graphic Processing Unit),简称GPU,是针对多线程程序对吞吐量进行优化的处理器,在硬件设计上属于众核架构,非常适合于大规模并行计算任务。JPEG图像压缩作为计算密集型的矩阵数据运算,用GPU技术对JPEG算法进行实现,能充分发挥GPU的并行处理能力,极大提高编码效率。 相似文献
5.
6.
唐绍华 《计算机工程与应用》2014,50(21):79-84
网络编码允许网络节点在数据存储转发的基础上参与数据处理,已成为提高网络吞吐量、均衡网络负载和提高网络带宽利用率的有效方法,但是网络编码的计算复杂性严重影响了系统性能。基于众核GPU加速的系统可以充分利用众核GPU强大的计算能力和有效利用GPU的存储层次结构来优化加速网络编码。基于CUDA架构提出了以片段并行的技术来加速网络编码和基于纹理Cache的并行解码方法。利用提出的方法实现了线性随机编码,同时结合体系结构对其进行优化。实验结果显示,基于众核GPU的网络编码并行化技术是行之有效的,系统性能提升显著。 相似文献
7.
8.
为了加速对雷达系统的计算机仿真模拟,提出一种基于kD-tree的GPU并行加速算法.采用CUDA实现了多种kD-tree的并行遍历算法,并对这些遍历算法性能进行比较分析,从中筛选出了最适合在GPU上进行雷达模拟加速的Shortstack-kD算法.实验结果表明,Shortstack-kD算法不仅对不同种类的场景都能带来明显的效率提升,还可以根据场景的不同情况控制Shortstack-kD的栈长度,以达到算法的最高性能和最大灵活性;在CPU上进行建树的过程中还针对雷达模拟的应用需求进行了优化. 相似文献
9.
二维扩散方程的GPU加速 总被引:1,自引:0,他引:1
近几年来,GPU因拥有比CPU更强大的浮点性能备受瞩目。NVIDIA推出的CUDA架构,使得GPU上的通用计算成为现实。本文将计算流体力学中Benchmark问题的二维扩散方程移植到GPU,并采用了全局存储和纹理存储两种方法。结果显示,当网格达到百万量级的时候,得到了34倍的加速。 相似文献
10.
使用GPU加速分子动力学模拟中的非绑定力计算 总被引:1,自引:0,他引:1
在分子动力学模拟(MD)中,对非绑定力的计算需要花费大量的时间。本文提出了基于CUDA和Brook+的两种双精度算法,分别在NVIDIA和AMD两款主流GPU上实现了非绑定力的计算,借助GPU的计算能力加速了整个MD程序。算法对MD进行了任务分割,采用区域分解的方法将非绑定力的计算映射到GPU的计算核心上,同时针对两款GPU的各自特点提出了线程块内共享存储、最小化数据集两种优化方法。性能测试结果表明,与Intel Xeon 2.6GHzCPU的单核相比,43.2万粒子的高速粒子碰撞模拟,在配置NVIDIA Tesla C1060的系统上性能提高了6.5倍,在配置AMD HD4870的系统上性能提高了4.8倍。 相似文献
11.
12.
Eman AlQuraishi Eman AlDwaisan Alaa AlSaqaa 《International Journal of Parallel, Emergent and Distributed Systems》2016,31(3):280-293
Compression-based scan designs, although widely adopted, are costly in power dissipation. Therefore, several techniques have been proposed to reduce power dissipation in compression-based reconfigurable scan architectures. Incorporating power reduction as an objective in selecting the configuration of reconfigurable scan architecture increases the computational runtime as all the encoding configurations must be evaluated rather than the first valid configuration. In this paper, we present a parallel implementation, using computed unified device architecture, to a test vectors encoding algorithm in compression-based scan designs. The proposed implementation exploits the independence of scan chains and test vectors to improve the performance. Experimental results indicate that the parallel algorithm can be seven times faster than the serial algorithm. 相似文献
13.
高分辨率显示设备的发展意味着需要高分辨率的图象与之匹配。本文通过GPU,实现了一种实时超分辨率,使分辨率较低的视频资料在高分辨率显示设备上有较好的显示效果。 相似文献
14.
自碰撞检测是织物实时模拟的瓶颈.利用最新的图形硬件特性,设计了织物模拟的自碰撞检测算法.该算法以质点包围球为基本计算单元,仅保存计算得到的第一次发生碰撞的信息,而不需要计算出所有的碰撞对.算法在CUDA平台上实现,通过对核函数的一次调用即可完成自碰撞检测,算法复杂度为O(n).将算法用于由大规模质点构成的织物模拟过程中,试验表明,算法的GPU实现比相应的CPU实现性能提高18倍以上,与两遍渲染算法相比,平均性能也提高了20%左右. 相似文献
15.
针对目前基于GPU的FIR算法速度低、扩展性差的缺点,提出一种高速的多通道FIR数字滤波的并行算法,并利用平衡并行运算负载的技术以及降低内存访问密度的方法进行加速.该算法采用矩阵乘法的并行运算技术在GPU上建立并行滤波模型,通过每个线程在单个指令周期内执行2个信号运算,实现了多通道信号的高速滤波.实验结果表明,在GTX260+平台上,采用文中算法的平均加速比达到了203,效率超过40%,并且具有更好的扩展性. 相似文献
16.
GPU在海洋环流模式POP中的应用 总被引:1,自引:0,他引:1
在CUDA(Compute Unified Device Architecture)架构下将GPU(Graphic Processing Unit)计算首次应用到海洋环流模式POP(Parallel Ocean Program)中.测试结果表明:无论高分辨率还是低分辨率,GPU都能够提高海洋环流数值模式POP的计算速度,GPU加速比最低都在1.5倍以上,最高可以超过2.2倍;并且随着模式使用线程数目的增多,GPU的加速比在降低,但是GPU利用效率在增长. 相似文献
17.
为了利用GPU强大的并行处理能力提高图像拷贝检测速度,提出一种基于GPU的图像拷贝检测方法.首先结合GPU的架构设计了尺度不变特征点提取算法——Harris-Hessian算法,通过在低尺度图像上检测特征点,在图像的一系列尺度空间中根据Hessian矩阵的行列式精确确定特征点的位置和尺度,显著地减少了像素级的计算量,并具有更好的并行性;在此基础上建立了图像拷贝检测系统,检测速度得到显著提升.实验结果表明,与基于CPU实现的传统算法相比,Harris-Hessian算法可以获得10~20倍的加速比,并可保证较高的检测精度.在11 250幅的图像库中,使用文中系统检测一幅640×480图像平均只需19.8 ms,并具有95%的正确率,满足了大规模数据下实时应用的需求. 相似文献
18.
Integrating Association Rule Mining with Relational Database Systems: Alternatives and Implications 总被引:5,自引:0,他引:5
Data mining on large data warehouses is becoming increasingly important. In support of this trend, we consider a spectrum
of architectural alternatives for coupling mining with database systems. These alternatives include: loose-coupling through
a SQL cursor interface; encapsulation of a mining algorithm in a stored procedure; caching the data to a file system on-the-fly
and mining; tight-coupling using primarily user-defined functions; and SQL implementations for processing in the DBMS. We
comprehensively study the option of expressing the mining algorithm in the form of SQL queries using Association rule mining
as a case in point. We consider four options in SQL-92 and six options in SQL enhanced with object-relational extensions (SQL-OR).
Our evaluation of the different architectural alternatives shows that from a performance perspective, the Cache option is
superior, although the performance of the SQL-OR option is within a factor of two. Both the Cache and the SQL-OR approaches
incur a higher storage penalty than the loose-coupling approach which performance-wise is a factor of 3 to 4 worse than Cache.
The SQL-92 implementations were too slow to qualify as a competitive option. We also compare these alternatives on the basis
of qualitative factors like automatic parallelization, development ease, portability and inter-operability. As a byproduct
of this study, we identify some primitives for native support in database systems for decision-support applications. 相似文献