期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

傅贤超《现代计算机》2013,(11)

针对双向相似性计算在CPU下串行计算效率低下,无法满足实际需求的问题,利用该计算中数据独立性的特点,应用CUDA编程模型实现基于GPU加速的图像双向相似性计算。与CPU相比,在392x300的分辨率实验下,该算法在GPU上可获得超过1200倍的加速比。相似文献

2.

GPU 上计算流体力学的加速 总被引：1，自引：0，他引：1

下载免费PDF全文

董廷星李新亮李森迟学斌《计算机系统应用》2011,20(1):104-109

本文将计算流体力学中的可压缩的纳维叶-斯托克斯(Navier-Stokes),不可压缩的Navier-Stokes和欧拉(Euler)方程移植到NVIDIA GPU上.模拟了3个测试例子,2维的黎曼问题,方腔流问题和RAE2822型的机翼绕流.相比于CPU,我们在GPU平台上最高得到了33.2倍的加速比.为了最大程度提... 相似文献

3.

GPU加速逆时偏移技术的应用和分析

张向阳冯超敏文玲《计算机应用与软件》2012,29(8):223-225

在地震资料的处理应用中,逆时偏移等处理技术由于计算资源的需求量巨大,而不能在实际生产中被广泛采用。GPU及CUDA编程架构的引入大幅提高其运算性能,是解决类似技术应用的有效途径。同时,GPU独特的物理特性使得一些应用不仅不能提高性能,甚至使性能急剧下降。通过逆时偏移技术应用实例来说明GPU的加速效果,同时将其和常规流程进行对比和分析给出应用软件的GPU适用性评价方法。相似文献

4.

基于GPU的JPEG压缩算法实现

李杰刘灏马恩财刘明锋《数字社区&智能家居》2014,(26):6158-6160

图形处理器(Graphic Processing Unit),简称GPU,是针对多线程程序对吞吐量进行优化的处理器,在硬件设计上属于众核架构,非常适合于大规模并行计算任务。JPEG图像压缩作为计算密集型的矩阵数据运算,用GPU技术对JPEG算法进行实现,能充分发挥GPU的并行处理能力,极大提高编码效率。相似文献

5.

基于GPU 的生物信息学研究综述

孟庆汉周曼丽罗幼喜赵苗苗周丰丰《集成技术》2014,3(3):92-101

随着高通量生物组学数据生成技术的不断发展,近几年的生命科学研究的研发方法也出现较大的变革。海量的生物数据分析迫切需求现代大数据工具和技术。GPU在浮点运算、并行性以及能耗上与其他技术相比有显著的优势,其作为一种通用计算工具越来越受到重视。GPU很早就被用运用到生物信息学研究中,其加速效率一般能够达到两个数量级以上。文章主要概述GPU在生物信息学多个研究领域中应用,探讨GPU技术所适应的问题模型,并分析了其存在的不足。相似文献

6.

面向众核GPU加速系统的网络编码并行化及优化

唐绍华《计算机工程与应用》2014,50(21):79-84

网络编码允许网络节点在数据存储转发的基础上参与数据处理,已成为提高网络吞吐量、均衡网络负载和提高网络带宽利用率的有效方法,但是网络编码的计算复杂性严重影响了系统性能。基于众核GPU加速的系统可以充分利用众核GPU强大的计算能力和有效利用GPU的存储层次结构来优化加速网络编码。基于CUDA架构提出了以片段并行的技术来加速网络编码和基于纹理Cache的并行解码方法。利用提出的方法实现了线性随机编码,同时结合体系结构对其进行优化。实验结果显示,基于众核GPU的网络编码并行化技术是行之有效的,系统性能提升显著。相似文献

7.

行列混合存储数据库系统的研究

孙林超陈群肖玉泽白松《计算机应用研究》2013,30(2):480-482

通过研究列存储技术的特点,提出了一种行列混合存储数据库系统的设计方案.该方案在存储层设立独立的行存储引擎和列存储引擎,采用早物化技术在数据读出之后将列表转换成行表,然后以行的形式完成后续处理.因此,该方法既获得了列存储的读优势又复用了行数据库系统的成熟部件,降低了开发的风险和复杂度.基于PostgreSQL的原型开发与测试证明了该方案的可行性和有效性. 相似文献

8.

GPU上的kD-tree雷达模拟加速

史可鉴王斌朱恬倩张慧侯兆国《计算机辅助设计与图形学学报》2010,22(3)

为了加速对雷达系统的计算机仿真模拟,提出一种基于kD-tree的GPU并行加速算法.采用CUDA实现了多种kD-tree的并行遍历算法,并对这些遍历算法性能进行比较分析,从中筛选出了最适合在GPU上进行雷达模拟加速的Shortstack-kD算法.实验结果表明,Shortstack-kD算法不仅对不同种类的场景都能带来明显的效率提升,还可以根据场景的不同情况控制Shortstack-kD的栈长度,以达到算法的最高性能和最大灵活性;在CPU上进行建树的过程中还针对雷达模拟的应用需求进行了优化. 相似文献

9.

二维扩散方程的GPU加速 总被引：1，自引：0，他引：1

董廷星王龙迟学斌《计算机工程与科学》2009,31(11)

近几年来,GPU因拥有比CPU更强大的浮点性能备受瞩目。NVIDIA推出的CUDA架构,使得GPU上的通用计算成为现实。本文将计算流体力学中Benchmark问题的二维扩散方程移植到GPU,并采用了全局存储和纹理存储两种方法。结果显示,当网格达到百万量级的时候,得到了34倍的加速。相似文献

10.

使用GPU加速分子动力学模拟中的非绑定力计算 总被引：1，自引：0，他引：1

吴强杨灿群葛振陈娟《计算机工程与科学》2009,31(Z1)

在分子动力学模拟(MD)中,对非绑定力的计算需要花费大量的时间。本文提出了基于CUDA和Brook+的两种双精度算法,分别在NVIDIA和AMD两款主流GPU上实现了非绑定力的计算,借助GPU的计算能力加速了整个MD程序。算法对MD进行了任务分割,采用区域分解的方法将非绑定力的计算映射到GPU的计算核心上,同时针对两款GPU的各自特点提出了线程块内共享存储、最小化数据集两种优化方法。性能测试结果表明,与Intel Xeon 2.6GHzCPU的单核相比,43.2万粒子的高速粒子碰撞模拟,在配置NVIDIA Tesla C1060的系统上性能提高了6.5倍,在配置AMD HD4870的系统上性能提高了4.8倍。相似文献

11.

CUDA高性能计算并行编程 总被引：1，自引：0，他引：1

李波赵华成张敏芳《微型电脑应用》2009,25(9):55-57,64

针对GPU的计算处理能力,提出了用GPU解决高性能计算的问题,其中包括详细描述CUDA编程的方法、优化处理原则等。采用了对比实验,结果表明了CUDA在并行计算上有很强的能力,为GPU的通用计算提供了新的方法和思路。相似文献

12.

A CUDA-based parallel implementation of a test vectors encoding algorithm in compression-based scan designs

Eman AlQuraishi Eman AlDwaisan Alaa AlSaqaa 《International Journal of Parallel, Emergent and Distributed Systems》2016,31(3):280-293

Compression-based scan designs, although widely adopted, are costly in power dissipation. Therefore, several techniques have been proposed to reduce power dissipation in compression-based reconfigurable scan architectures. Incorporating power reduction as an objective in selecting the configuration of reconfigurable scan architecture increases the computational runtime as all the encoding configurations must be evaluated rather than the first valid configuration. In this paper, we present a parallel implementation, using computed unified device architecture, to a test vectors encoding algorithm in compression-based scan designs. The proposed implementation exploits the independence of scan chains and test vectors to improve the performance. Experimental results indicate that the parallel algorithm can be seven times faster than the serial algorithm. 相似文献

13.

基于GPU的实时超分辨率算法实现

章拓王知衍《广东电脑与电讯》2009,(3)

高分辨率显示设备的发展意味着需要高分辨率的图象与之匹配。本文通过GPU,实现了一种实时超分辨率,使分辨率较低的视频资料在高分辨率显示设备上有较好的显示效果。相似文献

14.

图形硬件加速的织物自碰撞检测算法

纪传舜刘卉《计算机应用与软件》2010,27(9)

自碰撞检测是织物实时模拟的瓶颈.利用最新的图形硬件特性,设计了织物模拟的自碰撞检测算法.该算法以质点包围球为基本计算单元,仅保存计算得到的第一次发生碰撞的信息,而不需要计算出所有的碰撞对.算法在CUDA平台上实现,通过对核函数的一次调用即可完成自碰撞检测,算法复杂度为O(n).将算法用于由大规模质点构成的织物模拟过程中,试验表明,算法的GPU实现比相应的CPU实现性能提高18倍以上,与两遍渲染算法相比,平均性能也提高了20%左右. 相似文献

15.

GPU实现的高速FIR数字滤波算法

陈孝良邓仰东程晓斌李晓东田静《计算机辅助设计与图形学学报》2010,22(9):1435-1442

针对目前基于GPU的FIR算法速度低、扩展性差的缺点,提出一种高速的多通道FIR数字滤波的并行算法,并利用平衡并行运算负载的技术以及降低内存访问密度的方法进行加速.该算法采用矩阵乘法的并行运算技术在GPU上建立并行滤波模型,通过每个线程在单个指令周期内执行2个信号运算,实现了多通道信号的高速滤波.实验结果表明,在GTX260+平台上,采用文中算法的平均加速比达到了203,效率超过40%,并且具有更好的扩展性. 相似文献

16.

GPU在海洋环流模式POP中的应用 总被引：1，自引：0，他引：1

宋振亚刘海行雷晓燕赵伟《计算机应用与软件》2010,27(10)

在CUDA(Compute Unified Device Architecture)架构下将GPU(Graphic Processing Unit)计算首次应用到海洋环流模式POP(Parallel Ocean Program)中.测试结果表明:无论高分辨率还是低分辨率,GPU都能够提高海洋环流数值模式POP的计算速度,GPU加速比最低都在1.5倍以上,最高可以超过2.2倍;并且随着模式使用线程数目的增多,GPU的加速比在降低,但是GPU利用效率在增长. 相似文献

17.

基于GPU的快速图像拷贝检测

谢洪涛高科张勇东李锦涛刘毅志《计算机辅助设计与图形学学报》2010,22(9):1483-1490

为了利用GPU强大的并行处理能力提高图像拷贝检测速度,提出一种基于GPU的图像拷贝检测方法.首先结合GPU的架构设计了尺度不变特征点提取算法——Harris-Hessian算法,通过在低尺度图像上检测特征点,在图像的一系列尺度空间中根据Hessian矩阵的行列式精确确定特征点的位置和尺度,显著地减少了像素级的计算量,并具有更好的并行性;在此基础上建立了图像拷贝检测系统,检测速度得到显著提升.实验结果表明,与基于CPU实现的传统算法相比,Harris-Hessian算法可以获得10~20倍的加速比,并可保证较高的检测精度.在11 250幅的图像库中,使用文中系统检测一幅640×480图像平均只需19.8 ms,并具有95%的正确率,满足了大规模数据下实时应用的需求. 相似文献

18.

Integrating Association Rule Mining with Relational Database Systems: Alternatives and Implications 总被引：5，自引：0，他引：5

Sunita Sarawagi Shiby Thomas Rakesh Agrawal 《Data mining and knowledge discovery》2000,4(2-3):89-125

Data mining on large data warehouses is becoming increasingly important. In support of this trend, we consider a spectrum of architectural alternatives for coupling mining with database systems. These alternatives include: loose-coupling through a SQL cursor interface; encapsulation of a mining algorithm in a stored procedure; caching the data to a file system on-the-fly and mining; tight-coupling using primarily user-defined functions; and SQL implementations for processing in the DBMS. We comprehensively study the option of expressing the mining algorithm in the form of SQL queries using Association rule mining as a case in point. We consider four options in SQL-92 and six options in SQL enhanced with object-relational extensions (SQL-OR). Our evaluation of the different architectural alternatives shows that from a performance perspective, the Cache option is superior, although the performance of the SQL-OR option is within a factor of two. Both the Cache and the SQL-OR approaches incur a higher storage penalty than the loose-coupling approach which performance-wise is a factor of 3 to 4 worse than Cache. The SQL-92 implementations were too slow to qualify as a competitive option. We also compare these alternatives on the basis of qualitative factors like automatic parallelization, development ease, portability and inter-operability. As a byproduct of this study, we identify some primitives for native support in database systems for decision-support applications. 相似文献