期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

谭彩凤马安国邢座程《计算机工程与科学》2009,31(Z1)

CUDA技术方便程序员在GPU上进行通用计算,但并没有提供随机数产生的应用接口。为此,本文提出并实现在CUDA开发平台上并行产生均匀随机数算法,测试证明算法可行。在此基础上优化基本遗传算法,并在GPU上并行实现其所有操作,提高其运行速度和准确度;分析了种群大小和遗传代数对此算法加速比及准确度的影响,并与MAT-LAB工具箱进行比较。实验表明,相比MATLAB遗传算法工具箱,基于CUDA平台实现的遗传算法性能更高,准确度更好。相似文献

2.

分子动力学模拟软件GROMACS向GPGPU移植初探

严历郭力李晓霞《计算机与应用化学》2010,27(12)

GROMACS是著名分子动力学模拟软件之一,GPGPU技术能够使用图形处理器完成通用计算,是高性能计算的最新发展趋势.本文通过对Nvidia CUDAGPGPU编程模式以及GROMACS代码的研究分析,论证了将GROMACS移植到以GPGPU为计算核心的平台上的可行性,并通过算法和参数数据组织形式的改造实现了GROMACS中非键力计算函数从x86处理器向GPGPU的移植,获得显著的性能提升,计算加速比达到10倍以上,为GROMACS整体移植的实现奠定了基础. 相似文献

3.

基于CUDA的k-means算法并行化研究

刘端阳郑江帆沈国江刘志《计算机科学》2018,45(11):292-297

k-means算法在面对大规模数据集时,计算时间将随着数据集的增大而成倍增长。为了提升算法的运算性能,设计了一种基于CUDA(Compute Unified Device Architecture)编程模型的并化行k-means算法,即GS_k-means算法。对k-means算法进行了并行化分析,在距离计算前,运用全局选择判断数据所属聚簇是否改变,减少冗余计算;在距离计算时,采用通用矩阵乘加速,加快计算速度;在簇中心点更新时,将所有数据按照簇标签排序分组,将组内数据简单相加,减少原子内存操作,从而提高整体性能。使用KDDCUP99数据集对改进算法进行实验,结果表明,在保证实验结果的准确性的情况下,改进算法加快了计算速度,与经典的GPUMiner算法相比加速比提升5倍。相似文献

4.

GPGPU编程技术初探

林茂董玉敏邹杰杨敏张晋楠《电脑编程技巧与维护》2010,(2):15-17,23

伴随着GPGPU计算技术的不断发展,HPC高性能计算系统体系结构正在悄然发生着一场变革,这场变革为高性能计算发展提供了一个新的方向、CUDA是NIVIDIA公司提供的利用GPGPU进行并行运算应用开发的一套C语言编程平台,通过它可以利用特定显卡的高性能运算能力进行一些大规模高性能计算,有效提升计算机系统的使用效率,本文主要介绍GPU发展现状以及如何利用CUDA编程技术进行并行运算软件开发．相似文献

5.

基于CUDA的SVM算法并行化研究

张巍张功萱王永利张永平朱昭萌《计算机科学》2013,40(4):69-72

SVM算法在统计分类以及回归分析中得到了广泛的应用。而随着物联网的迅速发展,SVM算法在各种应用中往往需要解决大量数据的快速处理问题。在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进一步研究海量数据的处理,提出海量数据处理的并行化方案;最后,通过实验分析对比了并行化算法的性能。相似文献

6.

GPGPU技术及其在医学图像处理中的应用

马千里秦畅卞春华《现代计算机》2010,(8):35-37,46

介绍通用图形处理器技术（GPGPU）技术的基本原理及其特点,分析其在医学影像领域的应用,并对医学图像处理常用的卷积滤波算法和各向异性扩展滤波算法进行优化及实验。结果表明,此技术可以极大地提高图像处理的速度,使得普通计算机上也可实现复杂的医学影像处理与可视化应用。相似文献

7.

利用GPGPU进行快速稀疏磁共振数据重建

下载免费PDF全文

王聪冯衍秋《计算机工程与应用》2011,47(17):203-206

利用GPGPU（General Purpose GPU）强大的并行处理能力,基于NVIDIA CUDA框架对已有的稀疏磁共振（Sparse MRI）重建算法进行了并行化改造,使其能够适应实际应用的要求。稀疏磁共振成像的重建算法包含大量的浮点运算,计算耗时严重,难以应用于实际,必须对其进行加速和优化。实验结果显示,NVIDIA GTX275 GPU使运算时间从4分多钟缩短到3.4秒左右,与Intel Q8200 CPU相比,达到了76倍的加速。相似文献

8.

基于GPU的GRAPES数值预报系统中RRTM模块的并行化研究

郑芳许先斌向冬冬王卓薇徐鸣《计算机科学》2012,39(106):370-374

GRAPES(Global and Regional Assimilation and Prediction System)是由中国气象科学研究院自主研究开发的中国新一代数值天气预报系统,由于其处理的数据量非常庞大以及对实时性的要求较高,因此一直是并行计算领域研究的热点。首次运用GPU(图形处理器)通用计算及CUDA技术对CRAPES_Meso。模式中物理过程的RRTM(快速辐射传输模式)长波辐射模块进行并行化处理。在性能分析的基础上,针对GPU体系结构的特点,从代码优化、存储器优化、编译选项等方面对程序性能进行优化,并取得了14X倍的加速比。经过测试表明,长波辐射RRTM模块在GPU上并行计算过程正确、稳定而且有效,并为GRAPES系统未来在GPU平台上的并行化发展奠定了一定的基础。相似文献

9.

Mean Shift图像分割算法的并行化

下载免费PDF全文

李宏益吴素萍《中国图象图形学报》2013,18(12):1610-1619

图像分割作为高性能并行计算的一个主要应用领域,其算法本身的时间复杂度和实时性需求要求不断改进计算机硬件技术和并行处理的算法。Mean Shift算法是图像分割领域一个比较经典的算法,在图像分割过程中,不需要任何先验知识,是一种无监督的分割过程,在图像分割的具体实现中应用广泛。利用TBB（Threading Building Block）工具和CUDA（Compute Unified Device Architecture）对Mean Shift算法进行多核和GPU(Graphic Processing Unit )并行化改造。文中首先分析出Mean Shift分割过程中最耗时的部分Mean Shift聚类,之后利用TBB和CUDA对Mean Shift聚类进行了并行化改造,并对两种并行方法进行了对比分析。实验结果表明,两种并行方法都取得了较好的加速效果,加速比都随着图像增大和带宽参数的增加而增大,基于TBB的加速比稳定趋于核数。相似文献

10.

基于CUDA的Prewitt算子并行实现

曾胜田刘羽马梦琦《微计算机应用》2011,32(11):71-75

Prewitt算子是数字图像分割中最常用的边缘检测算法,由于计算量大,传统的基于CPU的串行算法耗时较长.为了提高算法的计算效率,本文把Prewitt算子在CUDA架构下并行实现,并通过对不同分辨率图像的处理实验,与串行算法的处理时间进行比对,列出加速比.实验结果表明并行算法的加速效果显著,对提高图像处理系统的运行效率具有实际意义. 相似文献

11.

MDx差分攻击算法改进及GPGPU上的有效实现 总被引：1，自引：0，他引：1

周林韩文报祝卫华王政《计算机学报》2010,33(7)

Hash函数广泛应用于商业、安全等领域,其中MDx系列Hash算法应用最为广泛.因此对MDx系列Hash算法的攻击在理论上和实际应用上都有重要的意义.自王小云教授提出差分攻击算法并攻破MD5、MD4等MDx系列算法以来,对该算法的研究日益受到关注.文中以攻击MD5的差分攻击算法为例,改进了Klima提出的MD5隧道差分攻击算法,分析其在GPGPU上实现的可行性和技术要求并在Visual studio 6.0的环境下利用CUDA语言开发完成.算法的CUDA程序在GeForce 9800 GX2平台下运行,平均每1.35s能找到一对MD5碰撞.通过同4核Core 2 Quad Q9000(2.0GHz)PC上的实现相比较,在GeForce 9800 GX2上的实现能达到11.5倍的性价比. 相似文献

12.

基于统一计算设备架构技术的并行图像处理研究 总被引：1，自引：0，他引：1

杨志义朱娅婷蒲勇《计算机测量与控制》2009,17(4)

对统一计算设备架构CUDA技术进行研究,分析了CUDAGPU的显著特性,总结了CUDA的通用并行程序模式,详细介绍了用CUDA实现直方图均衡化的过程,接着简要介绍了CUDA在其它图像处理算法中的应用;最后对比CPU和GPU计算256级直方图均衡化的时间,实验结果表明随着图像像素的增大,CUDA可以把计算速度提高40多倍,在其它的图像算法中,甚至可以上百倍地提高速度. 相似文献

13.

Workflow of the Grover algorithm simulation incorporating CUDA and GPGPU

Xiangwen Lu Jiabin YuanWeiwei Zhang 《Computer Physics Communications》2013

The Grover quantum search algorithm, one of only a few representative quantum algorithms, can speed up many classical algorithms that use search heuristics. No true quantum computer has yet been developed. For the present, simulation is one effective means of verifying the search algorithm. In this work, we focus on the simulation workflow using a compute unified device architecture (CUDA). Two simulation workflow schemes are proposed. These schemes combine the characteristics of the Grover algorithm and the parallelism of general-purpose computing on graphics processing units (GPGPU). We also analyzed the optimization of memory space and memory access from this perspective. We implemented four programs on CUDA to evaluate the performance of schemes and optimization. Through experimentation, we analyzed the organization of threads suited to Grover algorithm simulations, compared the storage costs of the four programs, and validated the effectiveness of optimization. Experimental results also showed that the distinguished program on CUDA outperformed the serial program of libquantum on a CPU with a speedup of up to 23 times (12 times on average), depending on the scale of the simulation. 相似文献

14.

Shuffle up and deal: accelerating GPGPU Monte Carlo simulation with application to option pricing

Aurelien Cassagnes Yu Chen Hirotada Ohashi 《Concurrency and Computation》2015,27(17):5203-5213

In this paper, we demonstrate some speedup opportunity regarding Monte Carlo simulation on graphic processing unit architecture, with financial application. We leverage on the possibility of reducing the volume of actually generated random numbers, by replacing the generation phase with some shuffling using Compute Unified Device Architecture's built‐in shuffle instructions. We will study various shuffling patterns and duration, elect the best among them with regard to induced correlation, using Granger causality test. We will then study the accuracy and variance of results actually achieved by our general‐purpose computing on graphic processing unit shuffled Monte‐Carlo, exhibiting a computational time reduced by half while error remains marginal. Copyright © 2015 John Wiley & Sons, Ltd. 相似文献

15.

基于CUDA的稀疏矩阵与矢量乘法的优化

周洪樊晓桠赵丽丽《计算机测量与控制》2010,18(8)

随着VLSI技术的发展,在单芯片上集成若干个处理器核的思想成为现实,现代GPU就是一个典型的多核处理器设备;由于面向计算密集型的应用发展非常迅速,当前的GPU又具有了较强的通用计算能力;全文首先介绍了CUDA和稀疏矩阵的相关知识;基于矩阵的CSR表示格式,文章提出了三种CUDA模型下的程序优化方法;论文分析并实现了这三种程序优化方法,在Geforce 9600GT上的实验结果表明,最大可以实现4倍左右的加速比. 相似文献

16.

Research on GPGPU performance models

WANG Feng DU Yun fei CHEN Juan 《计算机工程与科学》2013,35(12):1

相似文献

17.

一种基于GPGPU的SIFT加速算法 总被引：3，自引：1，他引：3

杨天天鲁云萍张为华《电子技术应用》2015,41(1)

SIFT是目前应用最广泛的基于局部特征的图像特征提取算法之一,针对其运行速度制约其应用范围的问题,提出在图像处理器(GPGPU)上设计并实现将算法各核心模块映射到GPGPU的计算单元并针对GPUPU特性进行优化的SIFT并行加速算法。测试结果表明,基于GPGPU的SIFT并行算法相比于原始串行版本达到了118.2倍的加速,吞吐量达到了76.86图片/s,相比于已有的技术获得了明显的性能提升。相似文献