期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

郭雷刘进锋《计算机工程与应用》2012,48(2):201-202

CUDA是一种较为简便的利用GPU进行通用计算的技术。研究了GPU上基于CUDA的几种向量点积算法,比较、分析了每种算法的性能。实验表明,GPU上最快的算法比CPU上的算法快了约7倍。相似文献

2.

DO Thanh-Nghi NGUYEN Van-Hoa POULET Franois 《计算机科学与探索》2009,3(4):368-377

提出了一种新的并行增量式支持向量机算法来解决图形处理单元(GPU)中大规模数据集的分类问题。SVM以及核相关方法可以用来创建精确分类模型,但学习过程需要大量内存和很长时间。扩展了Suykens和Vandewalle提出的最少次方SVM(LS-SVM)方法来建立增量和并行算法。新算法使用图形处理器以低代价获得高系统性能。实现表明,在UCI和Delve数据集上,基于GPU并行增量算法较CPU实现方法快130倍,而且比现行算法,如LibSVM、SVM-perf和CB-SVM等快的多(超过2500倍)。相似文献

3.

一种基于OpenCL的高能效并行KNN算法及其GPU验证

《电子技术应用》2016,(2):14-16

近年来数据分类技术已经被广泛应用于各类问题中,作为最重要的分类算法之一,K最近邻法(KNN)也被广泛使用。在过去的近50年,人们就如何提高KNN的并行性能做出巨大努力。基于CUDA的KNN并行实现算法——CUKNN算法证明KNN在GPU上的并行实现比在CPU上串行实现的速度提升数十倍,然而,CUDA在实现过程中包含了大量的冗余计算。提出了一种并行冒泡的新型KNN并行算法,并通过OpenCL,在以GPU作为计算核心的异构系统上进行验证,结果显示提出的方法比CUDA快16倍。相似文献

4.

面向大规模数据流处理的偏最小二乘法

刘光敏陈庆奎《计算机应用研究》2014,31(4):1055-1058

用光谱分析鉴别生物特征,导致数据量大,而实际需要必须实时处理。偏最小二乘法是使用最广泛的鉴别算法,但是对于大规模数据流该算法无法达到实时性。为了解决这个应用矛盾,提出了一种基于NVIDIA CUDA架构下的并行计算策略,利用具有大规模并行计算特征的图形处理器（GPU）作为计算设备,结合GPU存储器的优势实现了偏最小二乘算法。实验的测试结果表明,在GPU上使用CUDA实现的偏最小二乘算法比在CPU上实现该算法快了47倍,性能得到了显著提高,从而使偏最小二乘算法应用于大规模数据流处理成为可能。相似文献

5.

融合遗传和蚁群算法并行求解最短公共超串

伍世刚钟诚《计算机应用》2014,34(7):1857-1861

依据各级缓存容量,将CPU主存中种群个体和蚂蚁个体数据划分存储到一级、二级和三级缓存中,以减少并行计算过程中数据在各级存储之间的传输开销,在CPU与GPU之间采取异步传送和不完全传送数据、GPU多个内核函数异步执行多个流的方法,设置GPU block线程数量为16的倍数、GPU共享存储器划分大小为32倍的bank,使用GPU常量存储器存储交叉概率、变异概率等需频繁访问的只读参数,将输入串矩阵和重叠部分长度矩阵只读大数据结构绑定到GPU纹理存储器,设计实现了一种多核CPU和GPU协同求解最短公共超串问题的计算、存储和通信高效的并行算法。求解多种规模的最短公共超串问题的实验结果表明,多核CPU与GPU协同并行算法比串行算法快70倍以上。相似文献

6.

GPU架构下基于经验模态分解的地震瞬时属性并行提取算法的研究

曹晓初金弟王宗仁王启迪《计算机科学》2013,40(Z11):409-411,414

从地震勘探资料中提取地震瞬时属性具有十分重要的意义,而基于信号局部特征的经验模态分解为非线性非稳定信号提供了一种全新的瞬时属性提取方法。对经验模态分解算法在GPU架构上的并行处理实现进行了分析和研究。通过实验对比测试表明,GPU架构下的算法运行效率较CPU具有明显优势。在测试数据中,GPU加速比最高达到了8.66倍。相似文献

7.

三维Navier-Stokes方程的差分-谱方法混合法在GPU上的实现与优化

徐莹徐磊《计算机工程与科学》2012,34(8):53-58

差分-谱方法通常在槽道湍流的直接数值模拟中使用,本文主要研究差分-谱方法在单GPU卡上的实现。由于GPU的硬件发展十分迅速,不同的GPU硬件对双精度计算的支持有所不同,本文首先验证GPU上数值计算的精度,用差分-谱混合法求解标量扩散方程,并将GPU和CPU上获取的数值结果与解析解进行对比,以确定GPU上数值算法实现的精确度。标量扩散方程在Nvidia S2050单GPU卡上求解,获得接近20倍的加速比,三维不可压缩Navier-Stokes方程达到了25倍的加速比。相似文献

8.

基于GPU的图像监督分类算法的研究

李思瑶周海芳方民权《计算机科学》2018,45(Z6):143-145, 170

文中介绍了3种经典的图像分类算法在GPU上的实现,分别是简单贝叶斯分类、KNN、SNN分类。GPU与CPU协同处理是目前使用得较多的结构模式。一般在GPU上执行计算量比较大的程序 ,CPU负责指挥协调。文中对这3种算法进行了测试,通过实验分析,3种算法的GPU并行程序分别获得了平均72.472,149.536,125.39倍的加速效果。使用的GPU架构是Tesla k20c。贝叶斯、KNN和SNN算法是监督分类算法。实验给出了3种算法图像处理的结果和时间,其均符合要求。相似文献

9.

图形处理器通用计算的实现与验证

下载免费PDF全文

齐记杨孔庆杨磊《计算机工程与应用》2009,45(33):67-69

讨论了显示卡用于通用科学计算的问题,并以大型矩阵的基本运算问题详细比较了CPU和GPU计算之间的差别。在基本的矩阵运算中,运用适当的矩阵分块,GPU的计算速度比CPU快50倍左右。而且,显示卡低廉的价格为更多科研工作者实现大规模运算提供了可能。相似文献

10.

基于OpenCL的图像重映射算法优化研究

吴再龙张云泉龙国平徐建良贾海鹏《数据与计算发展前沿》2013,4(1):57-66

图像重映射(Remap)算法是典型的图像变化算法。在图像放缩、扭曲、旋转等领域有着广泛的应用。随着图片规模和分辨率的不断提高,对图形映射算法的性能提出了越来越高的要求。本文在充分考虑不同GPU平台硬件体系结构差异的基础上,系统研究了在OpenCL框架下图像映射(Remap)算法在不同GPU平台上的高效实现方式。并从片外内存访存优化,向量化计算,减少动态指令等多个优化角度考察了不同优化方法在不同GPU平台上对性能的影响,提出了在不同GPU平台间实现性能移植的可能性。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD HD5850GPU上相对于CPU版本取得114.3～491.5倍的加速比,相对于CUDA版本(现有GPU算法的实现)得到1.01～1.86的加速比,在NIVIDIA C2050 GPU上相对CPU版本取得100.7～369.8倍的加速比,相对于CUDA版本得到0.95～1.58的加速比。有效验证了本文提出的优化方法的有效性和性能可移植性。相似文献

11.

GPU加速希尔加解密方法的研究 总被引：1，自引：1，他引：0

下载免费PDF全文

刘丹赵广辉钟珞《计算机工程与应用》2010,46(18):49-51

GPU有效地利用了数量巨大的晶体管制造大量的处理单元,适用于处理单任务多数据（SIMD）的计算任务。研究了GPU的体系结构及CUDA的编程模式,改进了基于CPU的希尔加解密方法,使用多个线程将计算中耗时的矩阵相乘部分改造成SIMD模式,并分析了线程块内线程数对加速比的影响。实验结果表明,基于GPU的并行矩阵相乘的希尔加解密方法成功实现了硬件加速,相对于CPU上运行的希尔加解密方法,其执行效率明显提高,可获取12倍以上的加速,并易于扩展,对大规模数据加密和解密处理呈现出高效的处理能力。相似文献

12.

高性能人脸识别加速器优化设计及FPGA实现

下载免费PDF全文

吴进张伟华席萌代巍《计算机工程与应用》2020,56(22):48-54

计算机视觉的快速发展对嵌入式产品的系统性能要求越来越高,传统的现场可编程门阵列（Field Programmable Gate Array,FPGA）平台存在计算吞吐未能很好匹配内存带宽,通用处理器对卷积神经网络（Convolutional Neural Network,CNN）的实现效率不高,未能满足性能要求等问题。针对以上设计瓶颈,使用经典的LeNet-5神经网络模型,在Xilinx ZC706嵌入式开发平台上设计了一个高性能的人脸识别神经网络加速器,在高层次综合（High Level Synthesis,HLS）工具的基础上通过存储优化、定点量化、运算优化等方法对神经网络模型进行优化改进,实现了7层的CNN加速器。实验结果表明,CNN加速器的工作频率为200 MHz,相较于CPU,加速器实现了126倍加速,相较于GPU速度提升10倍以上,并且功耗仅为2.62 W。相似文献

13.

基于GPU的位并行多模式串匹配研究 总被引：1，自引：0，他引：1

下载免费PDF全文

赵光南吴承荣《计算机工程》2011,37(14):265-267

图形处理器(GPU)具有较强的单一运算能力及高度并行的体系结构。根据上述特点,选择基于位并行技术的多模式串匹配算法M-BNDM,将其移植到GPU上加以实现和优化。通过对需要处理的数据进行预处理,将串匹配的过程简化为更适合CUDA计算数据的位操作。对基于CUDA架构的并行串匹配算法的性能影响因子进行分析。实验结果表明,与同等CPU算法相比,该算法能够获得约十几倍的加速比。相似文献

14.

基于CUDA的尺度不变特征变换快速算法 总被引：2，自引：2，他引：0

下载免费PDF全文

田文徐帆王宏远周波《计算机工程》2010,36(8):219-221

针对尺度不变特征变换(SIFT)算法耗时多限制其应用范围的缺点,提出一种基于统一计算设备架构(CUDA)的尺度不变特征变换快速算法,分析其并行特性,在图像处理单元(GPU)的线程和内存模型方面对算法进行优化。实验证明,相对于CPU,算法速度提升了30~50倍,对640×480图像的处理速度达到每秒24帧,满足实时应用的需求。相似文献

15.

RSA算法的CUDA高效实现技术 总被引：1，自引：1，他引：0

下载免费PDF全文

孙迎红童元满王志英《计算机工程与应用》2011,47(2):84-87

CUDA（Compute Unified Device Architecture）作为一种支持GPU通用计算的新型计算架构,在大规模数据并行计算方面得到了广泛的应用。RSA算法是一种计算密集型的公钥密码算法,给出了基于CUDA的RSA算法并行化高效实现技术,其关键为引入大量独立并发的Montgomery模乘线程,并给出了具体的线程组织、数据存储结构以及基于共享内存的性能优化实现技术。根据RSA算法CUDA实现方法,在某款GPU上测试了RSA算法的运算性能和吞吐率。实验结果表明,与RSA算法的通用CPU实现方式相比,CUDA实现能够实现超过40倍的性能加速。相似文献

16.

基于OpenCL的点云分割方法

下载免费PDF全文

范昱伶王美丽何东健《计算机工程与应用》2018,54(1):191-195

点云分割是逆向工程中模型重建的关键技术之一,然而在求取点云特征时非常耗时,通过OpenCL异构计算对其进行性能加速有着重要的现实意义。以散乱无序的点云为研究对象,通过OpenCL对点云分割算法加以改进。算法主要分为并行计算点云数据的特征值,并行计算点云数据的法向量和曲率3个步骤。在计算中,根据GPU的并行结构和硬件特点,优化了数据存储结构,提高了数据访问效率,降低了算法复杂度。实验结果表明,算法充分利用了OpenCL的并行处理能力,运行效率是基于CPU实现的16倍。相似文献

17.

基于CUDA的BP算法并行化与实例验证

孙香玉冯百明杨鹏斐《计算机工程与应用》2013,(23):31-34,51

CUDA是应用较广的GPU通用计算模型,BP算法是目前应用最广泛的神经网络模型之一。提出了用CUDA模型并行化BP算法的方法。用该方法训练BP神经网络,训练开始前将数据传到GPU,训练开始后计算隐含层和输出层的输入输出和误差,更新权重和偏倚的过程都在GPU上实现。将该方法用于手写数字图片训练练实验,与在四核CPU上的训练相比,加速比为6．12～8．17。分别用在CPU和GPU上训练得到的结果识别相同的测试集图片,GPU上的训练结果对图片的识别率比CPU上的高0．05％～0．22％。相似文献

18.

Ultra-Mat：基于平面波的第一原理异构计算软件

贾伟乐曹宗雁王龙迟学斌高卫国汪林望《计算机科学与探索》2014,(7):769-777

基于平面波的第一原理计算方法是目前材料科学中最常用的方法,但传统的CPU并行计算遇到可扩展性瓶颈,无法改善其求解的绝对速度。系统地介绍了利用图形处理器（graphic processing unit,GPU）加速技术开发的大规模第一原理材料计算软件：Ultra-Mat。该软件对第一原理平面波算法进行了系统的算法设计和软件实现：（1）通过采用并行方案,实现了快速傅里叶变换（fast Fourier transform,FFT）的GPU局部操作;（2）设计了基于数据压缩的混合精度算法,显著减少了电子结构计算部分的MPI（message passing interface）通信;（3）完成了逾90%代码的GPU实现,目的是最大限度地减少中间流程,以避免CPU-GPU切换引发的数据传输,这是GPU应用中公认的性能瓶颈。测试结果显示Ultra-Mat具有很好的计算性能,对于512原子的GaAs系统,在电子结构计算部分,使用256 GPU卡相比4096 CPU核心有18倍的加速。相似文献

19.

gAC:基于GPU的高性能AC算法

陈虎彭江锋施少怀《计算机工程与应用》2012,48(12):43-48

字符串匹配是计算科学中研究最广泛的问题之一,已成为信息检索和生物计算等领域的核心操作。然而受限于CPU的计算能力和存储器访问带宽,传统的串行字符串匹配算法难以进一步提升性能。GPU在计算能力和存储器访问带宽上有很大提升,已经在很多应用上取得了卓越成效。gAC作为一种基于GPU的并行AC算法,针对GPU的SIMT(Single-Instruction Multiple-Thread)以及合并存储器访问的技术特点,采取了减少条件分支、合并访问全局存储器等优化方法,使得在C1060GPU上的字符串扫描速度达到51Gb/s,比基于CPU的串行算法提升了28倍。相似文献