首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
SVM算法在统计分类以及回归分析中得到了广泛的应用。而随着物联网的迅速发展,SVM算法在各种应用中往往需要解决大量数据的快速处理问题。在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进一步研究海量数据的处理,提出海量数据处理的并行化方案;最后,通过实验分析对比了并行化算法的性能。  相似文献   

2.
针对目前基于普通DSP的FIR算法速度低、扩展性差的缺点,提出并实现基于CUDA平台实现的FIR滤波算法。由于在CUDA中程序可以直接操作数据而无需借助于图形系统的API,使开发者能够在GPU 强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。该算法将CUDA用于FIR滤波器输入输出关系计算,采用矩阵乘法的并行运算技术,在GPU上建立并行滤波模型,并对算法进行了优化。实验结果表明,在Tesla C1060平台上,和传统的基于DSP的FIR滤波算法计算速度相比,基于CUDA平台计算FIR滤波算法时,其加速比可接近30,解决了传统基于DSP计算FIR滤波算法速度较慢、扩展性差的问题。  相似文献   

3.
基于CUDA平台的遗传算法并行实现研究   总被引:2,自引:0,他引:2       下载免费PDF全文
CUDA技术方便程序员在GPU上进行通用计算,但并没有提供随机数产生的应用接口。为此,本文提出并实现在CUDA开发平台上并行产生均匀随机数算法,测试证明算法可行。在此基础上优化基本遗传算法,并在GPU上并行实现其所有操作,提高其运行速度和准确度;分析了种群大小和遗传代数对此算法加速比及准确度的影响,并与MAT-LAB工具箱进行比较。实验表明,相比MATLAB遗传算法工具箱,基于CUDA平台实现的遗传算法性能更高,准确度更好。  相似文献   

4.
Adaboost算法是一种用于目标检测的有效算法,自2001年应用于人脸检测以来,陆续有各种改进算法提出,旨在提高检测精度和适用范围.然而,训练一个Adaboost分类器仍然是一个很耗时间的过程.目前,CUDA与Adaboost结合的研究主要集中于在已有分类器的基础上加速目标检测的过程,构建实时目标检测系统.本文对Ad...  相似文献   

5.
《微型机与应用》2016,(10):40-42
提出了基于CUDA的并行拉普拉斯金字塔算法。算法采用的并行拉普拉斯算法很好地解决了共享存储器的bank冲突和全局存储器的合并访问的问题,为了最大化并行效率,计算了SM占用率,并通过公式进行了论证。在GTX480平台下,基于CUDA的并行拉普拉斯金字塔算法获得了几十倍的加速比。最后,将基于CUDA的并行拉普拉斯金字塔算法成功地应用于图像融合和增强图片的细节处理,充分证明了并行拉普拉斯金字塔算法广泛的有效性和必要性。  相似文献   

6.
GPU可以快速有效的处理海量数据,因此在近些年成为图形图像数据处理领域的研究热点。针对现有GPU渲染中在处理含有大量相同或相似模型场景时存在资源利用率低下和带宽消耗过大的问题,在原有GPU渲染架构的基础上提出了一种基于CUDA的加速渲染方法。在该方法中,根据现有的GPU渲染模式构建对应的模型,通过模型找出其不足,从而引申出常量内存的概念;然后分析常量内存的特性以及对渲染产生的作用,从而引入基于常量内存控制的方法来实现渲染的加速,整个渲染过程可以通过渲染算法进行控制。实验结果表明,该方法对解决上述问题具有较好的效果,最终实现加速渲染。  相似文献   

7.
传统的多目标进化算法多是基于Pareto最优概念的类随机搜索算法,求解速度较慢,特别是当问题维度变高,需要群体规模较大时,上述问题更加凸显。这一问题已经获得越来越多研究人员以及从业人员的关注。实验仿真中可以发现,构造非支配集和保持群体多样性这两部分工作占用了算法99%以上的执行时间。解决上述问题的一个有效方法就是对这一部分算法进行并行化改造。本文提出了一种基于CUDA平台的并行化解决方案,采用小生境技术实现共享适应度来维持候选解集的多样性,将多目标进化算法的实现全部置于GPU端,区别于以往研究中非支配排序的部分工作以及群体多样性保持的全部工作仍在CPU上执行。通过对ZDT系列函数的仿真结果,可以看出本文算法性能远远优于NSGA-Ⅱ和NPGA。最后通过求解油品调和过程这一有约束多目标优化问题,可以看出在解决化工应用中的有约束多目标优化问题时,该算法依然表现出优异的加速效果。  相似文献   

8.
基于CUDA的并行布谷鸟搜索算法设计与实现   总被引:1,自引:0,他引:1  
布谷鸟搜索(cuckoo search,CS)算法是近几年发展起来的智能元启发式算法,已经被成功应用于多种优化问题中。针对CS算法在求解大数据、大规模复杂问题时,计算时间过长的问题,提出了一种基于统一计算设备架构(compute unified device architecture,CUDA)的并行布谷鸟搜索算法。该算法的并行实现采用任务并行与数据并行相结合的方式,利用图形处理器(graphic processing unit,GPU)线程块与线程分别映射布谷鸟个体与个体的每一维数据,并行实现CS算法中的鸟巢位置更新、个体适应度评估、鸟巢重建、寻找最优个体操作。整个CS算法的寻优迭代过程完全通过GPU实现,降低了算法计算过程中CPU与GPU的通信开销。对4个经典基准测试函数进行了仿真实验,结果表明,相比标准CS算法,基于CUDA架构的并行CS算法在求解收敛性一致的前提下,在求解速度上获得了高达110倍的计算加速比。  相似文献   

9.
在三维场景仿真过程中,为了实现真实的光影效果,通常采用光线追踪法对场景进行渲染。光线追踪算法的核心过程是光线与场景中的片元进行相交测试,而对于一个复杂的场景,该过程计算量非常大。为了改善光线追踪算法的计算速度问题,实现一种基于CUDA(Compute Unified Device Architecture)的光线追踪算法。该算法利用GPU的并行处理能力同时结合KD-Tree加速相交测试过程,最终提高仿真场景的渲染速度。通过实验表明,该算法的KD-Tree创建性能相比传统方法提升约20%,光线追踪性能提升约6倍。  相似文献   

10.
程宾洋  王茂芝  罗耀华  郭科 《软件》2012,(8):144-146
由于空间和波谱分辨率的不断提高,高光谱遥感影像的海量数据特性导致高光谱遥感影像并行处理成为遥感影像处理技术的发展趋势。本文基于CUDA和GPU环境,设计并实现了高光谱遥感蚀变填图的SCM并行算法。实验结果表明,并行加速比可达到25,SCM并行算法能有效改善算法性能。  相似文献   

11.
基于CUDA的并行粒子群优化算法的设计与实现   总被引:1,自引:0,他引:1  
针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题, 进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析, 结合目前被广泛使用的基于GPU的并行计算技术, 设计实现了一种并行PSO方法。本方法的执行基于统一计算架构(CUDA), 使用大量的GPU线程并行处理各个粒子的搜索过程来加速整个粒子群的收敛速度。程序充分使用CUDA自带的各种数学计算库, 从而保证了程序的稳定性和易写性。通过对多个基准优化测试函数的求解证明, 相对于基于CPU的串行计算方法, 在求解收敛性一致的前提下, 基于CUDA架构的并行PSO求解方法可以取得高达90倍的计算加速比。  相似文献   

12.
目的 在微小飞行器系统中,如何实时获取场景信息是实现自主避障及导航的关键问题。本文提出了一种融合中心平均Census特征与绝对误差(AD)特征、基于纹理优化的半全局立体匹配算法(ADCC-TSGM),并利用统一计算设备架构 (CUDA)进行并行加速。方法 使用沿极线方向的一维差分计算纹理信息,使用中心平均Census特征及AD特征进行代价计算,通过纹理优化的SGM算法聚合代价并获得初始视差图;然后,通过左右一致性检验检查剔除粗略视差图中的不稳定点和遮挡点,使用线性插值和中值滤波对视差图中的空洞进行填充;最后,利用GPU特性,对立体匹配中的代价计算、半全局匹配 (SGM)计算、视差计算等步骤使用共享内存、单指令多数据流 (SIMD)及混合流水线进行优化以提高运行速度。结果 在Quarter Video Graphics Array (QVGA)分辨率的middlebury双目图像测试集中,本文提出的ADCC-TSGM算法总坏点率较Semi-Global Block Matching (SGBM)算法降低36.1%,较SGM算法降低28.3%;平均错误率较SGBM算法降低44.5%,较SGM算法降低49.9%。GPU加速实验基于NVIDIA Jetson TK1嵌入式计算平台,在双目匹配性能不变的情况下,通过使用CUDA并行加速,可获得117倍以上加速比,即使相较于已进行SIMD及多核并行优化的SGBM,运行时间也减少了85%。在QVGA分辨率下,GPU加速后的运行帧率可达31.8 帧/s。结论 本文算法及其CUDA加速可为嵌入式平台提供一种实时获取高质量深度信息的有效途径,可作为微小飞行器、小型机器人等设备进行环境感知、视觉定位、地图构建的基础步骤。  相似文献   

13.
针对SKINNY加密算法在中央处理器(CPU)下实现效率偏低的问题,提出一种基于图形处理器(GPU)的快速实现方法.首先,结合SKINNY算法的结构特征提出优化方案,将5个分步操作优化整合为1个整体运算;然后,分析该算法的电子密码本(ECB)模式和计数器(CTR)模式的特性,并给出并行粒度、内存分配等并行设计方案.实验...  相似文献   

14.
We describe experience on design and implementation of an efficient count sort algorithm on Compute Unified Device Architecture graphics processing units. The novelty of this work is twofold. At first, we propose a count sort algorithm for integers that needs no synchronization at its last step and thus, offers superior performance. At second, this work contributes ad hoc techniques for optimizing the performance of the algorithm on Compute Unified Device Architecture‐enabled graphics processing units. Copyright © 2011 John Wiley & Sons, Ltd.  相似文献   

15.
CUDA并行程序的内存访问优化技术研究   总被引:2,自引:0,他引:2  
对统一计算设备架构CUDA技术进行了研究,分析了CUDA体系结构及其内存访问机制的显著特点,总结了CUDA并行程序常见的内存访问问题,针对全局内存的非对齐访问和共享内存的访问冲突,提出了相应的内存访问优化策略;最后,利用直方图均衡算法对此优化技术进行了测试,对比了优化前后的程序执行时间;实验结果表明,利用此优化技术可以大大缩短CUDA程序的执行时间,并且图像像素越大,优化效果越好。  相似文献   

16.
17.
基于CUDA的汇流分析并行算法的研究与实现*   总被引:2,自引:0,他引:2  
针对基于数字高程模型(DEM)生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构(CUDA)平台同时可发挥图形处理器(GPU)并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和改进的并行算法进行汇流分析。用该并行算法和CPU上的串行算法, 对生成基于DEM的等流时线运算时间和矩阵乘法运算时间进行分析验证。实验结果表明,基于CUDA的汇流分析并行算法能提高系统的计算效率,具有较好的效果。  相似文献   

18.
由于GPU(图形处理器)性能的大幅提高和可编程性的发展,基于GPU的光线追踪算法逐渐成为研究热点。光线追踪算法需要的计算量大,基于此,分析了光线追踪算法的基本原理,在NVIDIA公司的CUDA(计算统一设备体系结构)环境下采用均匀栅格法作为加速结构实现了光线追踪算法。实验结果表明,该计算模式相对于传统基于CPU的光线追踪算法具有更快的整体运算速度,GPU适合处理高密度数据计算。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号