期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张佳康陈庆奎《计算机工程》2010,36(15):179-181

针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。相似文献

2.

一种单GPU程序向多GPU移植的模板化技术

李建江李兴钢路川樊少明《计算机研究与发展》2010,47(12)

图形处理器(GPU)作为一种高度并行化的处理器架构,已得到越来越多的重视,目前已诞生了以NVIDIA CUDA为代表的各种GPU通用计算技术,同时多GPU并行计算也已有了实际的应用.多GPU并行计算涉及GPU与CPU两者之间的协调和交互,对程序员有着更高的要求.为此,提出一种基于模板的源代码生成技术,通过模板转化来支持单GPU程序的并行化移植.最后通过一个实例表明使用提出的CUDA源代码移植框架能够自动生成与手写程序等价的代码,可以显著降低多GPU下CUDA程序的开发代价,提高CUDA应用程序员的生产效率. 相似文献

3.

基于GPU的JPEG压缩算法实现

李杰刘灏马恩财刘明锋《数字社区&智能家居》2014,(26):6158-6160

图形处理器(Graphic Processing Unit),简称GPU,是针对多线程程序对吞吐量进行优化的处理器,在硬件设计上属于众核架构,非常适合于大规模并行计算任务。JPEG图像压缩作为计算密集型的矩阵数据运算,用GPU技术对JPEG算法进行实现,能充分发挥GPU的并行处理能力,极大提高编码效率。相似文献

4.

面向众核GPU加速系统的网络编码并行化及优化

唐绍华《计算机工程与应用》2014,50(21):79-84

网络编码允许网络节点在数据存储转发的基础上参与数据处理,已成为提高网络吞吐量、均衡网络负载和提高网络带宽利用率的有效方法,但是网络编码的计算复杂性严重影响了系统性能。基于众核GPU加速的系统可以充分利用众核GPU强大的计算能力和有效利用GPU的存储层次结构来优化加速网络编码。基于CUDA架构提出了以片段并行的技术来加速网络编码和基于纹理Cache的并行解码方法。利用提出的方法实现了线性随机编码,同时结合体系结构对其进行优化。实验结果显示,基于众核GPU的网络编码并行化技术是行之有效的,系统性能提升显著。相似文献

5.

GPU平台上ADL算法的实现

陈加忠夏涛欧阳昆黎单孙自龙《计算机技术与发展》2011,21(1)

自适应方向提升小波变换(ADL)利用图像纹理特征进行变换编码,从而获得更高的编码质量,但同时也增加了计算复杂度.为了提高图像编码速率,在统一计算设备架构(CUDA)的图形处理器(GPU)上,提出一种并行实现ADL中的插值和方向变换计算的新方案,对插值部分同时采用粗粒度和细粒度的并行,即把图像数据分成若干个块进行粗粒度的并行,而对块中的每个像素点采用细粒度的并行.对变换部分中的9个变换方向采用粗粒度的并行.实验表明,在GPU上并行实现ADL变换是CPU实现的4倍左右,CPU-GPU整体架构下的ADL变换编码的速度是CPU平台下的3倍左右. 相似文献

6.

基于CUDA的并行全搜索运动估计算法

甘新标沈立王志英《计算机辅助设计与图形学学报》2010,22(3)

为了提高H.264视频编码效率,基于计算统一设备架构(CUDA)的并行全搜索运动估计算法,并利用GPU强大的计算能力和CUDA优化的存储层次结构,以加速H.264编码中的运动估计.与传统的以牺牲视频质量来提升运动估计性能的方法不同,该算法在保证视频质量的同时,结合运动估计计算密集、计算量大等特点,充分利用CUDA架构的并行性加快运动估计的速度,从而达到提高实时编码速度的目的.在GTX280实验平台上的实验结果显示,采用文中算法比优化的CPU实现可获得高达70倍的加速比. 相似文献

7.

GPU通用计算平台上中心差分格式显式有限元并行计算 总被引：3，自引：0，他引：3

蔡勇李光耀王琥《计算机研究与发展》2013,50(2):412-419

显式有限元是解决平面非线性动态问题的有效方法.由于显式有限元算法的条件稳定性,对于大规模的有限元问题的求解需要很长的计算时间.图形处理器(GPU)作为一种高度并行化的通用计算处理器,可以很好解决大规模科学计算的速度问题.统一计算架构(CUDA)为实现GPU通用计算提供了高效、简便的方法.因此,建立了基于GPU通用计算平台的中心差分格式的显式有限元并行计算方法.该方法针对GPU计算的特点,对串行算法的流程进行了优化和调整,通过采用线程与单元或节点的一一映射策略,实现了迭代过程的完全并行化.通过数值算例表明,在保证计算精度一致的前提下,采用NVIDIA GTX 460显卡,该方法能够大幅度提高计算效率,是求解平面非线性动态问题的一种高效简便的数值计算方法. 相似文献

8.

基于改进的压入与重标记算法的图割在GPU上的实现

李晔于双元罗四维《计算机科学》2014,41(1):64-68

Graph Cuts一直是应用于图像处理领域的一种重要方法。近些年特别在CUDA出现后,图像处理器逐渐成为能够编程的高层次多核心并行处理器。在GPU高性能计算平台上并行实现基于压入与重标记算法的Graph Cuts能够提高算法的运算性能,对于扩大Graph Cuts在图像处理领域的应用范围很有研究价值。首先将压入与重标记算法在GPU上进行并行化,通过CUDA的纹理内存技术来优化和改进并行化地压入与重标记算法的Graph Cuts。最后经实验证实,改进使算法性能得到有效提高。相似文献

9.

运动估计搜索算法的CUDA优化与实现

下载免费PDF全文

陈佐陈汉季加良《计算机工程与应用》2010,46(32):171-176

针对H.264压缩编码中计算量大以及最为耗时的运动估计搜索算法的特点,利用图形处理器的并行优化思想,研究基于CUDA计算平台的运动估计搜索算法GEA（全域消除算法）的并行化处理方法,并对其中的并行设计、数据处理、结果反馈等关键技术问题,进行了详细论述。最后通过实验数据对算法运行效率进行对比分析。实验结果表明GPU中的GEA搜索算法运动搜索性能较之CPU中有显著提高。相似文献

10.

CUDA架构下H.264快速去块滤波算法 总被引：1，自引：0，他引：1

刘虎孙召敏陈启美《计算机应用》2010,30(12):3252-3254

针对H.264/AVC视频编码标准中去块滤波器运算复杂度高、耗时巨大这一难题,提出了一种基于NVIDIA计算统一设备架构（CUDA）平台的H.264并行快速去块滤波算法,介绍了CUDA平台硬件结构特点与软件开发流程,根据图形处理器（GPU）的并发结构特点,对BS判定与滤波计算进行了并行优化,降低了算法复杂度,利用共享内存提高了数据访问速率,实现了去块滤波器的并行处理。实验结果表明,在图像质量基本不变的情况下,GPU算法能够明显提高运算速度,平均加速比在20倍左右,取得了良好的效果。相似文献