期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李茂文曲国远魏大洲贾海鹏《计算机研究与发展》2022,59(6):1181-1191

图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication, GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络. 相似文献

2.

CNN卷积计算在移动GPU上的加速研究

王湘新时洋文梅《计算机工程与科学》2018,40(1):34-39

卷积神经网络(CNN)凭借其优秀的表现正在诸如图像分类、语音识别等领域里扮演着越来越重要的角色,已经有一些研究人员想要将这个深度学习过程复制到手机上。但是,由于CNN巨大的计算量,移植程序的性能一直难以令人满意。为了探讨如何解决这一问题,借助MXNet这样一个深度学习的框架在手机上实现了CNN的前向过程,并且将注意力放在了使用手机上另一个强大的计算设备——GPU上。最终选择使用OpenCL通用编程框架将前向过程中最耗时的卷积操作利用矩阵乘来完成,并转移到GPU上进行。在此基础之上还针对手机GPU做了一些优化。最终,实验结果显示我们成功地将前向过程的时间降低到了原来时间的一半。相似文献

3.

归约算法统一描述

熊玉庆《计算机科学》2015,42(11):101-103

归约算法在并行计算中应用广泛,目前有很多归约算法应用于不同的情形。这些归约算法各不相同, 逻辑拓扑是造成区别的关键。为了统一描述归约算法,揭示它们的共性,给出了一个逻辑拓扑的定义及其性质。在此基础上,给出了归约算法的统一描述,以利于对归约算法的理解,从而设计适应不同应用和环境的归约算法。该描述也可视为可集成不同语义的归约算法框架,从而有助于设计具有新语义的归约算法。本质上,该统一描述是一个归约算法形式定义,有助于验证归约算法的正确性。相似文献

4.

基于OpenCL的图像积分图算法优化研究 总被引：1，自引：0，他引：1

贾海鹏张云泉徐建良《计算机科学》2013,40(2):1-7

图像积分图算法在快速特征检测中有着广泛的应用,通过GPU对其进行性能加速有着重要的现实意义。然而由于GPU硬件架构的复杂性和不同硬件体系架构间的差异性,完成图像积分图算法在GPU上的优化,进而实现不同GPU平台间的性能移植是一件非常困难的工作。在分析不同CPU平台底层硬件架构的基础上,从片外访存带宽利用率、计算资源利用率和数据本地化等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响。并在此基础上实现了基于OpenCL的图像积分图算法。实验结果表明,优化后的算法在AMD和NVIDIA CPU上分别取得了11.26和12.38倍的性能加速,优化后的GPU kernel比NVIDIA NPP库中的相应函数也分别取得了55.01%和65.17%的性能提升。验证了提出的优化方法的有效性和性能可移植性。相似文献

5.

GPU平台上面向性能和功耗的分支优化

于齐王博千沈立王志英陈微《计算机科学》2016,43(5):22-26

强大的计算能力使得GPGPU在通用计算领域得到了广泛的应用。然而,GPGPU的SIMT(Single Instruction Multiple Threads)工作方式,使其执行效率受到应用中不一致分支行为(Branch Divergence)的严重影响。虽然人们提出了线程交换方法来减小分支带来的性能损失,但这种方法往往会引入额外的访存操作,不仅在一定程度上减少了线程交换优化的性能收益,还增加了功耗。首先举例说明线程交换范围对程序性能和功耗的影响;然后提出了一种减少线程交换所引入的额外访存操作的方法。实验表明,对于Reduction程序,当交换范围为256时,在性能平均损失为4%的情况下功耗降低幅度最大为7%;而对于Bitonic程序,当交换范围为256和512时,在没有功耗开销的情况下,性能分别最大提升了6.4%和5.3%。相似文献

6.

三维几何约束求解的自由度归约算法 总被引：4，自引：2，他引：4

蒋勇王波兴陈立平《计算机辅助设计与图形学学报》2003,15(9):1128-1133

三维几何约束求解在装配设计、几何造型和动力学分析等领域有着广泛的应用．在分析基本几何元素间的约束关系对刚体自由度状态影响的基础上,提出刚体自由度的归约算法,以求得满足约束后刚体的自由度状态空间;以刚体自由度状态空间分析为基础,实现对合理约束的推理求解和约束一致性维护,该算法解决了三维几何约束求解中自由度计算问题,同时避免了一些推理求解算法中出现的“组合爆炸”问题．相似文献

7.

一种Nehalem平台上的MPI多级分段归约算法

邹金安刘志强廖蔚《小型微型计算机系统》2012,33(4):733-738

基于线程MPI环境提出一种适用于Nehalem平台长消息归约的多级分段归约算法(HSRA).HSRA考虑了Nehalem系统的体系结构特点,分处理器内归约和处理器外归约两个步骤实施节点内归约通信,在均匀分布计算负载的前提下仅需要较少的远端内存访问.首先在MPIActor的归约算法框架中设计、实现了HSRA算法,从访存角度分析了HSRA算法的开销,然后与单级分段和已有的另外三种节点内基于共享内存的归约算法进行比较;最后在真实系统上通过IMB(Intel MPI Benchmark)验证算法,实验结果表明,该算法是一种适用于在Nehalem系统中处理长消息节点内归约的高效算法. 相似文献

8.

基于CPU与GPU协作的马尔可夫聚类的并行优化实现

陆璐何芦微《计算机应用研究》2018,35(8)

马尔可夫聚类算法(MCL)为网络聚类问题提供了一个有效的方法,尤其是在社区问题和生物信息学方面。然而,矩阵的Expansion是最耗时的操作,因为两个大规模矩阵相乘的时间复杂度是n₃。由于每个元素值的计算是独立的,因此Expansion和Inflation可以并行执行于多核GPU上。一个基本的马尔可夫聚类的并行实现需要使用全邻接矩阵来提高性能,该邻接矩阵通常是稀疏的,有时甚至是极大稀疏的。因此,本文的马尔可夫聚类的并行优化实现采用CSR * CSC格式去存储矩阵,大大减少了空间的浪费,并在一定程度上提升了Expansion的性能。实验结果表明,在处理大规模网络问题上,Sparse-MCL比CPU-MCL和P-MCL更有效。相似文献

9.

求解TSP问题的多级归约算法 总被引：32，自引：3，他引：32

下载免费PDF全文

邹鹏周智陈国良顾钧《软件学报》2003,14(1):35-42

TSP(traveling salesman problem)问题是最经典的NP-hard组合优化问题之一.长期以来,人们一直在寻求快速、高效的近似算法,以便在合理的计算时间内解决大规模问题.由于对较大规模的问题,目前的近似算法尚不能在较短的时间内给出高质量的解,因此提出了多重归约算法.该算法的基本原理是通过对TSP问题的局部最优解与全局最优解之间关系的分析,发现对局部最优解的简单的相交操作能以很高的概率得到全局最优解的部分解.利用这些部分解可以大大缩小原问题的搜索空间,同时也不会降低搜索的性能.这就是所谓的归约原理.再通过多次归约使问题的规模降到足够小,然后对这个较小规模的实例直接用已有的算法求解,最后通过相反的次序拼接部分解,最终得到一个合法的解.在TSPLIB(traveling salesman problem library)中,典型实例上的实验结果表明,此算法在求解质量和求解速度上与目前已知的算法相比有较大的改进. 相似文献

10.

CUDA相邻归约与其避免线程分化算法的研究

卫易东《信息与电脑》2023,(18):55-57+61

在边缘计算环境下,上层应用调度图形处理器（Graphic Processing Unit,GPU）的统一计算架构（Compute Unified Device Architecture,CUDA）进行计算时,可能会遇到CUDA线程分化问题,导致运算耗时较长或线程空置化。本研究介绍了CUDA底层开发的基础原理和概念,并解释了CUDA运算的执行流程。通过分析GPU架构原理,提出了相邻归约算法和相邻归约的避免线程分化算法的实现方式和应用方法。相似文献

11.

面向OpenCL模型的GPU性能优化 总被引：1，自引：0，他引：1

陈钢吴百锋《计算机辅助设计与图形学学报》2011,23(4):571-581

GPU的高性价比吸引了越来越多的通用计算.为充分发挥异构处理平台下GPU的通用计算能力,提出面向OpenCL模型的性能优化方法.该方法建立源程序的多面体表示,分别对GPU的全局存储器和快速存储器进行优化与分配;通过检测存储访问模式发掘可向量化的存储访问实例,利用数据空间变换对存储访问模式进行转换,进而使用向量数据类型提... 相似文献

12.

基于OpenCL的雷达外推算法改进与优化

王兴 ;苗春生 ;王秀君 ;樊仲欣《计算机与现代化》2014,(8):81-86

基于雷达资料的外推是临近预报中重要的方法之一,随着全国气象雷达网络建设规模的不断提高以及观测资料精细化程度的提升,基于区域乃至全国雷达拼图的外推预报,每次计算都需花费大量时间,甚至滞后于每6分钟一次的资料观测频次。为解决传统外推算法运算复杂度高,实时性差的问题,运用OpenCL构建基于GPU的异构计算模型对外推算法进行并行化改进。然后逐步分析影响算法性能的瓶颈,并通过改进和测试数据比对,阐述算法优化的过程。其中,内存与线程的映射优化、合理利用局部存储器作为高速缓存以及隐藏CPU执行时间等方法不仅对本算法的执行效率带来显著提升,也可为其他基于OpenCL异构计算的优化提供参考。以AMD Graphic Core Next和Northern Islands二代GPU架构作为测试平台,并以Intel CPU并行计算作为测试参考,测试结果表明,改进后的算法在硬件同等功耗的情况下,计算性能提升15~22倍。相似文献

13.

多核CPU/GPU平台下的集合求交算法

王怀超赵雷《计算机工程》2013,39(4)

提出一个多核CPU/GPU混合平台下的集合求交算法.针对CPU端求交问题,利用对数据空间局部性和中序求交的思想,给出内向求交算法和Baeza-Yates改进算法,算法速度分别提升0.79倍和1.25倍.在GPU端,提出有效搜索区间思想,通过计算GPU中每个Block在其余列表上的有效搜索区间来缩小搜索范围,进而提升求交速度,速度平均提升40％.在混合平台采用时间隐藏技术将数据预处理和输入输出操作隐藏在GPU计算过程中,结果显示系统平均速度可提升85％. 相似文献

14.

基于GPU的分子动力学模拟并行化及实现

费辉张云泉王可许亚武《计算机科学》2011,38(9):276-278

分子动力学模拟作为获得液体、固体性质的重要计算手段,广泛应用于化学、物理、生物、医药、材料等众多领域。模拟体系的复杂性和精确性的需求,使得计算量巨大,耗费时间长。并行计算是加速大规模分子动力学模拟的霍要途径。GPU以几百GFlops甚至上I}Flops的运算能力,为分子动力学模拟等的计算密集型应用提供了新的加速方案。提出了一种基于GPU的分子动力学模拟并行算法—oApT-AD,并在OpenCL和CUDA框架下加以实现。,r}能测试显示,在Tesla C1060显卡上,该算法在OpcnCL框架下的实现相对于CPU的串行实现,最高达到120倍加遥比。通过对比发现,该算法在CUDA上的性能与()pcnCI、基本相当。同时,该算法还可以扩展到两块及以上的GPU上,具有良好的可扩展性。相似文献

15.

基于GPU的网络编码并行优化算法研究

王任黄理灿王高选《工业控制计算机》2011,24(12):59-61

在组播通信网络中,在满足组播速率的前提下,如何使编码资源开销最小化即网络编码优化是一个NP难问题.针对现有基于基本遗传算法的网络编码优化的不足,提出基于GPU的并行遗传算法应用于网络编码优化.通过在不同的网络拓扑结构中进行仿真实验,结果表明提出的并行遗传算法能够在更短的时间内找到满意的编码方案,具有更高的性能. 相似文献

16.

基于OpenCL的图像模糊化算法优化研究

张樱张云泉龙国平《计算机科学》2012,39(3):260-264

现代GPU一般都提供特定硬件(如纹理部件、光栅化部件及各种片上缓存)以加速二维图像的处理和显示过程,相应的编程模型(CUDA、OpenCL)都定义了特定程序设计接口(CUDA的纹理内存,OpenCL的图像对象)以便图像应用能利用相关硬件支持。以典型图像模糊化处理算法在AMD平台GPU的优化为例,探讨了OpenCL的图像对象在图像算法优化上的适用范围,尤其是分析了其相对于更通用的基于全局内存加片上局部存储进行性能优化的方法的优劣。实验结果表明,图像对象只有在图像为四通道且计算过程中需要缓存的数据量较小时才能带来较好的性能改善,其余情况采用全局内存加局部存储都能获得较好性能。优化后的算法性能相对于精心实现的CPU版加速比为200～1000;相对于NVIDIA NPP库相应函数的性能加速比为1.3～5。相似文献

17.

面向OpenCL架构的大规模生物序列比对

陈钢韦刚李国波裴颂文吴百锋《小型微型计算机系统》2012,33(2):392-398

为提高生物序列比对算法的性能和效率,提出一种异构处理平台下可移植的大规模生物序列比对算法及其优化方法.通过改变原有Smith-Waterman算法的计算流程和数据依赖关系,增加序列比对的并行性;通过改变存储器布局后使用向量数据类型,提高全局存储器的带宽利用率;通过增加偏移量改变存储器模块的映射方式,避免模块访问冲突,提高局部存储器的使用效率.实验结果表明,优化后的生物序列比对性能提升了近100倍. 相似文献