期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《计算机应用与软件》2016,(5)

近年来,形变部件模型和卷积神经网络等卷积检测模型在计算机视觉领域取得了极大的成功。这类模型能够进行大规模的机器学习训练,实现较高的鲁棒性和识别性能。然而训练和评估过程中卷积运算巨大的计算开销,也限制了其在诸多实际场景中进一步的应用。利用数学理论和并行技术对卷积检测模型进行算法和硬件的双重加速。在算法层面,通过将空间域中的卷积运算转换为频率域中的点乘运算来降低计算复杂度;而在硬件层面,利用GPU并行技术可以进一步减少计算时间。在PASCAL VOC数据集上的实验结果表明,相对于多核CPU,该算法能够实现在单个商用GPU上加速卷积过程2.13~4.31倍。相似文献

2.

基于FPGA的递归神经网络加速器的研究进展

下载免费PDF全文

高琛张帆《网络与信息安全学报》2019,5(4):1-13

递归神经网络(RNN)近些年来被越来越多地应用在机器学习领域,尤其是在处理序列学习任务中,相比CNN等神经网络性能更为优异。但是RNN及其变体,如LSTM、GRU等全连接网络的计算及存储复杂性较高,导致其推理计算慢,很难被应用在产品中。一方面,传统的计算平台CPU不适合处理RNN的大规模矩阵运算;另一方面,硬件加速平台GPU的共享内存和全局内存使基于GPU的RNN加速器的功耗比较高。FPGA 由于其并行计算及低功耗的特性,近些年来被越来越多地用来做 RNN 加速器的硬件平台。对近些年基于FPGA的RNN加速器进行了研究,将其中用到的数据优化算法及硬件架构设计技术进行了总结介绍,并进一步提出了未来研究的方向。相似文献

3.

基于Winograd稀疏算法的卷积神经网络加速器设计与研究

徐睿马胜郭阳黄友李艺煌《计算机工程与科学》2019,41(9):1557-1566

随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新设计一款卷积神经网络加速器,该加速器基于Winograd稀疏算法,该算法被证明有效降低了卷积神经网络的计算复杂性,并可以很好地适应稀疏神经网络。通过硬件实现该算法,本文的设计可以在减少硬件资源的同时,获得相当大的计算效率。实验表明,相比于传统算法,该加速器设计方案将运算速度提升了近4.15倍;从乘法器利用率的角度出发,相比现有的其他方案,该方案将利用率最多提高了近9倍。相似文献

4.

GPU在复杂场景的阴影绘制中的应用 总被引：4，自引：0，他引：4

下载免费PDF全文

杨兵李凤霞战守义胡敏勇《计算机工程》2006,32(2):220-222

通过有效利用图形硬件的图形处理单元（GPU）的运算能力和可编程性，将人量计算从CPU分离出来。在GPU上采用顶点和片元程序进行阴影计算，从而加速复杂场景阴影绘制。选择图像空间阴影算法进行GPU加速绘制。用Cg图形编程语言和OpenGL实现了算法的绘制过程，能够满足通用的复杂3D场景应用的需要，达到满意的实时绘制效果。相似文献

5.

轻量级卷积神经网络的硬件加速方法

吕文浩支小莉童维勤《计算机工程与设计》2024,(3):699-706

为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。相似文献

6.

一种基于国产嵌入式CPU核的BP神经网络SoC设计

徐文亮《电子技术应用》2021,47(4):63-66

基于国产嵌入式CPU核CK803S及其SoC设计平台,设计一款BP神经网络SoC.给出了SoC的设计结构及BP神经网络硬件加速器的设计方案,针对BP神经网络硬件加速器中非线性的Sigmod和Guass激活函数,选择了一种既不影响速度又节约资源的方法来实现,并对其性能、功耗进行优化.验证结果表明,设计满足要求. 相似文献

7.

基于多模态图卷积神经网络的行人重识别方法

何嘉明杨巨成吴超闫潇宁许能华《计算机应用》2023,(7):2182-2189

针对行人重识别中行人文本属性信息未被充分利用以及文本属性之间语义联系未被挖掘的问题，提出一种基于多模态的图卷积神经网络（GCN）行人重识别方法。首先使用深度卷积神经网络（DCNN）学习行人文本属性与行人图像特征；然后借助GCN有效的关系挖掘能力，将文本属性特征与图像特征作为GCN的输入，通过图卷积运算来传递文本属性节点间的语义信息，从而学习文本属性间隐含的语义联系信息，并将该语义信息融入图像特征中；最后GCN输出鲁棒的行人特征。该多模态的行人重识别方法在Market-1501数据集上获得了87.6%的平均精度均值（mAP）和95.1%的Rank-1准确度；在DukeMTMC-reID数据集上获得了77.3%的mAP和88.4%的Rank-1准确度，验证了所提方法的有效性。相似文献

8.

基于脉动阵列的层融合注意力模型加速器结构

刘晓航姜晶菲许金伟《计算机工程与科学》2023,(5):802-809

注意力机制最近在深度神经网络中表现出优越的性能，但其计算包含复杂的数据流，内存开销和计算量大，需要定制加速器来优化推理计算。提出一种针对注意力机制计算的加速器结构。采用基于硬件控制的灵活分块方法，将模型中的巨大矩阵分成硬件亲和的计算块，使块矩阵的计算匹配加速器脉动阵列；提出基于双步softmax函数分解计算的层融合计算方法，有效减少了注意力模型计算对内存的访问。采用硬件描述语言HDL设计实现了细粒度计算调度的层融合注意力模型加速器结构。基于XILINX FPGA器件和HLS工具进行了性能评估。相同设置下，与CPU相比延迟加速了4.9倍，与GPU相比能效提升了1.24倍。相似文献

9.

基于FPGA的CNN加速SoC系统设计

赵烁范军何虎《计算机工程与设计》2020,41(4):939-944

为提高目前硬件运行卷积神经网络(CNN)的速度和能效,针对主流CNN网络的卷积计算设计加速模块并在FPGA上实现用于加速CNN网络的SoC系统。硬件平台采用带有ARM处理器的ZCU102 FPGA开发板,系统采用处理器和加速器的结构进行设计。加速器负责卷积计算,采用分块技术并重组卷积计算循环次序,使片上缓存的数据复用率更高,减少系统与内存之间数据的传输。支持1×1到11×11的卷积核尺寸,硬件支持的激活函数为ReLU和Leaky ReLU。处理器负责控制并处理CNN网络的其它计算,使SoC系统具有通用性和灵活性。实验结果表明,在100 MHz的工作频率下,峰值计算性能可以达到42.13 GFLOPS,相比CPU和其它FPGA计算的性能有一定提升。相似文献

10.

面向卷积神经网络的FPGA加速器架构设计

李炳剑秦国轩朱少杰裴智慧《计算机科学与探索》2020,14(3):437-448

随着人工智能的快速发展,卷积神经网络(CNN)在很多领域发挥着越来越重要的作用。分析研究了现有卷积神经网络模型,设计了一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在卷积运算中四个维度方向实现了并行化计算;提出了参数化架构设计,在三种参数条件下,单个时钟周期分别能够完成512、1024、2048次乘累加;设计了片内双缓存结构,减少片外存储访问的同时实现了有效的数据复用;使用流水线实现了完整的神经网络单层运算过程,提升了运算效率。与CPU、GPU以及相关FPGA加速方案进行了对比实验,实验结果表明,所提出的设计的计算速度达到了560.2 GOP/s,为i7-6850K CPU的8.9倍。同时,其计算的性能功耗比达到了NVDIA GTX 1080Ti GPU的3.0倍,与相关研究相比,所设计的加速器在主流CNN网络的计算上实现了较高的性能功耗比,同时不乏通用性。相似文献

11.

素数域椭圆曲线密码加速器的VLSI实现

谢天艺黄凯修思文唐从学严晓浪《计算机工程与应用》2016,52(1):89-94

分析了素数域椭圆曲线密码（ECC）算法的软件效率,针对软件效率较低的问题,对密码系统进行软硬件划分,提出了一种适用于椭圆曲线密码SoC的硬件加速器设计,并设计了密码SoC的结构。硬件加速器实现了素数域的点乘和素数检测,以少量的面积为代价提升了系统性能。密码芯片实现了SM2商用密码标准规定的6种算法。加速器基于HJTC [0.11 μm] eFlash单元库,面积约为[0.6 mm2]。在50 MHz的频率下,192 bit非固定点乘运算性能为167次/s,256 bit非固定点乘运算性能为94次/s。实验结果表明,该加速器的单位面积性能高于其他同类设计。相似文献

12.

基于GPU的串匹配算法研究 总被引：7，自引：0，他引：7

张庆丹戴正华冯圣中孙凝晖《计算机应用》2006,26(7):1735-1737

BF算法是串匹配算法中最基础的算法，但它是串行算法，不适合图形处理器（Graphic Processing Unit, GPU）的体系结构。结合GPU的特殊体系结构，通过数据存取方式和计算策略的改进，充分利用了GPU的并行处理能力，从而基于GPU实现了BF算法。实验结果表明基于GPU的并行算法能够取得较好的加速比，同时也给出了在现有GPU架构上有效实现通用计算的瓶颈。相似文献

13.

一种双目立体视觉算法的GPU实现 总被引：1，自引：0，他引：1

李亚峰秦开怀《计算机工程》2006,32(10):210-211,236

利用可编程图形硬件GPU实现了非参数局域变换双目立体视觉算法。该算法使用局部非参数统计的结果而不是像素灰度值作为匹配代价，相对于其它基于区域的立体匹配算法，具有物体边界区域处理稳定和适于硬件实现等优点。该文利用GPU的最新特性实现了算法的全部运算都在GPU上执行。由于GPU的并行流水特性，算法在GPU上的运算速度较在CPU上得到提高。相似文献

14.

基于Xilinx KV260和卷积神经网络的自动驾驶小车

郭传鈜王延葵毕盛董敏《单片机与嵌入式系统应用》2022,(10):3-6

基于现场可编程门阵列的片上系统在边缘端人工智能应用中具有独特的优势。其神经网络推理加速由软核实现,可随着人工智能技术的发展更新硬件加速器而不用更换芯片方案,同时,FPGA侧也可针对具体应用定制其他专用的硬件加速核。本文使用Xilinx KV260开发板和Vitis AI工具链,在FPGA的SoC上实现硬件加速神经网络推理的基于示教学习的自动驾驶小车系统。相似文献

15.

面向多GPU的图神经网络训练加速

苗旭鹏王驭捷沈佳邵蓥侠崔斌《软件学报》2023,34(9):4407-4420

图神经网络由于其强大的表示能力和灵活性最近取得了广泛的关注. 随着图数据规模的增长和显存容量的限制, 基于传统的通用深度学习系统进行图神经网络训练已经难以满足要求, 无法充分发挥GPU设备的性能. 如何高效利用GPU硬件进行图神经网络的训练已经成为该领域重要的研究问题之一. 传统做法是基于稀疏矩阵乘法, 完成图神经网络中的计算过程, 当面对GPU显存容量限制时, 通过分布式矩阵乘法, 把计算任务分发到每个设备上, 这类方法的主要不足有: (1)稀疏矩阵乘法忽视了图数据本身的稀疏分布特性, 计算效率不高; (2)忽视了GPU本身的计算和访存特性, 无法充分利用GPU硬件. 为了提高训练效率, 现有一些研究通过图采样方法, 减少每轮迭代的计算带价和存储需求, 同时也可以支持灵活的分布式拓展, 但是由于采样随机性和方差, 它们往往会影响训练的模型精度. 为此, 提出了一套面向多GPU的高性能图神经网络训练框架, 为了保证模型精度, 基于全量图进行训练, 探索了不同的多GPU图神经网络切分方案, 研究了GPU上不同的图数据排布对图神经网络计算过程中GPU性能的影响, 并提出了稀疏块感知的GPU访存优化技术. 基于C++和CuDNN实现了该原型系统, 在4个不同的大规模GNN数据集上的实验表明: (1)通过图重排优化, 提高了GPU约40%的缓存命中率, 计算加速比可达2倍; (2)相比于现有系统DGL, 取得了5.8倍的整体加速比. 相似文献

16.

一种基于GPU的高性能稀疏卷积神经网络优化

方程邢座程陈顼颢张洋《计算机工程与科学》2018,40(12):2103-2111

卷积神经网络CNN目前作为神经网络的一个重要分支,相比于其他神经网络方法更适合应用于图像特征的学习和表达。随着CNN的不断发展,CNN将面临更多的挑战。CNN参数规模变得越来越大,这使得CNN对计算的需求量变得非常大。因此,目前产生了许多种方式对CNN的规模进行压缩。然而压缩后的CNN模型往往产生了许多稀疏的数据结构,这种稀疏结构会影响CNN在GPU上的性能。为了解决该问题,采用直接稀疏卷积算法,来加速GPU处理稀疏数据。根据其算法特点将卷积运算转换为稀疏向量与稠密向量内积运算,并将其在GPU平台上实现。本文的优化方案充分利用数据稀疏性和网络结构来分配线程进行任务调度,利用数据局部性来管理内存替换,使得在稀疏卷积神经网络SCNN中的GPU仍能够高效地处理卷积层运算。相比cuBLAS的实现,在AlexNet、GoogleNet、ResNet上的性能提升分别达到1.07×~1.23×、1.17×~3.51×、1.32×~5.00×的加速比。相比cuSPARSE的实现,在AlexNet、GoogleNet、ResNet上的性能提升分别达到1.31×～1.42×、1.09×～2.00×、1.07×～3.22×的加速比。相似文献

17.

一种BPNNs识别算法的医学检测泛实时性问题研究

刘玉成理查德·丁张颖超《计算机科学》2018,45(6):301-307

尿沉渣空间环境的复杂性,导致采集的有形成分图像存在较多冗余信息,提取有效的图像信息变得较为困难,进而使得识别系统需要处理的数据量十分巨大。虽然BP神经网络算法的串行版本DJ8000系统平台解决了细胞等有形成分的识别准确率问题,但其不能满足尿沉渣图像医学检验的实时性要求。为此,提出了基于BP神经网络算法优化的并行处理GPU框架的系统平台。它采用并行优化框架,同步高效地对数据进行加速处理;同时,以GPU 计算和测试平台为硬件系统支持,无论是在硬件指标、数据传输及总线技术还是软硬件的兼容性方面,都有助于解决算法中时常出现的负载不均衡的问题。实验数据表明,BP神经网络尿沉渣识别算法在优化并行框架的GPU 系统处理平台上显示的加速比、时效比和运行时间等相关性能参数值都有所提升。相比于DJ8000系统平台,优化的AMD HD7970 和 NVIDIAGTX680 两个并行处理GPU框架系统平台相应的加速比参数值分别是前者的10.82~21.35个和7.63~15.28个标准当量。实验数据充分说明,优化并行框架的GPU处理系统中相关的逻辑数据、地址数据和线性寻程的函数映射关系均能相互动态分配对接并优化算法架构,实现软件到硬件系统的最优比映射,最终解决由于线程间负载不均衡导致的性能瓶颈问题,从而有效地化解了医学领域实时检测中的时效性这一难题。相似文献

18.

基于OpenCL的图像积分图算法优化研究 总被引：1，自引：0，他引：1

贾海鹏张云泉徐建良《计算机科学》2013,40(2):1-7

图像积分图算法在快速特征检测中有着广泛的应用,通过GPU对其进行性能加速有着重要的现实意义。然而由于GPU硬件架构的复杂性和不同硬件体系架构间的差异性,完成图像积分图算法在GPU上的优化,进而实现不同GPU平台间的性能移植是一件非常困难的工作。在分析不同CPU平台底层硬件架构的基础上,从片外访存带宽利用率、计算资源利用率和数据本地化等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响。并在此基础上实现了基于OpenCL的图像积分图算法。实验结果表明,优化后的算法在AMD和NVIDIA CPU上分别取得了11.26和12.38倍的性能加速,优化后的GPU kernel比NVIDIA NPP库中的相应函数也分别取得了55.01%和65.17%的性能提升。验证了提出的优化方法的有效性和性能可移植性。相似文献

19.

基于平铺数据流的可配置神经网络加速器

李艺煌马胜郭阳陈桂林徐睿《计算机工程与科学》2019,41(6):963-972

卷积神经网络已经是公认最好的用于深度学习的算法,被广泛地应用于图像识别、自动翻译和广告推荐。由于神经网络结构规模的逐渐增大,使其具有大量的神经元和突触,所以,使用专用加速硬件挖掘神经网络的并行性已经成为了热门的选择。在硬件设计中,经典的平铺结构实现了很高的性能,但是平铺结构的单元利用率很低。目前,随着众多深度学习应用对硬件性能要求的逐渐提高,加速器对单元利用率也具有越来越严格的要求。为了在平铺数据流结构上获得更高的单元利用率,可以调换并行的顺序,采用并行输入特征图和输出通道的方式来提高计算的并行性。但是,随着神经网络运算对硬件性能要求的提高,运算单元阵列必然会越来越大。当阵列大小增加到一定程度,相对单一的并行方式会使利用率逐渐下降。这就需要硬件可以开发更多的神经网络并行度,从而抑制单元空转。同时,为了适应不同的网络结构,要求硬件阵列对神经网络的运算是可配置的。但是,可配置硬件会极大地增加硬件开销和数据的调度难度。提出了一种基于平铺结构加速器的并行度可配置的神经网络加速器。为了减少硬件复杂度,提出了部分配置的技术,既能满足大型单元阵列下单元利用率的提升,也能尽可能地减少硬件额外开销。在阵列大小超过512之后,硬件单元利用率平均可以维持在82%～90%。同时加速器性能与单元阵列数量基本成线性比例上升。相似文献

20.

一种微指令序列调度数据流的星载卷积神经网络FPGA加速器

郭子博刘凯胡航天李奕铎璩泽旭《计算机学报》2022,(10):2047-2064

卷积神经网络(Convolutional Neural Network,CNN)是目前主流视觉算法不可或缺的关键部分.为提高CNN模型推理速度,学界提出了众多异构加速方法以满足不同场景下的多元加速需求.但如何在资源与能耗受限的在轨卫星上稳定高效地加速CNN仍是极具挑战的课题.为此,本文通过软硬件协同设计,着力优化微指令编码、指令级并行和运算级并行3个加速器设计的关键部分,在星上常见的Xilinx VX690T FPGA芯片上设计实现了一种微指令序列调度数据流的CNN加速器.在软件层面,本文提出一种可扩展的微指令编码格式及相应的编译方法.通过卷积循环分块和算子融合策略实现图级别优化,生成加速器可执行的微指令序列.在硬件层面,本文设计实现了一个由微控制器与逻辑运算器组成的RTL级CNN加速器.微控制器通过粗粒度流水线实现各类指令的并行执行.逻辑运算器通过DSP48E1计算资源级联所构建的计算阵列实现卷积算子的细粒度并行运算.实验结果表明,加速器设计功耗10.68W,在加速YOLOV3Tiny算法时,峰值吞吐率(Runtime Max Throughput,RMT)达到378.63 GOP/... 相似文献