首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
为满足实际应用对卷积神经网络(CNN)推理的低时延、小体积和高吞吐率等要求,设计了一个采用如下优化方法的加速器:针对外存访问带宽限制,基于设计空间探索确定循环分块因子以最大化数据重用;针对CNN计算密度高,采用循环展开技术充分挖掘四种计算并行度;内存池、乒乓缓存和动态数据量化等技术用于管理片内外存储资源。将生成加速器流程封装为CNN加速框架;采用生成的加速器实现了AlexNet网络,仿真结果表明,该设计最高可达1?493.4?Gops的计算峰值,是被比较工作的多达24.2倍,DSP效率也超过了其他设计方法,最低为1.2倍,实现了CNN快速部署,开发效率高,加速性能优异。  相似文献   

2.
针对卷积神经网络在嵌入式系统需要耗费大量计算资源、计算复杂度高等问题,提出一种基于ZYNQ系列FPGA的加速方法。通过HLS工具对卷积神经网络加速器进行设计,提出相邻层位宽合并和权重参数重排序的策略实现数据传输的优化,利用卷积分解、并行展开充分发挥FPGA并行计算的优势。为验证卷积神经网络加速器的加速效果,将YOLO目标检测模型进行部署。实验结果表明,在PYNQ-Z2上达到了39.39GOP/s的计算性能,是intel i5-2400 CPU的3.4倍,是ARM-Cortex A9 CPU的147.5倍。在相同FPGA平台上与之前的工作相较也有更高的性能。  相似文献   

3.
针对基于嵌入式现场可编程门阵列(FPGA)平台的卷积神经网络加速器由于资源有限导致处理速度受限的问题,提出一种高性能卷积神经网络加速器.首先根据卷积神经网络和嵌入式FPGA平台的特点,设计软硬件协同操作架构;然后在存储资源和计算资源的限制下,分别提出二维直接内存存取分块和权衡数字信号处理单元与查找表使用的优化策略;最后针对人脸检测的应用,对SSD网络模型进行优化,采用软硬件流水结构,提高人脸检测系统的整体性能.在Xilinx ZC706开发板上实现此加速器,实验结果表明,该加速器可达到167.5 GOPS的平均性能和81.2帧/s的人脸检测速率,其平均性能和人脸检测速率是嵌入式GPU平台TX2的1.58倍.  相似文献   

4.
针对传统长短时记忆网络(Long Short-Term Memory,LSTM)和卷积神经网络(Convolution Neural Network,CNN)在提取特征时无法体现每个词语在文本中重要程度的问题,提出一种基于LSTM-Attention与CNN混合模型的文本分类方法。使用CNN提取文本局部信息,进而整合出全文语义;用LSTM提取文本上下文特征,在LSTM之后加入注意力机制(Attention)提取输出信息的注意力分值;将LSTM-Attention的输出与CNN的输出进行融合,实现了有效提取文本特征的基础上将注意力集中在重要的词语上。在三个公开数据集上的实验结果表明,提出的模型相较于LSTM、CNN及其改进模型效果更好,可以有效提高文本分类的效果。  相似文献   

5.
基于CNN和LSTM的多通道注意力机制文本分类模型   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统的卷积神经网络(Convolutional Neural Network,CNN)和长短时记忆网络(Long Short-Term Memory,LSTM)在提取特征时无法体现每个词语在文本中重要程度的问题,提出一种基于CNN和LSTM的多通道注意力机制文本分类模型。使用CNN和LSTM提取文本局部信息和上下文特征;用多通道注意力机制(Attention)提取CNN和LSTM输出信息的注意力分值;将多通道注意力机制的输出信息进行融合,实现了有效提取文本特征的基础上将注意力集中在重要的词语上。在三个公开数据集上的实验结果表明,提出的模型相较于CNN、LSTM及其改进模型效果更好,可以有效提高文本分类的效果。  相似文献   

6.
卷积神经网络(convolutional neural network, CNN)模型量化可有效压缩模型尺寸并提升CNN计算效率.然而,CNN模型量化算法的加速器设计,通常面临算法各异、代码模块复用性差、数据交换效率低、资源利用不充分等问题.对此,提出一种面向量化CNN的嵌入式FPGA加速框架FAQ-CNN,从计算、通信和存储3方面进行联合优化,FAQ-CNN以软件工具的形式支持快速部署量化CNN模型.首先,设计面向量化算法的组件,将量化算法自身的运算操作和数值映射过程进行分离;综合运用算子融合、双缓冲和流水线等优化技术,提升CNN推理任务内部的并行执行效率.然后,提出分级编码与位宽无关编码规则和并行解码方法,支持低位宽数据的高效批量传输和并行计算.最后,建立资源配置优化模型并转为整数非线性规划问题,在求解时采用启发式剪枝策略缩小设计空间规模.实验结果表明,FAQ-CNN能够高效灵活地实现各类量化CNN加速器.在激活值和权值为16 b时,FAQ-CNN的加速器计算性能是Caffeine的1.4倍;在激活值和权值为8 b时,FAQ-CNN可获得高达1.23TOPS的优越性能.  相似文献   

7.
大多数基于卷积神经网络(CNN)的算法都是计算密集型和存储密集型的,很难应用于具有低功耗要求的航天、移动机器人、智能手机等嵌入式领域。针对这一问题,提出一种面向CNN的高并行度现场可编程逻辑门阵列(FPGA)加速器。首先,比较研究CNN算法中可用于FPGA加速的4类并行度;然后,提出多通道卷积旋转寄存流水(MCRP)结构,简洁有效地利用了CNN算法的卷积核内并行;最后,采用输入输出通道并行+卷积核内并行的方案提出一种基于MCRP结构的高并行度CNN加速器架构,并将其部署到XILINX的XCZU9EG芯片上,在充分利用片上数字信号处理器(DPS)资源的情况下,峰值算力达到2 304 GOPS。以SSD-300算法为测试对象,该CNN加速器的实际算力为1 830.33 GOPS,硬件利用率达79.44%。实验结果表明,MCRP结构可有效提高CNN加速器的算力,基于MCRP结构的CNN加速器可基本满足嵌入式领域大部分应用的算力需求。  相似文献   

8.
基于国产嵌入式CPU核CK803S及其SoC设计平台,设计一款BP神经网络SoC。给出了SoC的设计结构及BP神经网络硬件加速器的设计方案,针对BP神经网络硬件加速器中非线性的Sigmod和Guass激活函数,选择了一种既不影响速度又节约资源的方法来实现,并对其性能、功耗进行优化。验证结果表明,设计满足要求。  相似文献   

9.
娄文启  王超  宫磊  周学海 《软件学报》2020,31(10):3074-3086
近年来,卷积神经网络(CNN)在图像识别和分类领域的高精度表现使其在机器学习领域受到了广泛关注.然而CNN的计算与访存密集特性给需要支持各种负载的通用处理器带来了巨大压力.因此,涌现了大量CNN专用硬件加速器.它们虽然提高了效率但却缺乏灵活性.基于新兴的RISC-V架构设计了包含10条矩阵指令的专用指令集RV-CNN.通过抽象典型CNN中的计算为指令,该指令集可灵活支持CNN推理过程并具有比通用ISA更高的代码密度.在此基础上,提出了代码至指令的映射机制.通过在Xilinx ZC702上使用该指令集构建不同网络模型后发现,相比于x86处理器,RV-CNN平均具有141倍的能效和8.91倍的代码密度;相比于GPU,平均具有1.25倍的能效和1.95倍的代码密度.另外,相比于以往的CNN加速器,该设计在支持典型CNN模型的同时仍具有不错的能效.  相似文献   

10.
现有脉冲神经网络加速器的设计过多关注于硬件层面的功能完备性,缺少算法层面的相关协同优化以保证硬件计算效率。此外,传统的事件驱动型脉冲神经网络加速器没有考虑到脉冲神经元模型中普遍存在的脉冲抖动现象,因此不能实现对抑制型脉冲神经网络的支持。为解决上述问题,采用软硬件结合的方式,提出了一种支持抑制型脉冲神经网络加速器的设计方法。软件优化层面通过对脉冲神经网络计算冗余性的分析,提出了相应的近似计算方法以大幅降低脉冲神经网络的计算量;硬件设计层面提出了解决脉冲抖动问题的计算模块,并在此基础上设计了与近似计算方法相适应的并行计算结构。为验证设计的合理性,在Xilinx ZC706 FPGA上部署了加速器原型FEAS。在主流数据集上的测试结果显示,相较以往脉冲神经网络的加速器部署,FEAS在保持97.54%原有模型精度的情况下获得超过一个数量级的性能提升。  相似文献   

11.
基于卷积-LSTM网络的广告点击率预测模型研究   总被引:1,自引:0,他引:1       下载免费PDF全文
点击率预测是计算广告学的核心算法之一。传统浅层模型没有充分考虑到数据之间存在的非线性关系,且使用人工特征提取方法费时费力。针对这些问题,提出了基于卷积(Convolutional Neural Networks)-LSTM(Long Short Term Memory)混合神经网络的广告点击率预测模型。该模型使用卷积神经网络提取高影响力特征,并通过LSTM神经网络的时序性进行预测分类。实验结果证明:与浅层模型或单一结构的神经网络模型相比,基于卷积-LSTM的混合神经网络模型能有效提高广告点击事件的预测准确率。  相似文献   

12.
近年来,微电子技术进入到纳电子/集成微系统时代,SIP(System in Package)和SOC(System on Chip)是微系统实现的两种重要技术途径;基于神经网络的深度学习技术在图形图像、计算机视觉和目标识别等方面得以广泛应用.卷积神经网络的深度学习技术在嵌入式平台的小型化、微型化是一项重要研究领域.如何...  相似文献   

13.
时序数据存在时序性,并且其短序列的特征存在重要程度差异性。针对时序数据特征,提出一种基于注意力机制的卷积神经网络(CNN)联合长短期记忆网络(LSTM)的神经网络预测模型,融合粗细粒度特征实现准确的时间序列预测。该模型由两部分构成:基于注意力机制的CNN,在标准CNN网络上增加注意力分支,以抽取重要细粒度特征;后端为LSTM,由细粒度特征抽取潜藏时序规律的粗粒度特征。在真实的热电联产供热数据上的实验表明,该模型比差分整合移动平均自回归、支持向量回归、CNN以及LSTM模型的预测效果更好,对比目前企业将预定量作为预测量的方法,预测缩放误差平均值(MASE)与均方根误差(RMSE)指标分别提升了89.64%和61.73%。  相似文献   

14.
针对嵌入式平台下卷积神经网络运行速度慢,无法快速手势检测的问题,提出一种基于SSD的卷积神经网络的嵌入式手势检测算法,该算法显著提高了手势检测速度,并保持了高精度。首先通过一种预处理方法,对原来的手势数据库进行5倍扩展;然后对SSD算法的基础神经网络层进行卷积因子分解,使用MobileNet神经网络获得了在CPU下的3倍加速;最后通过改变输入图片大小同时改变网络结构,减少了算法的计算复杂度。实验结果表明所提算法在两个数据集上的平均精度均值(Mean Average Precision,mAP)下降2.7%,但是在Qualcomm SnapDragon 820平台下检测一张图片时间可达到0.233 s,检测速度提高40倍以上。  相似文献   

15.
针对股票数据共线性和非线性的特点,提出了一种基于卷积神经网络(Convolutional Neural Network,CNN)和门控循环单元(Gated Recurrent Unit,GRU)神经网络的混合预测模型,并对沪深300指数、上证综指和深证成指进行了预测。该模型首先采用CNN提取特征向量,对原始数据进行降维,然后利用GRU神经网络学习特征动态变化规律进行股指预测。仿真结果表明,与GRU神经网络、长短时记忆(Long-Short-Term Memory,LSTM)神经网络和CNN相比,该模型能够挖掘历史数据中蕴含的信息,有效提高股指预测的准确率,并可为股指交易提供一些参考。  相似文献   

16.
Transformer是一种基于自注意力机制的深度神经网络。近几年,基于Transformer的模型已成为计算机视觉领域的热门研究方向,其结构也在不断改进和扩展,比如局部注意力机制、金字塔结构等。通过对基于Transformer结构改进的视觉模型,分别从性能优化和结构改进两个方面进行综述和总结;也对比分析了Transformer和CNN各自结构的优缺点,并介绍了一种新型的CNN+Transformer的混合结构;最后,对Transformer在计算机视觉上的发展进行总结和展望。  相似文献   

17.
针对传统图像复原方法对先验知识的依赖性问题,提出一种基于混合神经网络的图像复原方法。混合神经网络由卷积神经网络(Convolutional Neural Network)与BP神经网络组成。首先,通过训练卷积神经网络初步建立退化图像与真实图像之间的非线性映射关系,再利用训练好的卷积网络模型提取特征向量作为BP神经网络的输入。最后,通过训练BP神经网络实现图像复原。实验表明,该方法具有较高可行性,在小尺度的模糊核上的复原效果优于现有方法。  相似文献   

18.
19.
为了提高栈式稀疏去噪自编码器(SSDA)的图像去噪性能,解决计算复杂度高,参数不易调节,训练收敛速度慢等问题,提出了一种栈式边缘化稀疏去噪自编码器(SMSDA)的图像去噪方法。首先,由于边缘化去噪自编码器(MDA)具有收敛速度快这一特性,对SDA网络损失函数作边缘化处理,形成边缘化稀疏去噪自编码器(MSDA),使其同时满足边缘性和稀疏性。其次,将多个MSDA堆叠构成深度神经网SMSDA,为避免模型参数局部最优,采用非监督逐层训练法分别训练每一层网络,再用BP算法对整个网络微调,从而获得最优权重。最后,用SMSDA对给定图像去噪。仿真结果表明,较SSDA而言,所提算法在降低计算复杂度、提高收敛速度的同时,拥有较高峰值信噪比(PSNR),且保留了更多原始图像的细节信息,具有更好的降噪性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号