首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
为了提高卷积神经网络模型中二维矩阵卷积的计算效率,基于FT2000多核向量处理器研究二维矩阵卷积的并行实现方法.通过使用广播指令将卷积核元素广播至向量寄存器,使用向量LOAD指令加载卷积矩阵行元素,并通过混洗操作将不易并行化的矩阵卷积操作变成可以向量化的乘加操作,实现了通过减少访存、充分复用已取数据的方式来提高算法的执行效率.设计卷积矩阵规模变化、卷积核规模不变和卷积矩阵规模不变、卷积核规模变化2种常用矩阵卷积计算方式,并对比分析不同计算方式对算法执行效率的影响.基于服务器级多核CPU和TI6678进行实验对比,实验结果显示,FT2000比多核CPU及TI6678具有更好的计算优势,相比多核CPU最高可加速11 974倍,相比TI6678可加速21倍.  相似文献   

2.
为实现卷积神经网络数据的高度并行传输与计算,生成高效的硬件加速器设计方案,提出了一种基于数据对齐并行处理、多卷积核并行计算的硬件架构设计和探索方法. 该方法首先根据输入图像尺寸对数据进行对齐预处理,实现数据层面的高度并行传输与计算,以提高加速器的数据传输和计算速度,并适应多种尺寸的输入图像;采用多卷积核并行计算方法,使不同的卷积核可同时对输入图片进行卷积,以实现卷积核层面的并行计算;基于该方法建立硬件资源与性能的数学模型,通过数值求解,获得性能与资源协同优化的高效卷积神经网络硬件架构方案. 实验结果表明: 所提出的方法,在Xilinx Zynq XC7Z045上实现的基于16位定点数的SSD网络(single shot multibox detector network)模型在175 MHz的时钟频率下,吞吐量可以达到44.59帧/s,整板功耗为9.72 W,能效为31.54 GOP/(s·W);与实现同一网络的中央处理器(CPU)和图形处理器(GPU)相比,功耗分别降低85.1%与93.9%;与现有的其他卷积神经网络硬件加速器设计相比,能效提升20%~60%,更适用于低功耗嵌入式应用场合.  相似文献   

3.
基于卷积定理的人脸验证CNN模型加速   总被引:1,自引:0,他引:1  
针对人脸验证系统中复杂卷积神经网络(convolutional neural network,CNN)模型的计算负担大、运算速度慢的问题,提出使用卷积定理来加速人脸特征提取中的CNN卷积层计算,从而提升人脸验证的速度.卷积定理中,空域中的卷积运算等价于频域中的乘积运算.将耗时的卷积计算转化为频域中的乘积计算后,可能会显著减少计算量,且无精度损失.分析了用卷积定理计算卷积的时间复杂度,给出了卷积定理加速的适用条件.在进行傅里叶变换后,详细探讨了如何高效、并行地计算频域中的乘积求和,以便利用现有的并行线性代数运算库,充分发挥图形处理单元(graphics processing uni,GPU)的并行计算能力.实验结果表明:该方法对人脸验证取得了明显的加速效果,具有一定实用价值.  相似文献   

4.
卷积神经网络算法存在着算法结构多样和数据交换计算量大的问题.为此,提出了一种基于传输触发体系架构的可编程卷积神经网络处理器.系统采用多通道直接存储器访问通道、多端口存储器和专用池化数据通道组成数据传输网络解决了数据交换问题.实验表明,该系统在实现卷积神经网络的加速计算方面,虽然吞吐速率比并行流水线方案慢11%,但与之相比具备可编程、适应不同神经网络的特性,节省了46.5%硬件乘法器资源,比其他非流水线实现方案吞吐速率至少快40%.该方案具有系统并行度大、可编程、可在线配置和处理速度较高的特点.  相似文献   

5.
CNN图像标题生成   总被引:1,自引:0,他引:1  
图像标题生成任务需要生成一个有意义的句子来准确地描述该图像的内容,而现有研究通常采用卷积神经网络编码图像信息、循环神经网络来编码文本信息,由于循环神经网络的“串行特性”,导致模型的性能低。为解决该问题,基于卷积神经网络来构建一种模型,采用不同结构的卷积神经网络来同时处理两个模态的数据,得益于卷积运算的“并行特性”,该模型的运行效率有明显提升。在两个公开数据集上进行了实验,实验结果在指定的评价指标上也有一定的提升,表明了该模型对于处理图像标题生成任务的有效性。  相似文献   

6.
基于VLIW体系结构的DSP寄存器堆的设计   总被引:1,自引:1,他引:1  
在研究了基于VLIW体系结构DSP的特点基础上,通过对寄存器堆的组织结构、组成单元、功能实现等方面的分析,提出了该结构寄存器堆的设计方案。该方案实现了多组数据的正确并行读写操作,满足了VLIW体系结构的CPU对多数据流处理的要求。该方案针对VLIW体系结构采用流水线操作、条件执行的特点,通过对写入数据分别采用写控制信号的方法,实现流水线阻塞和指令的条件执行。由于VLIW体系结构具有很多共性,该方案可以根据具体的硬件进行修改,具有很好的可移植性。  相似文献   

7.
由于深度卷积神经网络的卷积层通道规模及卷积核尺寸多样,现有加速器面对这些多样性很难实现高效计算。为此,基于生物脑神经元机制提出了一种深度卷积神经网络加速器。该加速器拥有类脑神经元电路的多种分簇方式及链路组织方式,可以应对不同通道规模。设计了3种卷积计算映射,可以应对不同卷积核大小;实现了局部存储区数据的高效复用,可大量减少数据搬移,提高了计算性能。分别以目标分类和目标检测网络进行测试,该加速器的计算性能分别达498.6×10 9次/秒和571.3×10 9次/秒;能效分别为582.0×10 9次/(秒·瓦)和651.7×10 9次/(秒·瓦)。  相似文献   

8.
可变长FFT并行旋转因子高效产生算法及实现   总被引:1,自引:0,他引:1  
为了解决FFT处理并行旋转因子产生复杂、所需存储资源多的问题,该文在分体存储器结构的基础上,提出了一种新的旋转因子存储、访问策略.该策略保证混合基4/2 FFT算法每个蝶式运算所需的3个旋转因子均可无冲突并行访问,且在同一个旋转因子查找表的基础上,使计算任意小于最大可处理长度的FFT时,各级访问旋转因子地址的产生仅与最大可处理长度有关,而与当前处理长度无关.该算法仅用一个可移位累加数寄存器,实现计算过程中旋转因子地址产生的级间切换,且使一个存储体容量及访问次数减少了一半以上.  相似文献   

9.
针对计算机平台在图像处理过程中面临的高能耗问题,研究了电网巡检故障图像识别的低功耗神经网络加速方法.采用直接映射方式将卷积层与全连接层的计算分别映射至独立的计算核心,提出了针对图像处理过程不同阶段的优化方案,实现了不同运算层次与硬件资源之间的匹配,并通过遗传算法得到了神经网络的并行优化参数.结果表明,优化后的LetNet-5与AlexNet卷积神经网络运行能效分别为优化前的1.94倍和1.8倍,单张图片的平均处理速度约为原来的4~5倍和2~3倍.  相似文献   

10.
为了大幅提高处理器的处理能力,设计了一款5核结构的同构多核处理器并实现了H.264在多核处理器上的并行解码.该多核处理器采用1个CPU作为主控处理器,另外的4个CPU作为受控处理器被调用,5个CPU可以同时访问1块32 KWord的共享存储器,任意2个CPU之间可以通过邮箱、信号量、硬件锁实现点对点的通讯.其中,主控处...  相似文献   

11.
针对短文本数据特征少、提供信息有限,以及传统卷积神经网络(convolutional neural network,CNN)和循环神经网络(recurrent neural network,RNN)对短文本特征表示不充分的问题,提出基于串并行卷积门阀循环神经网络的文本分类模型,处理句子特征表示与短文本分类。该网络在卷积层中去除池化操作,保留文本数据的时序结构和位置信息,以串并行的卷积结构提取词语的多元特征组合,并提取局部上下文信息作为RNN的输入;以门阀循环单元(gated recurrent unit,GRU)作为RNN的组成结构,利用文本的时序信息生成句子的向量表示,输入带有附加边缘距离的分类器中,引导网络学习出具有区分性的特征,实现短文本的分类。实验中采用TREC、MR、Subj短文本分类数据集进行测试,对网络超参数选择和卷积层结构对分类准确率的影响进行仿真分析,并与常见的文本分类模型进行了对比实验。实验结果表明:去掉池化操作、采用较小的卷积核进行串并行卷积,能够提升文本数据在多元特征表示下的分类准确率。相较于相同参数规模的GRU模型,所提出模型的分类准确率在3个数据集中分别提升了2.00%、1.23%、1.08%;相较于相同参数规模的CNN模型,所提出模型的分类准确率在3个数据集中分别提升了1.60%、1.57%、0.80%。与Text-CNN、G-Dropout、F-Dropout等常见模型相比,所提出模型的分类准确率也保持最优。因此,实验表明所提出模型可改善分类准确率,可实际应用于短文本分类场景。  相似文献   

12.
With the rapid development and popularization of artificial intelligence technology, convolutional neural network(CNN) is applied in many fields, and begins to replace most traditional algorithms and gradually deploys to terminal devices. However, the huge data movement and computational complexity of CNN bring huge power consumption and performance challenges to the hardware, which hinders the application of CNN in embedded devices such as smartphones and smart cars. This paper implements a convolutional neural network accelerator based on Winograd convolution algorithm on field-programmable gate array (FPGA). Firstly, a convolution kernel decomposition method for Winograd convolution is proposed. The convolution kernel larger than 3×3 is divided into multiple 3×3 convolution kernels for convolution operation, and the unsynchronized long convolution operation is processed. Then, we design Winograd convolution array and use configurable multiplier to flexibly realize multiplication for data with different accuracy. Experimental results on VGG16 and AlexNet network show that our accelerator has the most energy efficient and 101 times that of the CPU, 5.8 times that of the GPU. At the same time, it has higher energy efficiency than other convolutional neural network accelerators.  相似文献   

13.
油中溶解气体分析法(Dissolved Gas Analysis,DGA)是判断变压器内部故障的重要方法之一。针对传统基于浅层的机器学习方法在变压器故障诊断中存在的特征提取和泛化能力方面的不足,提出了一种基于卷积神经网络的变压器故障诊断方法。利用网络中的卷积层对油中溶解气体进行特征转换,结合池化层强化重要特征的能力,对故障敏感特征进行提取。通过实验研究了卷积核数目、卷积核大小、池化层、网络深度对模型诊断性能的影响。通过混淆矩阵、ROC曲线和PR曲线对比分析了卷积神经网络模型、支持向量机(Support Vector Machine,SVM) 模型、BP神经网络(Back Propagation Neural Network,BPNN)模型。实验结果表明,卷积神经网络模型的诊断性能更为优秀。  相似文献   

14.
针对传统卷积神经网络(CNN)模型构建过度依赖经验知识、参数多、训练难度大等缺点,同时鉴于复杂多类问题的CNN模型构建策略的重要价值,提出一种自适应深度CNN模型构建方法.首先,将初始网络模型的卷积层和池化层设置为仅含一幅特征图;然后,以网络收敛速度为评价指标,对网络进行全局扩展,全局扩展后,根据交叉验证样本识别率控制网络展开局部扩展,直到识别率达到预设期望值后停止局部网络学习;最后,针对新增训练样本,通过拓展新支路实现网络结构的自适应增量学习.通过图像识别实验验证了所提算法在网络训练时间和识别效果上的优越性.  相似文献   

15.
针对在H.264/AVC视频解码系统中子像素插值过程复杂度高的问题,提出一种子像素插值的2层流水线设计方法.第1层流水机制是当8×8分割块内部4个4×4块具有相同的运动信息时,基于4×4分割块参考像素读取和插值运算的两级流水,实现了不同4×4块插值过程的并行操作.第2层流水机制利用插值运算算法中1/2像素值之间的无依赖性以及水平和垂直插值运算过程的对称性,加速了各子像素位置处的像素插值运算过程.核心插值运算单元包括13个6阶滤波器、4个双线性插值滤波器和4个色度插值滤波器.插值运算过程的并行流水机制至少缩减了75%的插值运算时间.实验结果表明,与其他同领域工作相比,该架构设计的硬件开销较小,外部存储器访问量降低了47%,子像素插值性能提高了30%.  相似文献   

16.
提出基于卷积-门控循环单元(convolution-gated recurrent unit, C-GRU)的微博谣言事件检测模型。结合卷积神经网络(convolutional neural networks, CNN)和门控循环单元(gated recurrent unit, GRU)的优点,将微博事件博文句向量化,通过CNN中的卷积层学习微博窗口的特征表示,将微博窗口特征按时间顺序拼接成窗口特征序列,将窗口特征序列输入GRU中学习序列特征表示进行谣言事件检测。在真实数据集上的试验结果表明,相比基于传统机器学习方法、CNN和GRU的谣言检测模型,该模型有更好的谣言识别能力。  相似文献   

17.
一维卷积神经网络实时抗噪故障诊断算法   总被引:3,自引:0,他引:3  
针对旋转机械智能诊断方法计算量大和抗噪能力差的问题,在经典模型LeNet-5的基础上提出基于一维卷积神经网络的故障诊断算法.采用全局平均池化层代替传统卷积神经网络中的全连接层,在降低模型计算量的同时,降低模型参数数量和过拟合的风险;利用随机破坏后的时域信号进行训练以提高其抗噪能力;采用改进后的一维卷积核和池化核直接作用于原始时域信号,将特征提取和故障分类合二为一,通过交替的卷积层和池化层实现原始信号自适应特征提取,结合全局平均池化层完成故障分类.利用轴承数据和齿轮数据进行实验验证并对比经典模型LeNet-5、BP神经网络和SVM.结果表明:采用全局平均池化层可有效降低模型计算量,提高模型在低信噪比条件下的诊断精度,采用随机破坏输入训练策略可显著提升模型的抗噪诊断能力;改进后的模型可以实现噪声环境下准确、快速和稳定的故障诊断.通过t-SNE可视化分析说明了模型在特征学习上的有效性.  相似文献   

18.
介绍了组态软件实现的硬件平台,对于组态软件中的回路识别方法在CAN总线教学实验系统中的应用做出了具体分析与设计。采用递归式回路识别方法对CAN总线控制系统的输入、输出、运算、控制模块进行回路组态,完成硬件系统的软连接,实现图形组态软件与硬件实验系统同步完成设定功能的要求。采用Visual C++作为开发平台,将递归式回路识别方法应用于CAN总线控制系统当中,实现图形组态软件的回路组态功能,并将此软件应用于高校教学实验系统。  相似文献   

19.
通过与传统神经网络对比,分析了利用卷积神经网络(CNN)进行车牌号图像识别中的特征提取过程,提出了优化卷积和池化的过程来提高算法的收敛速度和准确率。运用Py Charm环境建立了改进后的车牌号识别模型,并通过实验验证了其正确性与识别速度。通过BP神经网络、传统Le Net-5 CNN和改进后的CNN对相同的字符集进行对比分析实验,得出了改进后的CNN模型的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号