首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
本文介绍了一种细化算法。该细化算法是利用模板重复进行卷积运算,再扫描确定细化点。这种方法易于硬件实现,细化中可剔除部分噪声和笔划边缘的毛刺  相似文献   

2.
现有软件实现方案难以满足卷积神经网络对运算性能与功耗的要求。为此,设计一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在粗粒度并行层面对卷积运算单元进行并行化加速,并使用流水线实现完整单层运算过程,使单个时钟周期能够完成20次乘累加,从而提升运算效率。针对MNIST手写数字字符识别的实验结果表明,在75 MHz的工作频率下,该加速器可使FPGA峰值运算速度达到0.676 GMAC/s,相较通用CPU平台实现4倍加速,而功耗仅为其2.68%。  相似文献   

3.
提出了一种以Steger算法为基础,基于现场可编程逻辑门阵列(FPGA)的递归流水逻辑结构,采用递归逻辑结构避免大规模高斯模板卷积带来的运算复杂度,同时,逻辑结构不受不同高斯参数选择的影响,增强了实用性,利用FPGA并行性完成多路运算,实现光条纹中心点提取.该逻辑结构更适用于连续图像数据的实时处理.  相似文献   

4.
SAR图像峰——斜双参检测法的FPGA实现   总被引:1,自引:0,他引:1  
在SAR图像中检测舰船本身或其尾迹时,往往运算量非常大,为了满足未来业务化操作中高速和实时性的要求,本文提出了一种基于FPGA的硬件实现方法,提出了应用VHDL在ALTERAStratixIIep2s30芯片上实现检测中复杂的并行运算。内容包括软件仿真和硬件实现。  相似文献   

5.
根据卷积神经网络的特点,提出了深度流水的FPGA加速方案,设计了卷积层的通用卷积电路。该卷积电路可以在一个时钟周期内获得一个计算结果。理论上,该方案对于MNIST数据集,在28×28个时钟周期内可以获得一幅图片的运算结果。针对网络训练过程的前向传播阶段,在网络结构和数据集相同的情况下,对GPU,FPGA,CPU进行了在计算效率和能耗之间的比较。其中在计算效率方面,50 MHz频率的FPGA就可以相较于GPU实现近5倍的加速,相较于12核的CPU实现8倍的加速。而在功耗方面,该FPGA的实现方案只有GPU版本的26.7%。  相似文献   

6.
基于FPGA的实时图像滤波及边缘检测方法   总被引:7,自引:1,他引:6  
图像滤波和边缘检测是视觉导航系统中道路检测和障碍物检测等复杂视觉处理的关键步骤,其性能和处理时间直接影响了后续图像处理的性能及视觉系统的整体响应时间.为此,提出了一种基于FPGA的实时图像模板滤波及边缘检测方法,将LoG模板分解为两个一维模板的卷积和,从而降低了算法运算量.并充分利用FPGA的并行机制及片内丰富的RAM资源,采用分布式算法,用查找表代替乘法器进行乘法运算.实验表明该方法满足视觉导航系统中实时性需求,且又适用于其他基于模板运算的图像处理算法.  相似文献   

7.
针对当前在FPGA上实现卷积神经网络模型时卷积计算消耗资源大,提高FPGA芯片性能代价较大等问题,提出一种改进的基于嵌入式SoC的优化设计方法。对卷积计算的实现方法和存储访问通道加以优化,以提高并行计算性能;将32位位宽的浮点数量化为16位定点数,加快前向传播的数据传输;结合硬件描述软件的高层次综合技术,将卷积神经网络映射到硬件平台成为一种同步数据流模型从而加快计算速度。通过实验证明,该方案较现有设计节约了89%的BRAM和72%的LUT,在工作频率为100 MHz的测试中,其处理速度比单独使用Cortex-A9的方案提升了42倍。  相似文献   

8.
基于MCU和FPGA的数字式相位测量仪的设计   总被引:2,自引:1,他引:2  
欧伟明  王湘中 《自动化仪表》2006,27(9):30-32,35
该设计采用单片机与FPGA相结合的电路实现方案,很好地发挥了FPGA运算速度快、资源丰富、编程方便的特点,并利用了单片机较强的运算、控制功能,使得整个系统模块化、硬件电路简单、使用操作方便。文章主要介绍设计方案的论证、系统硬件和软件的设计,给出了详细的系统硬件电路图和系统软件主程序流程图。实践表明,该相位测量仪具有较好的性能,并成功应用于全国大学生电子设计竞赛中。  相似文献   

9.
为满足卷积神经网络业务处理的灵活性和高性能需求,提出一种基于软件定义的可重构卷积神经网络架构。该架构采用归一化处理流程实现卷积层网络的动态重构与运算模式的加速。采用AHB和AXI的双总线架构,实现卷积神经网络的流水计算。通过软件定义在FPGA上实现了不同网络结构下的数据集实时处理。实验结果表明,所设计的FPGA电路能够实现两种网络模型的软件定义,网络模型与输入数据集相同的条件下,该架构的运算处理能力为CPU的10倍,运算能耗比为GPU的2倍。  相似文献   

10.
提升小波算法的FPGA硬件实现   总被引:1,自引:0,他引:1  
讨论了提升小波变换的原理及特点,并提出了一种基于现场可编程门阵列器件FPGA实现提升小波算法的方案,该方案与基于传统的卷积方法实现相比,可以减小硬件实现面积,并利用插入流水线寄存器的方法,缩短关键路径,提高运算速度.  相似文献   

11.
熊伟  黄鲁 《计算机系统应用》2019,28(11):101-106
商品检索是电商行业智能化发展的一个重要的问题.本设计实现了基于ZYNQ和CNN模型的服装识别系统.利用TensorFlow训练自定义网络,定点化处理权重参数.利用ZYNQ器件的ARM+FPGA软硬件协同的特点搭建系统,使用ARM端OpenCV进行图像预处理,FPGA端CNN IP进行实时识别.ARM与FPGA之间实现了权重可重加载结构,无需修改FPGA硬件而实现在线升级.系统采用fashion-minist数据集作为网络训练样本,根据系统资源配置CNN IP的加速引擎的数量来提高卷积运算的并行性.实验表明,本系统针对电商平台下的图片能够实时准确识别和显示,准确率达92.39%.在100 MHz工作频率下,图像处理速度每帧可达到1.361 ms,功耗仅为0.53 W.  相似文献   

12.
The Hessian matrix-based edge detection algorithm of Dr. Carsten Steger has the advantages of high accuracy and versatility. However, this algorithm has a complex and time-consuming computation process. Large-scale Gaussian convolution also employs a large number of multipliers when implemented on a field programmable gate array (FPGA). To address these problems, an FPGA implementation for Steger’s edge detection algorithm is proposed. This implementation employs pipeline and parallel architectures at both task and data levels for data stream processing. The original kernels of Gaussian convolution are simplified with box-filter to convert the multiplication operation in the convolution into addition, subtraction, or shift operations with the concept of integral image, thereby minimizing the multiplier resources. The proposed FPGA implementation demonstrates a favorable accuracy and anti-noise capability when dealing with different degrees of blur and noise in an image. Therefore, the FPGA implementation can satisfy real-time edge detection requirements.  相似文献   

13.
基于FPGA图像处理技术在钢板表面缺陷检测系统中的应用   总被引:8,自引:2,他引:6  
为了解决钢板表面缺陷视觉检测系统中图像处理的瓶颈问题,采用基于FPGA的嵌入式处理系统完成大数据量、实时、在线的处理任务,从而满足高速、宽幅、高分辨率的检测要求.嵌入式系统以Altera公司最新的Stratix FPGA作为核心处理器,在分析FPGA专有的硬件结构基础上,对图像处理中的模板卷积算法进行了优化设计,采用Verilog语言对算法完成建模与实现,并在Quartus Ⅱ平台进行了仿真验证.实验与算法仿真证明嵌入式处理系统的可行性与工程实用性,从而表面缺陷检测系统中的图像信息实时处理这一关键问题得以解决.  相似文献   

14.
针对目前高帧频图像处理方法中软件速度慢、实时性差、专用硬件开发周期长、灵活性差等缺陷,开发完成了基于FPGA的高帧频图像硬件实时处理系统。该系统采用投票表决算法,压缩了存储和处理的数据量,充分发挥FPGA器件的并行特性,使图像采集与图像处理并行完成,提高了图像处理速度。系统已成功应用于高速轨道检测车的钢轨断面图像实时动态处理和分析。  相似文献   

15.
针对实时图像采集系统数据量大,实时性强的特点,提出了一种基于FPGA的解决方案;在单片FPGA芯片上完成整个系统的软硬件设计,集成度高,可靠性强;图像的采集、存储及显示都采用硬件逻辑实现,此外,用逻辑实现处理算法,经几个时钟周期的延时就完成了图像处理,充分体现了FPGA并行处理的优势;实验表明,该系统较好地满足了系统的实时处理要求。  相似文献   

16.
This paper proposes a high speed multi-level-parallel array processor for programmable vision chips.This processor includes 2-D pixel-parallel processing element(PE)array and 1-D row-parallel row processor(RP)array.The two arrays both operate in a single-instruction multiple-data(SIMD)fashion and share a common instruction decoder.The sizes of the arrays are scalable according to dedicated applications.In PE array,each PE can communicate not only with its nearest neighbor PEs,but also with the next near neighbor PEs in diagonal directions.This connection can help to speed up local operations in low-level image processing.On the other hand,global operations in mid-level processing are accelerated by the skipping chain and binary boosters in RP array.The array processor was implemented on an FPGA device,and was successfully tested for various algorithms,including real-time face detection based on PPED algorithm.The results show that the image processing speed of proposed processor is much higher than that of the state-of-the-arts digital vision chips.  相似文献   

17.
Bidimensional convolution is a low-level processing algorithm of interest in many areas, but its high computational cost constrains the size of the kernels, especially in real-time embedded systems. This paper presents a hardware architecture for the FPGA-based implementation of 2-D convolution with medium–large kernels. It is a multiplierless solution based on Distributed Arithmetic implemented using general purpose resources in FPGAs. Our proposal is modular and coefficient independent, so it remains fully flexible and customizable for any application. The architecture design includes a control unit to manage efficiently the operations at the borders of the input array. Results in terms of occupied resources and timing are reported for different configurations. We compare these results with other approaches in the state of the art to validate our approach.  相似文献   

18.
This paper presents a high-speed real-time plane fitting implementation on a field-programmable gate array (FPGA) platform. A novel hardware-based least squares algorithm fits planes to patches of points within a depth image captured using a Microsoft Kinect v2 sensor. The validity of a plane fit and the plane parameters are reported for each patch of 11 by 11 depth pixels. The high level of parallelism of operations in the algorithm has allowed for a fast, low-latency hardware implementation on an FPGA that is capable of processing depth data at a rate of 480 frames per second. A hybrid hardware–software end-to-end system integrates the hardware solution with the Kinect v2 sensor via a computer and PCI express communication link to a Terasic TR4 FPGA development board. We have also implemented two proof-of-concept object detection applications as future candidates for bionic vision systems. We show that our complete end-to-end system is capable of running at 60 frames per second. An analysis and characterisation of the Kinect v2 sensor errors has been performed in order to specify logic precision requirements, statistical testing of the validity of a plane fit, and achievable plane fitting angle resolution.  相似文献   

19.
FPGA因具有较好的并行处理能力和灵活性,使其在卷积神经网络硬件加速计算中得到广泛的应用,但是传统的FPGA图像卷积实现中存在模块化设计以及空间开销较大的问题.本文提出了一种面向硬件加速的通用图像卷积开发平台.通过模块化设计,极大提高针对不同卷积核实现图像卷积开发的灵活性;另外通过图像批次处理技术,充分利用数据重复性实现内存共享,较好地降低了存储空间的开销.实验结果表明,本文设计的平台在模块化设计方面提供了更好的可重配置架构,非常适于实验教学应用;在存储空间需求方面,当并行度提高时,BRAM的复杂度只是线性增加,这对于功耗的降低具有优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号