期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

潘青松张怡杨宗明秦剑秀《计算机科学》2017,44(Z11):530-533, 556

以Zynq芯片为基础,采用软硬件协同设计的方法设计并实现整个系统。Zynq芯片内部采用ARM+FPGA的异构架构,既具备ARM处理器的灵活性,又拥有FPGA并行处理的能力。本系统的设计充分发挥了Zynq芯片的优势,在软硬件划分上, 通过ARM处理器来实现图像的采集;图像角点及边缘检测用FPGA来完成,即通过硬件加速提升系统的整体性能。ARM处理器与FPGA通过AXI4总线进行数据交互,在Zynq上实现集图像采集、图像特征提取、图像显示为一体的片上系统。最终系统测试结果表明,采用硬件加速实现图像特征提取的相关算法比在ARM处理器软件上实现的算法的速度提高了6～8倍。相似文献

2.

YOLO检测网络的FPGA加速计算模型的研究

裴颂文汪显荣《小型微型计算机系统》2022,(8):1681-1686

FPGA(Field Programmable Gate Array)凭借其高并行和可定制化的特点,可以解决目标检测网络结构复杂、计算量大和存储开销高等问题.本文基于FPGA验证平台研究并实现了YOLO(You Only Look Once)系列神经网络的加速计算模型.首先采用动态定点量化方法降低了数据存储和传输量.然后针对YOLO模型中两类计算开销大的典型卷积层,采用了流水线,循环展开,模块融合等策略分别实现了基于Winograd和GEMM的快速卷积计算引擎,提高加速计算效率.实验结果表明,本文在PYNQ-Z1验证平台上获得的计算性能达到64.9 GOP/s,比基于典型滑动窗口卷积计算方法的性能提高了2.15倍. 相似文献

3.

卷积神经网络RLeNet加速器设计

康磊李慧郑豪威李鑫《数字社区&智能家居》2021,(6)

针对卷积神经网络(CNN)对运算的需求,现场可编程逻辑门阵列(FPGA)可以充分挖掘CNN内部并行计算的特性,提高运算速度。因此,本文基于FPGA开发平台,从模型优化、参数优化,硬件加速以及手写体数字识别四个方面对CNN的FPGA加速及应用进行研究。提出一种数字识别网络RLeNet,并对网络进行参数优化,卷积运算加速采用脉冲阵列与加法树结合的硬件结构实现,同时使用并行技术和流水线技术优化加速,并使用microblaze IP通过中断控制CNN加速器IP接收串口发送的图片数据进行预测,输出结果。最后在Xilinx Nexys 4 DDR:Artix-7开发板上实现了MNIST数据集手写体数字识别预测过程,当系统时钟为200MHz时,预测一张图片的时间为36.47us。相似文献

4.

基于FPGA的深度卷积神经网络优化压缩算法研究

彭泽武蔡雄杨秋勇苏华权《计算技术与自动化》2021,40(4):74-78

针对现有海量数字图像信息落后,提出了新型的压缩算法,设计出基于FPGA的视频图像采集系统.应用深度卷积神经网络优化视频图像编码算法和聚类算法实现数据特征提取,将图像与距离信息作为深度卷积神经网络的输入与输出,并利用其特征提取能力学习图像特征的距离信息,提取深度卷积神经网络中的全连接层作为编码,通过迭代调整确定图像编码,完成图像压缩.应用测试结果显示,该算法具有较高效率优势,且图像压缩解码后质量较好. 相似文献

5.

基于深度学习的舰船目标检测算法与硬件加速

李磊徐国伟李文婧宋庆增《计算机应用》2021,41(z1):162-166

现有基于深度学习的检测算法,虽然有效提高了高分辨率遥感图像中的舰船目标检测准确率,但是由于其网络结构非常复杂,导致计算量和参数量巨大.为了满足实际应用中的实时性要求,采用异构硬件加速,并进行了相应的算法优化.为了更好地贴合硬件,首先在YOLOV3算法的基础上,通过对主干网络进行改进,设计并实现了YOLOV3&MobileNetV3轻量化网络,这样可以极大地削减网络的参数规模和计算量.然后在现场可编程逻辑门阵列(FPGA)平台,通过设计卷积神经网络加速器,实现了高效的轻量化神经网络.最后实验结果表明,改进的神经网络在自主研发的FPGA加速架构上,在测试集中的船舰目标的检测达到了150帧每秒的检测速度以及0.872的F1值,能够更加快速并有效地检测船舰目标. 相似文献

6.

面向云端FPGA的卷积神经网络加速器的设计及其调度

蔡瑞初余洋钟椿荣卢冶陈瑶《计算机应用研究》2020,37(1):172-177,182

卷积神经网络的高计算复杂性阻碍其广泛用于实时和低功耗应用,现有软件实现方案难以满足其对运算性能与功耗的要求,传统面向FPGA的卷积神经网络构造方式具有流程复杂、周期较长和优化空间较小等问题。针对该问题,根据卷积神经网络计算模式的特点,提出一种面向云端FPGA的卷积神经网络加速器的设计及其调度机制。通过借鉴基于HLS技术、引入循环切割参数和对卷积层循环重排的设计,采用模块化方式构造网络,并进行参数拓展以进一步优化加速器处理过程;通过分析系统任务和资源的特性总结调度方案,且从控制流和数据流两方面对其进行优化设计。与其他已有工作相比,提出的设计提供了一种同时具有灵活性、低能耗、高能效和高性能的解决方案,并且探讨了加速器的高效通用调度方案。实验结果表明,该加速器可在有效提高运算整速度的同时减少功耗。相似文献

7.

有限状态熵编码的VLSI设计与实现

黄海邢琳那宁张国良赵石磊刘志伟《计算机辅助设计与图形学学报》2021,33(4):640-648

在处理海量数据时,以软件方式实现的Z标准(Zstd)无损压缩算法难以满足特定应用领域对压缩速度的需求.对Zstd进行硬件加速设计是解决这一问题的有效方案,尤其是针对Zstd的有限状态熵编码(finitestateentropy,FSE)的硬件加速.因此,提出一种适用于Zstd的FSE压缩、解压硬件实现架构,采用固定压缩表实现最优的硬件加速步骤;通过增加序列映射的硬件模块来降低存储空间并提高传输速度;采用软硬件协同设计方案,并对硬件实现架构进行7级流水设计.通过VisualStudio与Modelsim的联合验证平台进行验证,实验结果表明在TSMC55 nm的工艺下,系统最高频率可达到750 MHz.与软件实现相比,整体压缩速度提高了9倍以上,整体解压速度提高了约100倍. 相似文献

8.

孪生网络跟踪算法并行计算结构研究

卢金仪唐维伟徐文辉颜露新钟胜邹旭《测控技术》2021,40(3):39-45

基于嵌入式平台的复杂背景目标跟踪技术在智能视频监控设备、无人机跟踪等领域有重要作用.卷积神经网络在跟踪问题上有准确率高、鲁棒性强的优点,但基于卷积特征的算法计算复杂度高,受嵌入式平台面积和功耗的限制,实时性难以满足嵌入式平台应用场景的需求.针对基于卷积特征的跟踪算法计算复杂度高、存储参数量大的难题,率先提出一种利用FPGA实现基于卷积神经网络的复杂背景目标跟踪硬件加速架构.该方法通过利用KL相对熵对目标跟踪算法Siamese-FC进行定点量化,设计了基于通道并行的卷积层加速架构.实验结果表明,定点量化后跟踪算法相比于原算法的平均精度损失不超过4.57％,FPGA部署后前向推理耗时仅为CPU的16.15％,功耗仅为CPU的13.7％. 相似文献

9.

FPGA中QDRII+SRAM FIFO接口设计

吴长瑞谢时根《测控技术》2015,34(5):75-77

为了实现模块化设计,缩短FPGA的开发周期,提出了基于Xilinx Virtex-7 FPGA的QDRⅡ+ SRAMFIFO接口设计方案.借鉴标准FIFO的设计思想,结合QDRⅡ+SRAM控制器的特点,设计基于QDRⅡ+ SRAM控制器的FIFO接口.通过原型机测试,验证了该接口不仅具有标准FIFO的功能,而且具有存储空间大等优势. 相似文献

10.

一种基于TMS320C6A8168的FPGA动态配置方法

《电子技术应用》2016,(9)

针对基带处理系统中FPGA传统上电配置中存在的速度和灵活性等问题,提出一种基于TMS320C6A8168的SD卡和网口动态加载FPGA配置文件的方案。该方案以含有4片FPGA和1片C6A8168 ARM处理器所组成的嵌入式系统作为平台,通过修改U-boot中的代码使得基带系统上电运行U-boot时能够选择性地加载PC中FPGA的配置文件,从而使FPGA完成相应的物理层算法及硬件加速。有效实现了对FPGA的配置,提高了FPGA系统配置的灵活性,在基带处理系统中有很好的应用前景。相似文献

11.

基于FPGA的量化CNN加速系统设计

巩杰赵烁何虎邓宁《计算机工程》2022,48(3):170-174+196

深度卷积神经网络（CNN）模型中卷积层和全连接层包含大量卷积操作,导致网络规模、参数量和计算量大幅增加,部署于CPU/GPU平台时存在并行计算性能差和不适用于移动设备环境的问题,需要对卷积参数做量化处理并结合硬件进行加速设计。现场可编程门阵列（FPGA）可满足CNN并行计算和低功耗的需求,并具有高度的灵活性,因此,基于FPGA设计CNN量化方法及其加速系统。提出一种通用的动态定点量化方法,同时对网络的各个层级进行不同精度的量化,以减少网络准确率损失和网络参数的存储需求。在此基础上,针对量化后的CNN设计专用加速器及其片上系统,加速网络的前向推理计算。使用ImageNet ILSVRC2012数据集,基于VGG-16与ResNet-50网络对所设计的量化方法和加速系统进行性能验证。实验结果显示,量化后VGG-16与ResNet-50的网络规模仅为原来的13.8%和24.8%,而Top-1准确率损失均在1%以内,表明量化方法效果显著,同时,加速系统在运行VGG-16时,加速效果优于其他3种FPGA实现的加速系统,峰值性能达到614.4 GOPs,最高提升4.5倍,能耗比达到113.99 GOPs/W,最高提升4.7倍。相似文献

12.

SV DPI技术在FPGA仿真验证的应用探讨

下载免费PDF全文

祝周荣关俊强李前进赵超刘芳汝《计算机测量与控制》2018,26(6):264-267

SystemVerilog作为近年来逐渐流行的FPGA验证语言,包含了丰富的验证特性：DPI、断言技术、功能覆盖率等,其中DPI接口技术可以帮助验证工程师在验证平台中实现对C或C++的调用,验证工程师可以通过编写C函数来实现复杂激励模型设计,同时也为进行复杂算法的FPGA设计的仿真验证提供了新的验证思路。本文提出一种基于DPI接口的FPGA仿真验证方法,实验表明：利用该方法搭建的仿真验证平台相对于传统的纯verilog验证平台,具有更高的仿真效率和验证的灵活性。该验证方法为算法级FPGA设计的确认测试提供了新的验证思路。相似文献

13.

An FPGA implementation for real-time edge detection

Jie Jiang Chang Liu Sirui Ling 《Journal of Real-Time Image Processing》2018,15(4):787-797

The Hessian matrix-based edge detection algorithm of Dr. Carsten Steger has the advantages of high accuracy and versatility. However, this algorithm has a complex and time-consuming computation process. Large-scale Gaussian convolution also employs a large number of multipliers when implemented on a field programmable gate array (FPGA). To address these problems, an FPGA implementation for Steger’s edge detection algorithm is proposed. This implementation employs pipeline and parallel architectures at both task and data levels for data stream processing. The original kernels of Gaussian convolution are simplified with box-filter to convert the multiplication operation in the convolution into addition, subtraction, or shift operations with the concept of integral image, thereby minimizing the multiplier resources. The proposed FPGA implementation demonstrates a favorable accuracy and anti-noise capability when dealing with different degrees of blur and noise in an image. Therefore, the FPGA implementation can satisfy real-time edge detection requirements. 相似文献

14.

改进中值滤波方法的图像预处理技术 总被引：1，自引：0，他引：1

王红君施楠赵辉岳有军《计算机系统应用》2015,24(5):237-240

图像实时处理系统日益发展,这无疑对FPGA的广泛应用提供了良好的平台。针对在某些领域传统的中值滤波算法无法快速有效的对采集到的图像进行处理,采用改进中值滤波利用FPGA运行速度快、内部程序并行运行等优点,设计出具有高实时性、高灵活性的图像预处理系统。通过中值滤波算法特点运用Verilog硬件描述语言进行代码编写,并在Quartus II、Modelsim进行实现仿真,最后与MATLAB中值滤波仿真图及多级中值滤波进行对比,得出利用FPGA处理改进中值滤波不但能够顺利对图像进行中值滤波,而且具有运算速度快、低能耗的特点。相似文献

15.

基于FPGA的VGA多幅图片动态显示系统

宗卫华胡安峰王素珍申中杰《单片机与嵌入式系统应用》2018,(1):52-56

本文使用FPGA芯片,在QuartusⅡ 工作平台下,利用Verilog硬件描述语言,实现了VGA多幅图片动态彩色显示系统的设计.设计中将VGA显示的同步控制、图像显示地址、像素存储单元、动图延迟器、颜色产生等模块集成在一块可编程FPGA芯片上,提高了显示系统的集成度和电路的可靠性.由于FPGA的在系统可编程特性,所设计的参数可通过现场编程调整,增强了显示系统设计电路适配的灵活性.在显示的效果上,提高了显示图片的趣味性,该显示系统能够应用到视频特技效果的切换技术中. 相似文献

16.

基于软件无线电平台的调频终端设计

顾玲玲李世银李欣《工矿自动化》2014,(6):99-102

介绍了基于DSP/FPGA混合架构的小型软件无线电平台,运用模块化设计方法设计了基于该平台的调频终端,详细阐述了调制和解调算法的实现。测试结果表明,基于软件无线电平台的调频终端能实现预期的发射和接收功能,具有便于部署、功能易扩展和易于升级等优势。相似文献

17.

可重构GrΦstl设计研究及其FPGA实现

李志灿王奕李仁发《计算机工程与应用》2012,48(6)

GrΦstl是继承MD迭代结构和沿用AES压缩函数的SHA-3候选算法。目前的研究只针对GrΦstl算法的一种或两种参数版本进行实现,并没有针对GrΦstl四种参数版本的设计,缺少灵活性。在分析GrΦstl算法的基础上,采用可重构的设计思想,在FPGA上实现了GrΦstl四种参数版本。实验结果表明,在Xilinx Virtex-5 FPGA平台上,四参数可重构方案的面积为4279 slices,时钟频率为223.32 MHz,与已有的实现方法相比,具有面积小、时钟频率高及灵活性等优点。相似文献

18.

The use of field programmable gate array （FPGA） in direct torque control of induction motor

Y. Srinivasa Kishore BABU G. Tulasi Ram DAS 《控制理论与应用(英文版)》2013,11(4):642-650

In this paper, the feasibility of embedding the direct torque control （DTC） of an induction machine into field programmable gate arrays （FPGA） is investigated. DTC of an induction machine is simulated in a MATLAB/Simulink environment using a Xilinx system generator. The resulting design has a flexible and modular structure where the designer can customize the hardware blocks by changing the number of inputs, outputs, and algorithm when it is compared to the designs implemented using classical microcontrollers and digital signal processors. With its flexibility, other control algorithms can easily be programmed and embedded into the FPGA. The above system has been implemented on Xilinx Spartan 3A DSP FPGA controller. Simulation and experimentation have been performed to prove the validity of the proposed methodology. 相似文献

19.

可重构Grostl设计研究及其FPGA实现

李志灿王奕李仁发《计算机工程与应用》2012,(6):49-52

Grostl是继承MD迭代结构和沿用AES压缩函数的SHA．3候选算法。目前的研究只针对Grostl算法的一种或两种参数版本进行实现,并没有针对Grcstl四种参数版本的设计,缺少灵活性。在分析Gr#stl算法的基础上,采用可重构的设计思想,在FPGA上实现了Grcstl四种参数版本。实验结果表明,在XilinxVirtex一5FPGA平台上,四参数可重构方案的面积为4279slices,时钟频率为223．32MHz,与已有的实现方法相比,具有面积小、时钟频率高及灵活性等优点。相似文献

20.

基于FPGA+COM Express的基带数字信号处理平台设计

下载免费PDF全文

齐志强《计算机测量与控制》2019,27(1):255-258

针对卫星信号分离系统运算量大,实时性要求高的特点,设计了一种基于FPGA+COM Express的基带数字处理平台。通过对系统需求的分析,构建系统的硬件架构,将系统分为运算模块、网络接口模块、 A/D电路、D/A电路、电源变换电路和时钟管理电路等部分,然后根据各部分的具体需求确定主要芯片的选择和电路的具体设计。根据系统特点,将系统运算分为两类,将数据运算量大,实时性要求高但结构简单的部分用FPGA实现,将数据量少但控制结构复杂、实时性要求低的部分用COM Express实现。经测试,该平台能够满足卫星信号分离系统的运算需求和实时性要求。该方案可作为通用数字基带处理平台,能够灵活实现常用的基带数字信号处理系统所需的信号采集、运算、控制和输出,具有设计灵活多样,开发简单易行,研发周期短等优点。相似文献