首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
自动映射多循环程序到有限FPGA资源的参数化流水线模板   总被引:1,自引:0,他引:1  
FPGA为加速计算密集型应用提供了一个灵活高效的平台.然而,由于片上资源有限,在一些情况下,需要将大规模应用中包括的多个循环程序分别映射到FPGA上执行,当一个循环程序执行完毕后,需要重新配置FPGA以执行下一个循环程序,FPGA重构过程在整个程序执行过程中占用了较多时间.文中设计了一个参数化流水线模板,并提出了相应的指令分配调度策略,实现了自动将多循环程序顺序映射到目标FPGA片上系统,同时在程序切换时,不需要进行FPGA重构.实验结果表明,对每个循环程序,文中设计的流水线模板能达到与专用硬件结构相当的执行节拍,同时节约了程序切换时的重构时间.  相似文献   

2.
为提高先心病心音分类算法的实时性,适用于资源有限的嵌入式设备,提出一种对FPGA进行流水线约束设计的硬件加速方法.将CNN内部计算的并行性与FPGA上的并行硬件对应起来,通过VIVADO高层次综合(HLS)映射CNN算法至FPGA上,在卷积层中的循环上采用流水线约束,子循环会默认展开的方式,提升循环的执行速度.实例仿真计算结果表明,该方法可以很好地利用硬件资源,极大降低计算延时,有效提升算法的实时性.  相似文献   

3.
目前在中央处理器(CPU)中,卷积神经网络存在速度慢、功耗高的缺点,针对深度学习中的卷积神经网络所需计算时间长、消耗资源多、卷积运算量大的问题,提出了使用现场可编程门阵列(FPGA)硬件平台对卷积神经网络图像识别系统进行加速,对卷积神经网络的进行算法改进和加速。设计了卷积层并行计算的流水线模块和池化层改进模块,还通过数据量化的方式减少FPGA资源耗费。最后,使用MINST数据集对算法进行评估,在Zynq7010和CPU上进行验证。实验结果表明,设计的方法资源占用率低,识别速度快,适合实际领域使用。  相似文献   

4.
黄兆伟  王连明 《计算机应用研究》2020,37(9):2762-2765,2771
针对目前采用IEEE 754浮点标准设计的FPGA浮点运算器中吞吐率与资源利用率低等问题,提出一种运算精度与运算器数量可配置的并行浮点向量乘法运算单元。通过浮点运算器的指数、尾数位数可配置化设计,提高系统资源利用率,并将流水线技术与并行结构结合,提高数据吞吐率。以EP4CE115型FPGA为测试平台,当配置10组FP14运算器时,系统的逻辑资源占用约为4.2%,峰值吞吐率可达4.5 GFLOPS。结果表明,提出的浮点向量乘法单元有效提高了FPGA资源利用率与运算吞吐率,同时具有高度的可移植性与通用性,适用于FPGA向量乘法运算的加速。  相似文献   

5.
张望  贾佳  孟渊  白旭 《计算机应用》2017,37(5):1341-1346
由于对广泛使用的AES算法的性能要求越来越高,基于软件的密码算法已经越来越难以满足高吞吐量密码破解的需求,因此越来越多的算法利用现场可编程逻辑门阵列(FPGA)平台进行加速。针对AES算法在FPGA硬件上存在的开发复杂度高且开发周期长等问题,采用高层次综合(HLS)设计方法,使用高级程序语言描述并设计AES硬件加速算法。首先利用循环展开等提高运算并行度;其次使用资源平衡技术进行优化,充分利用片上存储和电路资源;最后添加全流水结构,提高整体设计的时钟频率和吞吐量,同时也详细对比分析基准设计、利用结构展开、资源均衡以及流水线优化方法的设计。经过实验表明,在Xilinx xc7z020clg484 FPGA芯片上,最终AES算法的时钟频率最高达到127.06 MHz,而吞吐量达到了16.26 Gb/s,较之基准的AES设计,性能提升了三个数量级。  相似文献   

6.
针对三维图像重建的经典算法(FDK算法)在FPGA上的加速,提出了并行无等待流水线的实现方法。实验结果表明,该方法获得了较高的加速比。  相似文献   

7.
针对卷积神经网络计算资源消耗大、难以在边缘侧应用等问题,提出了一种面向FPGA (Field Programmable Gate Array)平台的基于知识蒸馏的轻量化卷积神经网络辐射源信号识别方法。该方法以信号时频图作为特征提取对象,结合改进的知识蒸馏方法对卷积神经网络进行轻量化处理,通过注意力图增强知识信息传递,并融合深度可分离卷积,进一步提高网络稀疏度。最后,将该轻量化网络在FPGA平台上进行结构优化,通过改进循环策略和流水线并行设计,加速轻量化卷积神经网络的辐射源信号识别过程。仿真结果显示,利用本文提出的轻量化卷积神经网络辐射源信号识别算法,网络参数量降低了81.8%,在信噪比不低于-12dB的条件下,信号识别准确率达到了90%以上,FPGA平台信号识别时间为86ms,平均功耗为2W,可满足边缘侧终端对信号实时检测以及低功耗的实际应用需求。  相似文献   

8.
分析公钥密码算法的各种加速算法的基础上,分别在Xilinx Virtex V600FG680-6 FPGA上用流水线和非流水线方式,以及TI公司的TMS320C5402和TMS320C6201系列高性能DSP上设计RSA密码计算构件。并通过对四种方案特点的分析,比较了在校园卡应用领域中,不同设计方案适用的具体应用背景,得到了比较理想的结果。  相似文献   

9.
张荣华  王江 《计算机应用研究》2011,28(10):3694-3698
介绍了一种利用并行运算解决高维度、非线性、强耦合系统模型仿真问题的方法。该方法以现场可编程门阵列(FPGA)技术为依托,在流水线设计思想的基础上,利用所提出的流水线算子概念实现了从非线性常微分方程向流水线数据通路的转换过程。该方法为在FPGA上设计模拟各种复杂物理模型的流水线数据通路提供了一种简单有效的解决方案。  相似文献   

10.
一种密钥可配置的DES加密算法的FPGA实现   总被引:1,自引:1,他引:0  
在传统的DES加密算法的基础上,提出一种对密钥实行动态管理的硬件设计方案,给出了其FPGA实现方法。通过对DES加密原理的分析,利用其子密钥的生成与核心算法相关性较弱的特点,对密钥进行重新配置。DES算法采用资源优先方案,在轮函数内部设置流水线架构,提高了整体处理速度;在FPGA上实现轮函数和密钥变换函数独立运算,减少了相邻流水线级间的逻辑复杂度,从而实现了DES算法在FPGA条件下的重构设计。最终通过对设计结果的功能仿真和测试分析,论证了整个设计的正确性。  相似文献   

11.
研究了CMMB标准第一部分(STiMi子系统)中的OFDM调制技术,提出了一种新的基于FPGA的OFDM调制技术设计与实现方法,并改进了OFDM技术的核心算法IFFT的流水线结构,大大降低了FPGA乘法器的数量,节约了硬件资源。经FPGA实现与验证,该方法能够正确、高效地实现CMMB系统的OFDM调制技术。  相似文献   

12.
管道泄漏监测与控制技术已经成为管道安全运行的关键问题,目前人为破坏导致的管道泄漏已占相当的比例;管道在运行过程中有正常的运行噪声和环境因素产生的噪声,也有管道泄漏和在管道上从事破坏活动所产生的噪声;如何实现对不同噪声信号的精确采集,是对管道泄漏点进行准确定位、确保管道安全运行的关键问题;运用现场可编程门阵列(FPGA)所具有的巨大的I/O带宽和高速的运算能力,实现了对噪声监测的自适应数据采集系统设计;系统以FPGA为核心,将数据采集、数据存储处理及数据通信等功能模块集成在一块芯片上,提高了系统的集成度;经过测试证明了系统工作稳定可靠,为利用噪声监测管道泄漏提供了基础.  相似文献   

13.
该研究提出了一种基于多现场可编程门阵列异构平台的流水线技术优化方法。首先,基于二 分法思想对任务进行划分,使任务量尽可能均衡地部署在不同现场可编程门阵列单元中,从而提高板 级流水线均衡度;其次,针对板间传输延迟进行了流水线结构的优化,在板间延迟较大时,将板间延 迟作为流水线的一级可以提高平台吞吐率;最后,并行优化计算单元内部模块,并通过数据关系重 排、循环展开、循环流水线等手段充分利用现场可编程门阵列计算资源,提高吞吐率和能效比。采用 AlexNet 网络为例进行的验证结果显示,与优化之前的流水线结构相比,改进后的流水线结构吞吐率 提高了 215.6%,能效比提高了 105.5%,单次任务运行时间减少了 36.6%。  相似文献   

14.
NCO在软件无线电、数字信号处理等方面有着广泛的应用。函数发生器是NCO中的关键部分,通过FPGA流水线实现了CORDIC算法,可替代传统ROM查找表法。通过对Altera和Xilinx公司的FPGA进行仿真及综合,验证了该设计的正确性及可行性。  相似文献   

15.
针对基于FPGA的分布式导航系统中涉及大量的三角函数运算,而传统的查找表或差值法计算,在精度、运算速度方面不能兼得,且占用资源多,文中提出了基于CORDIC算法的反正切函数计算的改进方法与流水线结构的实现方法,使用VHDL硬件描述语言进行编程实现,在QuartusII9.0中对算法进行功能仿真,最后通过Altera公司的FPGA CycloneII系列芯片进行了具体验证。验证结果表明,针对累加器中因截尾而产生的误差所作的算法改进,显著地提高了算法精度,而且运算速度快。  相似文献   

16.
针对H.264视频标准中一个功能频繁调用的变换量化模块,提出了一种高性能的FPGA硬件实现方法。并完成了其硬件原型的设计。该硬件原型包含了从残差形成到宏块重建的变换量化全过程。其可以构成DSP的协处理器,用于完成H.264实时编解码。该硬件原型根据算法特点和数据流特点,采用了流水线控制策略和分时复用技术,同时合理利用FPGA片内资源,从而提高了系统性能。仿真结果表明。该设计能满足高清数字视频的实时处理应用。  相似文献   

17.
来永华  朱聪  郑衍衡 《计算机工程与设计》2011,32(10):3382-3385,3390
针对FPGA的全局流水进行了研究,采用CPU+FPGA的混合架构,论证了FPGA实现全局流水的优越性:使用FPGA进行全局流水可以在CPU处理过程中减少FPGA等待时间,提高FPGA的利用率;可以减少FPGA与CPU之间的通信量以及程序在CPU端的存储开销;可以均衡CPU负载,使得CPU有空闲时间处理其它任务。用N-Body的FMM算法作为例子,对优越性分别作了分析,并设计了实验方案,实验结果表明了FPGA实现全局流水的优越性。  相似文献   

18.
The Hessian matrix-based edge detection algorithm of Dr. Carsten Steger has the advantages of high accuracy and versatility. However, this algorithm has a complex and time-consuming computation process. Large-scale Gaussian convolution also employs a large number of multipliers when implemented on a field programmable gate array (FPGA). To address these problems, an FPGA implementation for Steger’s edge detection algorithm is proposed. This implementation employs pipeline and parallel architectures at both task and data levels for data stream processing. The original kernels of Gaussian convolution are simplified with box-filter to convert the multiplication operation in the convolution into addition, subtraction, or shift operations with the concept of integral image, thereby minimizing the multiplier resources. The proposed FPGA implementation demonstrates a favorable accuracy and anti-noise capability when dealing with different degrees of blur and noise in an image. Therefore, the FPGA implementation can satisfy real-time edge detection requirements.  相似文献   

19.
为解决Hough变换实时性差的问题,提出一种基于现场可编程门阵列的实时Hough变换方法。采用分角度映射方法使Hough变换在空间上并行运算。设计一种基于流水线的计算结构,实现Hough空间参数计算与存储的时间并行性。通过双口RAM,在单个时钟内完成参数空间的一次投票操作,提出一种适合在FPGA中实现的快速寻找极值的二次搜索算法。与DSP进行效率对比实验,结果表明该方法效率较高,能满足实时性处理要求。  相似文献   

20.
新型硬件及其构建的环境改变了传统的计算、存储以及网络体系,也改变了上层软件既往的设计假设,特别是通用处理器和专用加速器组成的异构计算架构,改变了数据库系统的底层框架设计和查询优化的代价模型.数据库系统需要针对新型硬件的特性做出适应性调整,以充分发挥新硬件的潜力.提出一种面向CPU/GPU/FPGA异构计算融合的基于代价...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号