期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

自动映射多循环程序到有限FPGA资源的参数化流水线模板 总被引：1，自引：0，他引：1

董亚卓窦勇宋健刘明政《计算机学报》2009,32(1)

FPGA为加速计算密集型应用提供了一个灵活高效的平台.然而,由于片上资源有限,在一些情况下,需要将大规模应用中包括的多个循环程序分别映射到FPGA上执行,当一个循环程序执行完毕后,需要重新配置FPGA以执行下一个循环程序,FPGA重构过程在整个程序执行过程中占用了较多时间.文中设计了一个参数化流水线模板,并提出了相应的指令分配调度策略,实现了自动将多循环程序顺序映射到目标FPGA片上系统,同时在程序切换时,不需要进行FPGA重构.实验结果表明,对每个循环程序,文中设计的流水线模板能达到与专用硬件结构相当的执行节拍,同时节约了程序切换时的重构时间. 相似文献

2.

先心病心音CNN分类算法的硬件加速

粟炜宗容张强奎皓然杨宏波王威廉《计算机工程与设计》2021,42(6):1599-1605

为提高先心病心音分类算法的实时性,适用于资源有限的嵌入式设备,提出一种对FPGA进行流水线约束设计的硬件加速方法.将CNN内部计算的并行性与FPGA上的并行硬件对应起来,通过VIVADO高层次综合(HLS)映射CNN算法至FPGA上,在卷积层中的循环上采用流水线约束,子循环会默认展开的方式,提升循环的执行速度.实例仿真计算结果表明,该方法可以很好地利用硬件资源,极大降低计算延时,有效提升算法的实时性. 相似文献

3.

基于FPGA的卷积神经网络图像识别算法研究

贾亮徐善博邢轶博《广东电脑与电讯》2022,(12):58-61+97

目前在中央处理器(CPU)中,卷积神经网络存在速度慢、功耗高的缺点,针对深度学习中的卷积神经网络所需计算时间长、消耗资源多、卷积运算量大的问题,提出了使用现场可编程门阵列(FPGA)硬件平台对卷积神经网络图像识别系统进行加速,对卷积神经网络的进行算法改进和加速。设计了卷积层并行计算的流水线模块和池化层改进模块,还通过数据量化的方式减少FPGA资源耗费。最后,使用MINST数据集对算法进行评估,在Zynq7010和CPU上进行验证。实验结果表明,设计的方法资源占用率低,识别速度快,适合实际领域使用。相似文献

4.

基于FPGA的可配置浮点向量乘法单元设计实现

黄兆伟王连明《计算机应用研究》2020,37(9):2762-2765,2771

针对目前采用IEEE 754浮点标准设计的FPGA浮点运算器中吞吐率与资源利用率低等问题,提出一种运算精度与运算器数量可配置的并行浮点向量乘法运算单元。通过浮点运算器的指数、尾数位数可配置化设计,提高系统资源利用率,并将流水线技术与并行结构结合,提高数据吞吐率。以EP4CE115型FPGA为测试平台,当配置10组FP14运算器时,系统的逻辑资源占用约为4.2%,峰值吞吐率可达4.5 GFLOPS。结果表明,提出的浮点向量乘法单元有效提高了FPGA资源利用率与运算吞吐率,同时具有高度的可移植性与通用性,适用于FPGA向量乘法运算的加速。相似文献

5.

基于高层次综合的AES算法研究与设计

张望贾佳孟渊白旭《计算机应用》2017,37(5):1341-1346

由于对广泛使用的AES算法的性能要求越来越高,基于软件的密码算法已经越来越难以满足高吞吐量密码破解的需求,因此越来越多的算法利用现场可编程逻辑门阵列（FPGA）平台进行加速。针对AES算法在FPGA硬件上存在的开发复杂度高且开发周期长等问题,采用高层次综合（HLS）设计方法,使用高级程序语言描述并设计AES硬件加速算法。首先利用循环展开等提高运算并行度;其次使用资源平衡技术进行优化,充分利用片上存储和电路资源;最后添加全流水结构,提高整体设计的时钟频率和吞吐量,同时也详细对比分析基准设计、利用结构展开、资源均衡以及流水线优化方法的设计。经过实验表明,在Xilinx xc7z020clg484 FPGA芯片上,最终AES算法的时钟频率最高达到127.06 MHz,而吞吐量达到了16.26 Gb/s,较之基准的AES设计,性能提升了三个数量级。相似文献

6.

FPGA加速三维CT图像重建

邓靖飞李建新李磊闫镔《电子技术应用》2010,(9)

针对三维图像重建的经典算法(FDK算法)在FPGA上的加速,提出了并行无等待流水线的实现方法。实验结果表明,该方法获得了较高的加速比。相似文献

7.

FPGA平台轻量化卷积神经网络辐射源信号识别方法

肖帅龚帅阁李想王昊陶诗飞《计算技术与自动化》2023,(4):140-146

针对卷积神经网络计算资源消耗大、难以在边缘侧应用等问题,提出了一种面向FPGA (Field Programmable Gate Array)平台的基于知识蒸馏的轻量化卷积神经网络辐射源信号识别方法。该方法以信号时频图作为特征提取对象,结合改进的知识蒸馏方法对卷积神经网络进行轻量化处理,通过注意力图增强知识信息传递,并融合深度可分离卷积,进一步提高网络稀疏度。最后,将该轻量化网络在FPGA平台上进行结构优化,通过改进循环策略和流水线并行设计,加速轻量化卷积神经网络的辐射源信号识别过程。仿真结果显示,利用本文提出的轻量化卷积神经网络辐射源信号识别算法,网络参数量降低了81.8%,在信噪比不低于-12dB的条件下,信号识别准确率达到了90%以上,FPGA平台信号识别时间为86ms,平均功耗为2W,可满足边缘侧终端对信号实时检测以及低功耗的实际应用需求。相似文献

8.

一种高性能公钥密码计算构件的研究与应用

YANG Xuan HUANG Bin 《数字社区&智能家居》2008,(33)

分析公钥密码算法的各种加速算法的基础上,分别在Xilinx Virtex V600FG680-6 FPGA上用流水线和非流水线方式,以及TI公司的TMS320C5402和TMS320C6201系列高性能DSP上设计RSA密码计算构件。并通过对四种方案特点的分析,比较了在校园卡应用领域中,不同设计方案适用的具体应用背景,得到了比较理想的结果。相似文献

9.

复杂物理模型仿真的多进程流水线方法*

张荣华王江《计算机应用研究》2011,28(10):3694-3698

介绍了一种利用并行运算解决高维度、非线性、强耦合系统模型仿真问题的方法。该方法以现场可编程门阵列(FPGA)技术为依托,在流水线设计思想的基础上,利用所提出的流水线算子概念实现了从非线性常微分方程向流水线数据通路的转换过程。该方法为在FPGA上设计模拟各种复杂物理模型的流水线数据通路提供了一种简单有效的解决方案。相似文献

10.

一种密钥可配置的DES加密算法的FPGA实现 总被引：1，自引：1，他引：0

姚霁刘建华范九伦《电子技术应用》2009,35(7)

在传统的DES加密算法的基础上,提出一种对密钥实行动态管理的硬件设计方案,给出了其FPGA实现方法。通过对DES加密原理的分析,利用其子密钥的生成与核心算法相关性较弱的特点,对密钥进行重新配置。DES算法采用资源优先方案,在轮函数内部设置流水线架构,提高了整体处理速度;在FPGA上实现轮函数和密钥变换函数独立运算,减少了相邻流水线级间的逻辑复杂度,从而实现了DES算法在FPGA条件下的重构设计。最终通过对设计结果的功能仿真和测试分析,论证了整个设计的正确性。相似文献

11.

一种新的CMMB系统OFDM调制技术设计与实现方法*

郝禄国陈蕉容刘立程《计算机应用研究》2012,29(1):174-176

研究了CMMB标准第一部分(STiMi子系统)中的OFDM调制技术,提出了一种新的基于FPGA的OFDM调制技术设计与实现方法,并改进了OFDM技术的核心算法IFFT的流水线结构,大大降低了FPGA乘法器的数量,节约了硬件资源。经FPGA实现与验证,该方法能够正确、高效地实现CMMB系统的OFDM调制技术。相似文献

12.

输油管道泄漏监测的自适应数据采集系统

吴先策陈世一江国业周德新《计算机测量与控制》2007,15(1):46-47,55

管道泄漏监测与控制技术已经成为管道安全运行的关键问题,目前人为破坏导致的管道泄漏已占相当的比例;管道在运行过程中有正常的运行噪声和环境因素产生的噪声,也有管道泄漏和在管道上从事破坏活动所产生的噪声;如何实现对不同噪声信号的精确采集,是对管道泄漏点进行准确定位、确保管道安全运行的关键问题;运用现场可编程门阵列(FPGA)所具有的巨大的I/O带宽和高速的运算能力,实现了对噪声监测的自适应数据采集系统设计;系统以FPGA为核心,将数据采集、数据存储处理及数据通信等功能模块集成在一块芯片上,提高了系统的集成度;经过测试证明了系统工作稳定可靠,为利用噪声监测管道泄漏提供了基础. 相似文献

13.

基于多现场可编程门阵列异构平台的流水线技术优化方法

胡延步邵翠萍李慧云《集成技术》2020,9(5):81-92

该研究提出了一种基于多现场可编程门阵列异构平台的流水线技术优化方法。首先,基于二分法思想对任务进行划分,使任务量尽可能均衡地部署在不同现场可编程门阵列单元中,从而提高板级流水线均衡度;其次,针对板间传输延迟进行了流水线结构的优化,在板间延迟较大时,将板间延迟作为流水线的一级可以提高平台吞吐率;最后,并行优化计算单元内部模块,并通过数据关系重排、循环展开、循环流水线等手段充分利用现场可编程门阵列计算资源,提高吞吐率和能效比。采用 AlexNet 网络为例进行的验证结果显示,与优化之前的流水线结构相比,改进后的流水线结构吞吐率提高了 215.6%,能效比提高了 105.5%,单次任务运行时间减少了 36.6%。相似文献

14.

基于CORDIC算法的快速NCO设计

龙翔《计算机与数字工程》2010,38(4):146-149

NCO在软件无线电、数字信号处理等方面有着广泛的应用。函数发生器是NCO中的关键部分,通过FPGA流水线实现了CORDIC算法,可替代传统ROM查找表法。通过对Altera和Xilinx公司的FPGA进行仿真及综合,验证了该设计的正确性及可行性。相似文献

15.

基于CORDIC改进算法的反正切函数在FPGA中的实现

刘小会许蕾刘海颖王惠南《计算机技术与发展》2013,(11):103-107

针对基于FPGA的分布式导航系统中涉及大量的三角函数运算,而传统的查找表或差值法计算,在精度、运算速度方面不能兼得,且占用资源多,文中提出了基于CORDIC算法的反正切函数计算的改进方法与流水线结构的实现方法,使用VHDL硬件描述语言进行编程实现,在QuartusII9．0中对算法进行功能仿真,最后通过Altera公司的FPGA CycloneII系列芯片进行了具体验证。验证结果表明,针对累加器中因截尾而产生的误差所作的算法改进,显著地提高了算法精度,而且运算速度快。相似文献

16.

基于FPGA的H．264变换量化的高性能的硬件实现

下载免费PDF全文

刘海鹰张兆杨沈礼权《中国图象图形学报》2006,11(11):1636-1639

针对H．264视频标准中一个功能频繁调用的变换量化模块，提出了一种高性能的FPGA硬件实现方法。并完成了其硬件原型的设计。该硬件原型包含了从残差形成到宏块重建的变换量化全过程。其可以构成DSP的协处理器，用于完成H．264实时编解码。该硬件原型根据算法特点和数据流特点，采用了流水线控制策略和分时复用技术，同时合理利用FPGA片内资源，从而提高了系统性能。仿真结果表明。该设计能满足高清数字视频的实时处理应用。相似文献

17.

基于FPGA的高性能计算中全局流水的研究

来永华朱聪郑衍衡《计算机工程与设计》2011,32(10):3382-3385,3390

针对FPGA的全局流水进行了研究,采用CPU+FPGA的混合架构,论证了FPGA实现全局流水的优越性:使用FPGA进行全局流水可以在CPU处理过程中减少FPGA等待时间,提高FPGA的利用率;可以减少FPGA与CPU之间的通信量以及程序在CPU端的存储开销;可以均衡CPU负载,使得CPU有空闲时间处理其它任务。用N-Body的FMM算法作为例子,对优越性分别作了分析,并设计了实验方案,实验结果表明了FPGA实现全局流水的优越性。相似文献

18.

An FPGA implementation for real-time edge detection

Jie Jiang Chang Liu Sirui Ling 《Journal of Real-Time Image Processing》2018,15(4):787-797

The Hessian matrix-based edge detection algorithm of Dr. Carsten Steger has the advantages of high accuracy and versatility. However, this algorithm has a complex and time-consuming computation process. Large-scale Gaussian convolution also employs a large number of multipliers when implemented on a field programmable gate array (FPGA). To address these problems, an FPGA implementation for Steger’s edge detection algorithm is proposed. This implementation employs pipeline and parallel architectures at both task and data levels for data stream processing. The original kernels of Gaussian convolution are simplified with box-filter to convert the multiplication operation in the convolution into addition, subtraction, or shift operations with the concept of integral image, thereby minimizing the multiplier resources. The proposed FPGA implementation demonstrates a favorable accuracy and anti-noise capability when dealing with different degrees of blur and noise in an image. Therefore, the FPGA implementation can satisfy real-time edge detection requirements. 相似文献

19.

基于FPGA的实时Hough变换

下载免费PDF全文

商尔科李健安向京史美萍《计算机工程》2010,36(16):161-163

为解决Hough变换实时性差的问题,提出一种基于现场可编程门阵列的实时Hough变换方法。采用分角度映射方法使Hough变换在空间上并行运算。设计一种基于流水线的计算结构,实现Hough空间参数计算与存储的时间并行性。通过双口RAM,在单个时钟内完成参数空间的一次投票操作,提出一种适合在FPGA中实现的快速寻找极值的二次搜索算法。与DSP进行效率对比实验,结果表明该方法效率较高,能满足实时性处理要求。相似文献

20.

Geno:基于代价的异构融合查询优化器

屠要峰陈小强周士俊卞福升吴非陈兵《软件学报》2022,33(3):774-796

新型硬件及其构建的环境改变了传统的计算、存储以及网络体系,也改变了上层软件既往的设计假设,特别是通用处理器和专用加速器组成的异构计算架构,改变了数据库系统的底层框架设计和查询优化的代价模型.数据库系统需要针对新型硬件的特性做出适应性调整,以充分发挥新硬件的潜力.提出一种面向CPU/GPU/FPGA异构计算融合的基于代价... 相似文献