期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘谱光魏子令黄成龙陈曙晖《计算机学报》2023,(12):2687-2704

在数据库、深度学习、高效存储等数据读取性能敏感的应用场景中,数据解压性能对上层应用的服务质量有着重要影响.LZ4无损数据压缩算法具备高速解压特性,因此被广泛应用在高速解压场景中,但其运行需要消耗大量CPU资源.为减少LZ4数据解压开销,学界和业界提出了基于FPGA的LZ4数据解压加速方法 .但现有方法大多采用逐字节顺序处理的计算模式,导致并行度和吞吐率存在较大不足.因此,设计实现高性能LZ4数据解压加速方法成为当前研究亟需解决的关键问题.以LZ4解压的高性能加速为目标,本文研究从多层次对LZ4解压进行并行加速设计,提出了一种基于FPGA加速的高性能LZ4数据解压方法 .首先,本方法研究对LZ4序列解析过程进行并行化改进,设计实现了一个基于多字段并行解析方法的并行化序列解析器,将吞吐率从每周期单字节扩展到每周期多字节.此外,本方法对序列解析器中的高时延长度字段解析逻辑进行优化改进,设计了基于二分法的最大匹配长度快速解析方法,显著减小序列解析器的关键路径时延,使得改进后的设计时钟频率比改进前提高了约21%.其次,基于并行化序列解析器,本方法设计实现了一个高性能数据解压引擎.该引擎将序列解析... 相似文献

2.

基于Zynq7000 FPGA异构平台的YOLOv2加速器设计与实现

《计算机科学与探索》2019,(10):1677-1693

当前,卷积神经网络已在图像分类、目标检测等计算机视觉领域被广泛应用。然而,在前向推断阶段,许多实际应用往往具有低延时和严格的功耗限制。针对该问题,采用参数重排序、多通道数据传输等优化策略,设计并实现了一种基于FPGA的SIMD卷积神经网络加速器架构。以YOLOv2目标检测算法为例,介绍了将卷积神经网络模型映射到FPGA上的完整流程;对加速器的性能和资源耗费进行深入分析和建模,将实际传输延时考虑在内,缩小了加速器理论时延与实际时延的误差;改进了加速器架构中的输入和输出模块,有效提高了总线带宽的实际利用率。实验结果表明,在Zedboard上获得了30.15 GOP/s的性能,与Xeon E5-2620 v4CPU相比,能效是其120.4倍,性能是其7.3倍;与双核ARM-A9 CPU相比,能效是其86倍,性能是其112.9倍。相似文献

3.

基于ZYNQ的卷积神经网络加速器设计

吴健顾明剑曾长紊邵春沅范余茂《计算机工程与设计》2022,43(6):1572-1581

针对卷积神经网络在嵌入式系统需要耗费大量计算资源、计算复杂度高等问题,提出一种基于ZYNQ系列FPGA的加速方法。通过HLS工具对卷积神经网络加速器进行设计,提出相邻层位宽合并和权重参数重排序的策略实现数据传输的优化,利用卷积分解、并行展开充分发挥FPGA并行计算的优势。为验证卷积神经网络加速器的加速效果,将YOLO目标检测模型进行部署。实验结果表明,在PYNQ-Z2上达到了39.39GOP/s的计算性能,是intel i5-2400 CPU的3.4倍,是ARM-Cortex A9 CPU的147.5倍。在相同FPGA平台上与之前的工作相较也有更高的性能。相似文献

4.

高性能人脸识别加速器优化设计及FPGA实现

下载免费PDF全文

吴进张伟华席萌代巍《计算机工程与应用》2020,56(22):48-54

计算机视觉的快速发展对嵌入式产品的系统性能要求越来越高,传统的现场可编程门阵列（Field Programmable Gate Array,FPGA）平台存在计算吞吐未能很好匹配内存带宽,通用处理器对卷积神经网络（Convolutional Neural Network,CNN）的实现效率不高,未能满足性能要求等问题。针对以上设计瓶颈,使用经典的LeNet-5神经网络模型,在Xilinx ZC706嵌入式开发平台上设计了一个高性能的人脸识别神经网络加速器,在高层次综合（High Level Synthesis,HLS）工具的基础上通过存储优化、定点量化、运算优化等方法对神经网络模型进行优化改进,实现了7层的CNN加速器。实验结果表明,CNN加速器的工作频率为200 MHz,相较于CPU,加速器实现了126倍加速,相较于GPU速度提升10倍以上,并且功耗仅为2.62 W。相似文献

5.

基于Virtex 系列FPGA的可编程嵌入式信号处理背板的开发设计 总被引：4，自引：1，他引：3

徐欣卢启中《电子技术应用》2000,26(11):64-66

介绍了基于Ｖｉｒｔｅｘ系列ＦＰＧＡ和ＴＭＳ３２０Ｃ４０ＤＳＰ的可编程通用信号处理背板的设计和制作;并对Ｖｉｒｔｅｘ系列ＦＰＧＡ的性能和特点进行了分析;同时还叙述了可编程通用信号处理背板的调试;最后给出了背板应用开发实例。相似文献

6.

基于FPGA的高性能网络报文分类算法研究

彭鼎祥《信息与电脑》2022,(21):91-94

随着网络带宽和报文转发线速的快速增长,报文分类成为各种网络应用中的关键技术。早期的报文分类算法无法满足大规模规则集和高吞吐量的需求,因此提出一个启发式高效比特选择报文分类算法,采用局部最优策略动态选择比特来建立决策树,无需复制规则,能够节省存储资源。同时,基于该算法并结合硬件特性设计了一种基于现场可编程逻辑门阵列（Field Programmable Gate Array,FPGA）的多流水线架构分类器。实验结果表明,基于单片FPGA可以对64字节报文数据包实现超过400 Gb/s的吞吐量,并且支持128 000条五元组规则集。相似文献

7.

基于DSP和FPGA的导航计算机设计

郭韶华吴秋平马让奎陈景春《微计算机信息》2012,(4):51-53

介绍了一种基于数字信号处理器(DSP)和现场可编程门阵列(FPGA)的导航计算机设计,其中DSP专注于导航解算,FP-GA负责微惯性测量单元(IMU)和全球定位系统(GPS)等数据的采集,缓存以及与其它模块的通信。利用FPGA的可重复编程配置和高速并行处理能力,扩展了多路串行通信接口,并在其内部采用异步FIFO存储结构解决了采样信号和DSP之间的跨时钟域传输的问题。系统试验结果说明该导航计算机具有集成度高,功耗低,工作性能可靠的特点。相似文献

8.

基于FPGA的直接数字频率合成器的设计和实现 总被引：17，自引：0，他引：17

周俊峰陈涛《电子技术应用》2002,28(12):74-75

介绍了利用Altera的FPGA器件(ACEXEP1K50)实现直接数字频率合成器的工作原理、设计思路、电路结构和改进优化方法。相似文献

9.

基于DSP和FPGA的通用型伺服控制器设计 总被引：1，自引：0，他引：1

王智慧袁梅《测控技术》2005,24(11):33-35,37

介绍了一种采用浮点型DSP和FPGA芯片设计的高性能伺服控制器,详细讨论了其硬件和软件设计方案.DSP强大的数据处理能力与FPGA的设计灵活性相结合,使该控制器适用于多种应用场合,尤其是采用复杂控制算法的高速、高精度同步控制系统. 相似文献

10.

FPGA加速深度学习综述

刘腾达朱君文张一闻《计算机科学与探索》2021,15(11):2093-2104

近年来,由于互联网的高速发展和大数据时代的来临,人工智能随之大热,而推动人工智能迅猛发展的正是深度学习的崛起.大数据时代需要迫切解决的问题是如何将极为复杂繁多的数据进行有效的分析使用,进而充分挖掘利用数据的价值并造福人类.深度学习作为一种实现机器学习的技术,正是解决这一问题的重要法宝,它在处理数据过程中发挥着重要作用并且改变了传统的机器学习方法,已被广泛应用于语音识别、图像识别和自然语言处理等研究领域.如何有效加速深度学习的计算能力一直是科研研究的重点.FPGA凭借其强大的并行计算能力和低功耗等优势成为GPU在加速深度学习领域的有力竞争者.从深度学习的几种典型模型出发,在FPGA加速技术现有特点的基础上从针对神经网络模型的加速器、针对具体问题的加速器、针对优化策略的加速器和针对硬件模板的加速器四方面概括总结了FPGA加速深度学习的研究现状,然后对比了不同加速技术和模型的性能,最后对未来可能发展的方向进行了展望. 相似文献

11.

TLP-LDPC: Three-Level Parallel FPGA Architecture for Fast Prototyping of LDPC Decoder Using High-Level Synthesis

下载免费PDF全文

Yi-Fan Zhang Lei Sun Qiang Cao 《计算机科学技术学报》2022,37(6):1290-1306

Low-Density Parity-heck Codes (LDPC) with excellent error-correction capabilities have been widely used in both data communication and storage fields, to construct reliable cyber-physical systems that are resilient to real-world noises. Fast prototyping field-programmable gate array (FPGA)-based decoder is essential to achieve high decoding performance while accelerating the development process. This paper proposes a three-level parallel architecture, TLP-LDPC, to achieve high throughput by fully exploiting the characteristics of both LDPC and underlying hardware while effectively scaling to large-size FPGA platforms. The three-level parallel architecture contains a low-level decoding unit, a mid-level multi-unit decoding core, and a high-level multi-core decoder. The low-level decoding unit is a basic LDPC computation component that effectively combines the features of the LDPC algorithm and hardware with the specific structure (e.g., Look-Up-Table, LUT) of the FPGA and eliminates potential data conflicts. The mid-level decoding core integrates the input/output and multiple decoding units in a well-balancing pipelined fashion. The top-level multi-core architecture conveniently makes full use of board-level resources to improve the overall throughput. We develop an LDPC C++ code with dedicated pragmas and leverage HLS tools to implement the TLP-LDPC architecture. Experimental results show that TLP-LDPC achieves 9.63 Gbps end-to-end decoding throughput on a Xilinx Alveo U50 platform, 3.9x higher than existing HLS-based FPGA implementations. 相似文献

12.

A Survey on Performance Optimization of High-Level Synthesis Tools

下载免费PDF全文

Huang Lan Li Da-Lin Wang Kang-Ping Gao Teng Tavares Adriano 《计算机科学技术学报》2020,35(3):697-720

Journal of Computer Science and Technology - Field-programmable gate arrays (FPGAs) have recently evolved as a valuable component of the heterogeneous computing. The register transfer level (RTL)... 相似文献

13.

一种基于FPGA的高速自整角机数字解算方法

孟华赵姣《传感器与微系统》2007,26(8):35-37,40

自整角机是广泛应用于轴角测量系统中一种非常重要的测量元件,现场可编程逻辑门阵列(FP-GA)技术近几年的发展使得利用硬件描述语言实现信号的快速实时处理成为可能。设计采用Spartan-3系列的XC3S400芯片,根据自整角机输出信号的特点和角度测量原理,利用Verilog HDL语言编程完成控制逻辑和自整角机角信息的解算。应用坐标旋转数字计算机(CORDIC)算法在FPGA中实现了反正切函数的计算,并引入改进的CORD IC算法以提高运算速度,节省硬件资源。经过测试,达到0.01°的轴角解算精度,角度解算区间达到[-360°,360°],并且,在不同的角度偏移量和不同的轴初始位置情况下都能获得满意的结果。相似文献

14.

基于FPGA的并行DDS

周国富《电子技术应用》2007,33(10):41-43

介绍一种提高直接数字合成器(DDS)系统时钟频率的并行处理方法。给出了一个基于现场可编程门阵列(FPGA)的具有400MHz系统时钟频率DDS电路的实现方法和实验测试结果。采用直接中频输出方式,输出频率范围250MHz～350MHz,频率分辨率6Hz,寄生信号抑制50dB。该DDS电路具有接口简单、使用灵活等优点,可用于雷达、电子战领域的宽带信号产生。相似文献

15.

捷联式惯导系统中加速度计的数据采集 总被引：5，自引：0，他引：5

李绪友梁辉邹继斌《传感器与微系统》2005,24(6):20-22

详细分析研究了加速度计的数据采集方法,采用大规模可编程门阵列(FPGA)实现可编程高精度A/D转换器的初始化和数据读取,提高了系统的集成度和稳定性,实现了捷联惯导系统数据的快速采集,数据采集精度为2×10-5gn。相似文献

16.

FPGA在高速实时信号采集系统中的应用

韩国荣吴长瑞张新胜《测控技术》2012,31(5):60-62

高速实时信号采集系统是由高性能ADC、FPGA和QDRⅡSRAM等组成。其中高性能ADC实现模数转换,FPGA与QDRⅡSRAM实现ADC信号的接收、数据重组、存储和传输。重点讲述了FPGA如何接收采样率为2 GS/s的高速ADC数据并保持一定的时序裕量,并通过分析FPGA中资源占用情况可以看到FPGA在高速实时信号采集系统中具有很大的优势。相似文献

17.

基于可编程数据平面的PFC算法实现

耿俊杰颜金尧《计算机技术与发展》2021,(1):116-121

当前高吞吐量、超低延迟的高性能无损数据中心网络成为研究的热点.传统TCP/IP协议是为广域网设计的,在高速网络条件下(特别是随着10 Gb/s的网络接口的普及)会存在I/O瓶颈问题;远程直接数据存取技术RDMA(remote direct memory access)是为了解决网络传输中终端主机的数据处理延迟、降低CP... 相似文献

18.

体系结构内可编程数据平面方法

马久跃余子濠包云岗孙凝晖《计算机研究与发展》2017,54(1):123-133

随着互联网与云计算的发展,越来越多的应用被从本地迁移到云端,这些应用最终被运行在共享的数据中心.受到数据中心应用复杂并且需求多变特征的影响,传统体系结构中的部分硬件部件(如共享末级缓存、内存控制器、I/O控制器等)固定功能的设计不能很好地满足这些混合多应用的场景需求.为满足这类应用场景的需求,计算机体系结构需要提供一种可编程硬件机制,使得硬件功能能够根据应用需求的变化进行调整.提出了一种可编程数据平面方法：通过在现有硬件部件中增加可编程处理器,使用执行固件代码的方式对硬件的请求进行处理,并通过更新数据平面处理器固件的方式实现硬件功能的扩展.该方法在FPGA原型系统中进行验证,其结果表明,该方法并没有给系统性能带来严重的影响,只使用有限的资源即可为硬件增加更为灵活的可编程能力,使其能够适应应用需求复杂多变的场景. 相似文献

19.

基于FPGA的高速高质量图像旋转 总被引：7，自引：1，他引：7

李开宇张焕春经亚枝《中国图象图形学报》2004,9(3):285-289

为了进行高质量、高速的图像旋转变换 ,通过对传统图像旋转矩阵的分解 ,将图像在二维空间中的旋转运算分解成为三次一维空间内的平移运算 ,从而将用于图像旋转运算的二维插值运算简化为在一维空间中进行的一维插值运算。为了保证图像旋转后的质量 ,采用 3阶 B-样条对每次平移后像素点的灰度值进行插值运算 ,并提出了一种基于 IIR和 FIR数字滤波器的 3阶 B-样条插值法的高速实现方案 ;最后针对 2 5 6灰度级 ,2 5 6× 2 5 6像素的图像设计出一种基于 FPGA的高速、高质量的硬件图像旋转及显示系统相似文献

20.

An FPGA-based accelerator for Fourier Descriptors computing for color object recognition using SVM

Fethi Smach Johel Miteran Mohamed Atri Julien Dubois Mohamed Abid Jean-Paul Gauthier 《Journal of Real-Time Image Processing》2007,2(4):249-258

相似文献