首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
针对卷积神经网络(CNN)在嵌入式端的应用受实时性限制的问题,以及CNN卷积计算中存在较大程度的稀疏性的特性,该文提出一种基于FPGA的CNN加速器实现方法来提高计算速度。首先,挖掘出CNN卷积计算的稀疏性特点;其次,为了用好参数稀疏性,把CNN卷积计算转换为矩阵相乘;最后,提出基于FPGA的并行矩阵乘法器的实现方案。在Virtex-7 VC707 FPGA上的仿真结果表明,相比于传统的CNN加速器,该设计缩短了19%的计算时间。通过稀疏性来简化CNN计算过程的方式,不仅能在FPGA实现,也能迁移到其他嵌入式端。  相似文献   

2.
通过使用ARM ESL工具仿真基于Linux的多媒体系统,提出一种基于多核及计算加速的体系,这种架构可很快地映射到后期芯片设计中.给出了解码系统中IQIT、IP和DB等核心模块的软硬件分配、资源调度、存储分配方案.通过软硬件划分和优化,最终系统能够实时解码多格式多媒体文件.所提出的多媒体加速观点适合于嵌入式系统和PC多核应用,具有一定的普适性.  相似文献   

3.
为实现对多路光栅数据进行高速采集以及远程传输,设计了基于FPGA+ARM架构的光栅数据采集系统.该系统以现场可编程逻辑门阵列(FPGA)实现对多路光栅数据同时进行高速采集、存储和传输,以ARM微处理器为核心,实现数据处理和以太网传输功能,通过对以太网协议栈的移植,实现了与PC端以TCP/IP协议完成以太网通信.通过实验...  相似文献   

4.
本论文针对深度升级网络中的卷积计算的循环特征,分析了当前已有的神经网络加速对于卷积计算的权重做二维并行和三维并行的实现方式,提出了一种新的神经网络加速器(DNNA)设计。本文DNNA合并二维并行和三维并行,并可根据卷积计算的参数特征灵活选择数据流,优化卷积计算的并行效率。本文DNNA对稀疏卷积可以既省略权重零值的计算,还可以均衡MAC算力。本文DNNA通过仿真和FPGA测试验证卷积计算正确性,在Xilinx ZYNQ-7000 FPGA板上,按256个MAC单元+256KByte Buffer实现,约需要27000 LUTs。  相似文献   

5.
《今日电子》2014,(6):71-72
R&S ZNBT多端口网络分析仪频率范围覆盖9kHz到8.5GHz,最基本配置配备4个端口。根据需求可以最多扩展到24端口。该仪器主要针对多端口器件测试,其多端口特性可以使用并行模式,加速生产线测试。相比传统的开关矩阵方案,R&S ZNBT每个端口独立,性能和普通2端口矢网相同。  相似文献   

6.
可重构计算系统成为加速计算密集型应用的重要选择之一.在众多受到关注的计算密集型问题中,矩阵三角化分解作为典型的基础类应用始终处于研究的核心地位,在求解线性方程组、求矩阵特征值等科学与工程问题中有重要的研究价值.本文面向矩阵三角化分解中共有的三角化计算过程,通过分析该过程的线性计算规律,提出一种适于硬件并行实现的子矩阵更新同一化算法及矩阵三角化计算FPGA (Field Programmable Gate Array)并行结构.针对LU矩阵三角化分解在并行结构模板上的高性能实现及优化方法开展了研究.理论分析表明,该算法针对矩阵三角化计算过程具有更高的数据并行性与流水并行性;实验结果表明,与通用处理器的软件实现相比,根据该算法实现的矩阵三角化分解FPGA并行结果在关键计算性能上可以取得10倍以上的加速比.  相似文献   

7.
传感器技术的发展带来了边缘、端设备功能的迅速迭代升级,也带来了战场前端的数据量成倍增长。针对边缘、端设备数据量的急剧增长和芯片计算处理能力的矛盾,结合Map/Reduce框架,提出了一种基于现场可编程门阵列(Field Programmable Gate Array,FPGA)计算集群资源的深度学习架构,能够实现多个深度学习算法的并行快捷部署和应用。该轻量级深度学习计算架构同时满足军事应用对“端”的智能处理能力提出的新要求,即不仅局限于数据采集和智能的应用,还必须具备分布式并行智能实时计算的能力。该FPGA集群轻量级深度学习计算框架部署不同类型算法容易,实时性高(ms级任务响应),可扩展性好,在多种类异构传感器、大场景大数据吞吐量的军事场景及森林防火等民用场景有广泛的应用前景。  相似文献   

8.
现场可编程门阵列(field programmable gate array,FPGA)具有丰富的计算、存储等资源,广泛应用于密码算法、实时通信等高并行、高数据吞吐量、计算复杂的领域。现有的基于FPGA实现ECC点乘的方案,存在计算架构设计并行程度低,计算所需的逻辑资源过大的问题。针对以上问题,提出了一种基于FPGA实现ECC点乘的优化设计。通过采用RAM寻址方式设计出计算架构,并构造了一个流水线状态机,利用FPGA并行计算的优势,多次并行使能调用点加、模加、模乘、模逆算法模块,实现了高效的ECC点乘操作。实验结果表明,所提出的优化设计有效地缩减了FPGA的LUT逻辑资源,并提高了ECC点乘运算的计算速度。  相似文献   

9.
基于Hadoop架构,提出一种并行的决策树挖掘算法实现大数据集间的知识挖掘。通过MapReduce并行编程模式实现Hadoop架构下SPRINT并行挖掘算法的频繁项集,解决了大数据集挖掘效率低下,时间消耗量大的问题。SPRINT算法通过对原始数据集进行划分,并将分块数据发给不同Map进程并行计算,使系统存储和计算资源得到有效利用,运用MapReduce各计算节点将挖掘结果数据汇聚,减少中间结果数据量,使并行挖掘时间显著减少。SPRINT算法并行化实验表明,Hadoop架构下的SPRINT并行挖掘算法具有良好的可扩展性和集群加速比。  相似文献   

10.
通用中央处理器单元(CPU)往往花费大部分资源用于缓存管理和逻辑控制,只有少部分资源用于计算。因此将专用的计算模块例如图形处理单元(GPU)、数字信号处理器(DSP)、现场可编程逻辑门阵列(FPGA)和其他可编程逻辑单元作为加速器加入系统从而构建异构多核系统以增强计算性能的设计方法已经成为趋势。基于此趋势,提出一种面向矩阵计算的加速系统,通过使用自研专用指令集、特别设计的硬件加速器阵列以及存储架构优化实现对矩阵计算的加速。此外,还通过信箱机制实现与其他系统异构集成后的通信操作。通过Python与UVM验证方法学搭建性能验证平台,进行寄存器传输级(RTL)的性能验证。结果表明,在500 MHz工作频率下,方案中子系统的运算性能最高可达到32 GFLOPS,且与单纯使用二维脉动阵列执行加速的协处理器方案相比,通用矩阵乘(GEMM)算子的计算效率提升了12倍。  相似文献   

11.
为促进航空测绘信息获取的数字化、一体化、实时化,本文利用FPGA(Field-Programmable Gate Array,即现场可编程门阵列)并行处理的优势结合ARM处理器低功耗高性能的特点,基于ARM+FPGA的双核硬件架构实现了影像的交互与显示。该系统以Linux操作系统为软件开发平台,以ARM11嵌入式处理器为硬件核心、FPGA作为协处理器,采用FPGA片内FIFO(First Input First Output,即先进先出存储器)作为ARM处理器与FPGA之间的高速通信桥梁,针对Linux 2.6.36内核完成了对FPGA设备的驱动设计,并基于Qt图形用户界面实现了影像的实时显示。测试结果表明,ARM处理器与FPGA之间能够实现VGA(640×480)图像的高速交互,帧率可达26帧/s,最大传输带宽为182Mbps。该系统不仅体积小、功耗低、成本低,而且稳定性好、功能强,能够满足航空遥感摄影系统的实时性要求。  相似文献   

12.
基于现场可编程门阵列(Field Programmable Gate Array, FPGA)实现的卷积神经网络由于具有优秀的目标识别能力,广泛应用在边缘设备。然而现有的神经网络部署多基于静态模型,因此存在无效特征提取、计算量增大、帧率降低等问题。为此,提出了动态深度神经网络的实现方法。通过引入模型定点压缩技术和并行的卷积分块方法,并结合低延迟的数据调度策略,实现了高效卷积计算。同时对神经网络动态退出机制中引入的交叉熵损失函数,提出便于硬件实现的简化方法,设计专用的加速电路。根据所提方法,在Xilinx xc7z030平台部署了具有动态深度的ResNet110网络,平台最高可完成2.78×104 MOPS(Million Operations per Second)的乘积累加运算,并支持1.25 MOPS的自然指数运算和0.125 MOPS的对数运算,相较于i7-5960x处理器加速比达到287%,相较于NVIDIA TITAN X处理器加速比达到145%。  相似文献   

13.
奇异值分解是超分辨测向技术的核心组成部分,现有的并行实现方案适用范围窄,运算量大,迭代时间长.为了满足测向接收机系统的高实时性需求,结合双边Jacobi算法的交换策略和单边Jacobi算法的求角结构,提出了一种改进的实现方法.该实现方法修正了脉动阵列的收敛性问题,提高了复数矩阵的收敛速度.同时,给出了算法的现场可编程门阵列(FPGA)实现结构.仿真结果证明该方案耗时在百微秒以内,能够应用于电子侦察设备.  相似文献   

14.
该文针对粒子滤波计算量大,难以在工程中应用的问题,用拟蒙特卡罗采样(QMC)代替蒙特卡罗采样(MC),减少了运算量。分析并给出了拟蒙特卡罗-高斯粒子滤波(QMC-GPF)算法的并行结构。在该并行结构的基础上,研究了基于FPGA的QMC-GPF的设计与实现。在实现过程中选取2作基数来产生Faure序列,将乘法运算、求模运算简化为便于在FPGA中实现的按位异或运算;采用查找表实现指数函数等复杂函数的计算,充分利用了FPGA中大量的Block RAM资源;给出了Cholesky分解矩阵各元素的并行计算结构。以红外图像弱小目标跟踪实验为例,验证了本设计的有效性和实时性。  相似文献   

15.
Modular exponentiation is the cornerstone computation in public-key cryptography systems such as RSA cryptosystems. The operation is time consuming for large operands. This paper describes the characteristics of three architectures designed to implement modular exponentiation using the fast binary method: the first field-programmable gate array (FPGA) prototype has a sequential architecture, the second has a parallel architecture, and the third has a systolic array-based architecture. The paper compares the three prototypes as well as Blum and Paar's implementation using the time /spl times/ area classic factor. All three prototypes implement the modular multiplication using the popular Montgomery algorithm.  相似文献   

16.
提出了基于复杂可编程逻辑器件(CPLD)的现场可编程门阵列(FPGA)从并加载方案,及逻辑代码的实现过程,并给出仿真结果。该方案理论计算结果表明,当加载SPARTAN-6系列最高端的6SLX150T时,采用基于CPLD的从并加载方式,共需要加载时间为1.221 s,完全满足通信产品的快启动要求,具有较高的应用价值。  相似文献   

17.
As a core component in intelligent edge computing, deep neural networks (DNNs) will increasingly play a critically important role in addressing the intelligence-related issues in the industry domain, like smart factories and autonomous driving. Due to the requirement for a large amount of storage space and computing resources, DNNs are unfavorable for resource-constrained edge computing devices, especially for mobile terminals with scarce energy supply. Binarization of DNN has become a promising technology to achieve a high performance with low resource consumption in edge computing. Field-programmable gate array (FPGA)-based acceleration can further improve the computation efficiency to several times higher compared with the central processing unit (CPU) and graphics processing unit (GPU). This paper gives a brief overview of binary neural networks (BNNs) and the corresponding hardware accelerator designs on edge computing environments, and analyzes some significant studies in detail. The performances of some methods are evaluated through the experiment results, and the latest binarization technologies and hardware acceleration methods are tracked. We first give the background of designing BNNs and present the typical types of BNNs. The FPGA implementation technologies of BNNs are then reviewed. Detailed comparison with experimental evaluation on typical BNNs and their FPGA implementation is further conducted. Finally, certain interesting directions are also illustrated as future work.  相似文献   

18.
文章以嵌入式和数据采集技术为基础,研究设计并实现了基于ARM+FPGA体系架构面向高速实时数据采集应用的一种实用新型智能控制器。本文阐述了主处理器ARM最小系统、协处理器FPGA最小系统和ARM与FPGA通信接口等硬件系统技术的实现,以及Linux FPGA字符设备驱动程序开发、协处理器FPGA控制程序和主处理器ARM应用程序设计。智能控制器运用FPGA并行运算处理结构的优势,控制ADC进行高速数据采集。FPGA还可配置成软核处理器-Nios II嵌入式处理器,与ARM构成双核处理器系统。智能控制器通过ARM实现对FPGA的管理控制、实时数据采集和丰富外围接口的通信。  相似文献   

19.
周黎明 《光电子快报》2010,6(6):446-448
In this paper, a new model based on an improved Brent Kung (BK) parallel prefix network (PPN) algorithm is proposed and realized in the field programmable gate array (FPGA). This model is employed in the implementation of 20 Gb/s differential quadrature phase-shift keying (DQPSK) precoder in 40 Gb/s polarization division multiplex (PolDM) DQPSK system. In the computation process, the computation complexity (area) optimization with fan-out limited is achieved. In the implementation, 770 FPGA slice registers are utilized, which save about 60% logic resources compared with the previous Kogge Stone (KS) algorithm.  相似文献   

20.
JPEG2000并行阵列式小波滤波器的VLSI结构设计   总被引:2,自引:0,他引:2       下载免费PDF全文
兰旭光  郑南宁  梅魁志  刘跃虎 《电子学报》2004,32(11):1806-1809
提出一种基于提升算法实现JPEG2000编码系统中的二维离散小波变换(Discrete Wavelet Transform)的并行阵列式的VLSI结构设计方法.利用该方法所得结构由两个行处理器,一个列处理器以及少量行缓存组成;行列处理器内部是由并行阵列式的处理单元组成;能使行和列滤波器同时进行滤波,用优化的移位加操作替代乘法操作.整个结构采用流水线的设计方法处理,在保证同样的精度下,大大减少了运算量和提高了硬件资源利用率,几乎达到100%,加快了变换速度,也减少了电路的规模.该结构对于N×N大小的图像,处理速度达到O(N2/2)个时钟周期.二维离散小波滤波器结构已经过FPGA验证,并可作为单独的IP核应用于正在开发的JPEG2000图像编解码芯片中.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号