首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
来永华  朱聪  郑衍衡 《计算机工程与设计》2011,32(10):3382-3385,3390
针对FPGA的全局流水进行了研究,采用CPU+FPGA的混合架构,论证了FPGA实现全局流水的优越性:使用FPGA进行全局流水可以在CPU处理过程中减少FPGA等待时间,提高FPGA的利用率;可以减少FPGA与CPU之间的通信量以及程序在CPU端的存储开销;可以均衡CPU负载,使得CPU有空闲时间处理其它任务。用N-Body的FMM算法作为例子,对优越性分别作了分析,并设计了实验方案,实验结果表明了FPGA实现全局流水的优越性。  相似文献   

2.
提升小波算法的FPGA硬件实现   总被引:1,自引:0,他引:1  
讨论了提升小波变换的原理及特点,并提出了一种基于现场可编程门阵列器件FPGA实现提升小波算法的方案,该方案与基于传统的卷积方法实现相比,可以减小硬件实现面积,并利用插入流水线寄存器的方法,缩短关键路径,提高运算速度.  相似文献   

3.
近年来,由于互联网的高速发展和大数据时代的来临,人工智能随之大热,而推动人工智能迅猛发展的正是深度学习的崛起.大数据时代需要迫切解决的问题是如何将极为复杂繁多的数据进行有效的分析使用,进而充分挖掘利用数据的价值并造福人类.深度学习作为一种实现机器学习的技术,正是解决这一问题的重要法宝,它在处理数据过程中发挥着重要作用并且改变了传统的机器学习方法,已被广泛应用于语音识别、图像识别和自然语言处理等研究领域.如何有效加速深度学习的计算能力一直是科研研究的重点.FPGA凭借其强大的并行计算能力和低功耗等优势成为GPU在加速深度学习领域的有力竞争者.从深度学习的几种典型模型出发,在FPGA加速技术现有特点的基础上从针对神经网络模型的加速器、针对具体问题的加速器、针对优化策略的加速器和针对硬件模板的加速器四方面概括总结了FPGA加速深度学习的研究现状,然后对比了不同加速技术和模型的性能,最后对未来可能发展的方向进行了展望.  相似文献   

4.
详细分析快速多极算法FMM(Fast Multipole Method)的基本原理,并对引力场的势函数的多极展开和泰勒局部展开进行了详细的推导.给出了串行FMM算法的伪码描述,并对其进行并行化分析、处理,对FMM算法进行了并行化研究.最后,在基于MPI的群集并行计算环境下进行大量的实验并采集实验数据,对算法进行并行化性能分析,得到较好的并行加速比和较高的并行效率.  相似文献   

5.
为提高计算多体问题的效率,通过分析多体问题的典型算法FMM(fast multiple method)的计算特点,提出运用CPU和加速部件FPGA构成混合部件计算其近程作用的方案。重点研究混合计算模型上的近程计算特性和优化策略,从计算、通信和存储多方面分析近程计算,提出分层按块的数据准备策略,及在该策略中修改FMM空间编码方式,使近程计算更好地适应于混合模型,从而提高整个FMM算法的执行效率。实验结果表明了该数据准备策略和采用的空间编码方式的可行性和高效性。  相似文献   

6.
关于快速多极算法FMM的几点注解   总被引:1,自引:0,他引:1  
详细分析快速多极算法FMM,对引力场的势函数进行了详细的多极展开和泰勒局部展开的推导过程,并在此基础上分析和推导了引力势的两种展开式的截断误差,讨论了FMM的误差收敛情况,说明了FMM的误差可由截断次数p进行控制.  相似文献   

7.
FFT实时谱分析系统的FPGA设计和实现   总被引:7,自引:0,他引:7  
采用按时间抽选的基4原位算法和坐标旋转数字式计算机(CORDIC)算法实现了一个FFT实时谱分析系统。整个设计采用流水线工作方式,保证了系统的速度,避免了瓶颈的出现;整个系统采用FPGA实现,实验表明,该系统既有DSP器件实现的灵活性又有专用FFT芯片实现的高速数据吞吐能力,可以广泛地应用于数字信号处理的各个领域。  相似文献   

8.
GrΦstl是继承MD迭代结构和沿用AES压缩函数的SHA-3候选算法。目前的研究只针对GrΦstl算法的一种或两种参数版本进行实现,并没有针对GrΦstl四种参数版本的设计,缺少灵活性。在分析GrΦstl算法的基础上,采用可重构的设计思想,在FPGA上实现了GrΦstl四种参数版本。实验结果表明,在Xilinx Virtex-5 FPGA平台上,四参数可重构方案的面积为4279 slices,时钟频率为223.32 MHz,与已有的实现方法相比,具有面积小、时钟频率高及灵活性等优点。  相似文献   

9.
介绍了利用Altera公司的StratixGX系列FPGA器件实现POS-PHYLevel4接口协议的工作原理、设计思想和电路结构,并详细讨论了一种计算128位数据的4位对角交叉奇偶校验码DIP-4的适合硬件实现的算法,该算法在实际应用中功能正确且实现简单方便。  相似文献   

10.
随着数字信号处理和集成电路技术的发展,直接数字频率合成(DDS)的应用越来越广泛。DDS具有相位和频率分辨率高、稳定度好、频率转换时间短、输出相位连续、可以实现多种数字与模拟调制的优点,而可编程门阵列(FPGA)具有集成度高、通用性好、设计灵活、编程方便、可以实现芯片的动态重构等特点,因此可以快速地完成复杂的数字系统。由于模拟调相方法有生产性差、调试不方便、调制度控制不精确等缺点,因此采用数字方法实现各种模拟调制也越来越普遍。现在许多DDS芯片都直接提供了实现多种数字调制的功能,实现起来比较简单。  相似文献   

11.
傅丽丽  曾国荪 《计算机科学》2010,37(11):302-306
N体问题是一个经典动力学问题,在多个领域得到广泛的应用。但随着规模的增大,对求解计算性能的要求成为其研究的主要障碍。当前,FPGA可重构技术由于具有硬件可编程结构和高度并行处理能力而成为高性能计算关注的热点。现以FPGA加速求解N体问题为例,阐述一种新型的求解计算密集型任务的方法。  相似文献   

12.
若干并行计算模型上的N体问题求解算法   总被引:1,自引:0,他引:1  
从在实际中广泛应用的N体问题入手,研究如何在几种实际的并行计算模型(PRAM、APRAM、BSP、LogP、NHBL)上设计具体的并行算法;给出了这些模型上的并行算法的设计模式,分析不同模型上算法的性能,比较各个模型上算法设计风格以及算法性能的差异,并对这些并行计算模型做一个综合的评价。  相似文献   

13.
研究了 CDMA2000 1x EVDO 系统一种支持 VideoStream 业务的调度算法及 FPGA 实现;通过大量研究和设计,得到一种能保证性能和速度,叉适合硬件实现的调度算法。综合时选用 Altera 公司的 StratixⅡ系列 EP2S60F484C4芯片,并通过功能仿真验证了硬件实现的可行性和正确性。  相似文献   

14.
多核集群的层次化并行编程模型一直是高性能计算的研究热点。以SMP集群为例,从硬件上可分为节点间和节点内的两层架构。阐述了层次化并行编程的实现技术,针对N体问题算法进行了基于Hybrid并行编程模型的并行化研究。提出了一种块同步MPI/OpenMP细粒度N体问题的优化算法。基于曙光TC5000A集群,将该算法与传统的N体并行算法进行了执行时间与加速比的比较,得出了几句总结性具体论述。  相似文献   

15.
基于双线性算法的定标器及其FPGA实现   总被引:1,自引:1,他引:0  
在视频显示系统中,定标器(scaler)起着匹配视频输出设备和视频显示设备之间的显示分辨率的作用,它直接影响了图像缩放之后的显示效果。本文采用双线性插值(bilinear interpolation)算法,在FPGA上实现了定标器,最后给出了验证平台和方法,结果表明所设计的定标器有效并且显示效果良好。  相似文献   

16.
基于FPGA的透视投影变换算法的设计与实现   总被引:1,自引:1,他引:0  
在阐述了嵌入式地形三维显示系统的透视投影变换算法的基础上,着重论述了基于FP-GA设计实现透视投影变换算法的方法,并在XILINX公司的SPARTANXC3S500E上实现了本算法的基本功能。实验数据表明该硬件算法系统具有实时性高和时间开销低等优点。  相似文献   

17.
研究一种改进的低复杂度复数滑动离散余弦变换(DCT)最小均方(LMS)自适应算法,并设计该算法的FPGA实现结构。在常规LMS算法的输入端前添加改进的滑动DCT,降低输入信号之间的关联性,提高自适应算法收敛速度。改进的滑动DCT算法针对硬件实现进行了优化,提高其在硬件实现中稳定性和精度。给出算法在FPGA实现框图、结果和Matlab仿真结果的对比,以及算法在FPGA中的资源使用。算法已经在实际工程中应用,效果远优于常规LMS自适应算法。  相似文献   

18.
本文提出了基于FPCA正码速调整的设计方案,采用格雷码对地址编码的异步FIFO设计,并利用MAXPLUS Ⅱ进行编译和仿真.结果表明,设计方法切实可行.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号