首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
核心循环到粗粒度可重构体系结构的流水化映射   总被引:5,自引:0,他引:5  
粗粒度可重构体系结构为数据密集型应用提供了灵活性和高效的解决方法,而应用中的核心循环消耗了程序的大量执行时间,满足核心循环在CGRAs上实现的性能/开销的严格约束仍旧是个重大难题.针对已有工作在研究映射核心循环到CGRAs上的不足,文中提出一种新颖的核心循环自动流水映射到粗粒度可重构体系结构上的方法.文中形式化了核心循环到CGRAs的流水映射问题,阐述了CGRAs的资源共享和流水方法,定义了其循环自流水CGRAs体系结构模板,并给出核心循环流水映射方法.实验结果表明,与已有的先进的方法相比,文中方法的资源占用率降低16.3%、吞吐量提高169.1%.  相似文献   

2.
循环流水技术运用于粗粒度可重构体系结构可带来显著性能提升.循环控制、流水线同步和存储器有效利用是其中的关键问题.文中介绍了在粗粒度可重构体系结构LEAP上循环自主流水化的硬件实现.该方法基于支持循环迭代自动调度的控制部件、数据驱动ALU和可配置静态交换路由.利用动态调度循环中操作的优势,LEAP可发掘更高的程序并行度;分布式存储访问和高效数据重用则提高了带宽利用率.实验结果表明,相对于通用处理器,LEAP有13.08~535.65倍的性能提升.  相似文献   

3.
为挖掘可重构处理器的内在并行性,需要编译器通过分析程序的并行性来决定可重构处理器硬件最好的执行模式。为此,提出一种基于可重构处理器的并行优化算法。将有向无环图的并行计算部分映射到可重构处理器上,对任务实现3个不同层次的并行性(指令级并行、循环级并行、线程级并行)。测试结果表明,该算法使得可重构处理器在处理任务时比未用并行优化算法的性能提升1.2倍左右。  相似文献   

4.
图形处理器(GPU)的高性价比吸引了越来越多的科学计算.和图形应用相比,科学计算程序存在纷杂的数据依赖和不规则访问,影响其在GPU上的执行性能.为此,提出一种面向GPU体系结构的程序重构方法.通过计算重构增大程序的可并行性和计算密集性,改善GPU上计算资源的利用率.通过数据重构消除程序中的不规则数据访问,使用向量数据类型提高程序的存储带宽.实验结果表明:文中提出的优化方法减少了程序在GPU上的执行时间,获得了1.17 ~8.91倍的加速比.  相似文献   

5.
面向应用的可重构编译器ASCRA(英文)   总被引:1,自引:0,他引:1       下载免费PDF全文
在很多应用领域已经开展了可重构计算的研究,但是由于缺乏高层设计工具,设计者需要较深的软件和硬件专业知识才能开发GPP/RAU架构的程序,阻碍了其大规模应用。提出了一种面向应用的可重构编译器——ASCRA的初始架构,它可以自动将C语言映射为VHDL语言,从而解决可重构计算中自动编译工具的瓶颈。ASCRA编译器主要研究软硬件划分技术和面向硬件的优化技术,如脉动阵列、循环流水技术。在ML505开发平台上,设计实现了ASCRA编译器的验证平台,并通过实验给出了核心程序段生成VHDL代码的综合信息。  相似文献   

6.
徐涛 《测控技术》2016,35(11):70-76
提出一种数据Cache片上可重构存储系统,将程序不同阶段利用率低的数据Cache配置为SPM(scratch-pad memory),将访问频繁/冲突严重的数据页映射到SPM,动态降低能耗.在数据Cache要求提高时,再将SPM配置为Cache,提高Cache命中率.利用程序基本块向量法监测、区分程序不同阶段,建立数据Cache数学模型,基于程序运行阶段和时间域分割的Cache相变图统计数据页使用情况,决定放入SPM的数据页.仿真实验结果显示,采用所提出的片上可重构存储系统后,8KB4、16KB4和32KB4路关联Cache,平均能耗分别降低10.15%、11.35%和12.45%,系统性能明显提升.  相似文献   

7.
李文君  杭德全  张果 《计算机工程》2010,36(22):283-285
提出一种可以减少数据传输量的调度算法RDMS。通过在调度过程中综合考虑任务中数据的关联性、硬件任务的资源利用率及内部任务之间的通信量,采用动态编程方法,减少微处理器和FPGA可重构协处理器之间的通信量及FPGA可重构资源的消耗。实验结果表明,RDMS能提高映射在FPGA器件上硬件任务的整体性能,有效降低通信开销和重构开销。  相似文献   

8.
为解决杂凑算法在粗粒度可重构阵列上的映射问题,通过对杂凑算法的特征分析,为提高映射的能效,采用空间展开操作并行的映射手段;针对某一操作在映射时往往存在多种候选方案难以选取最佳方案的情况,提出一种优先级决策机制,对5种开销值进行优先级排序,选择出最佳方案.在阵列芯片上对多种典型杂凑算法的映射结果进行实测分析,相较于其它不同决策机制的映射方法,该映射方法在能效上提升了约10% ~20%,具有良好的能效特性.  相似文献   

9.
在序列密码算法中,反馈移位寄存器的操作使用频率高且移位位宽和反馈网络灵活多变,针对目前还没有一个通用可配置,支持不同规模的移位寄存器实现方法。本文利用通用可重构处理器基本运算单元数据流和控制流可配置的特点,充分挖掘移位寄存器中并行流水潜力,在通用可重构处理器上,设计反馈移位寄存器的四种不同实现方案,并对算子在通用处理器以及可重构处理器模型上进行性能对比分析。实验表明,运用可重构的方法实现A5密码算法中的反馈移位寄存器效率较Intel ATOM230处理器提高12.6倍,最后在考虑可重构处理器资源制约的条件下,对反馈移位寄存器的实现方法进行优化讨论。  相似文献   

10.
流水线配置技术在可重构处理器中的应用   总被引:1,自引:1,他引:0       下载免费PDF全文
提出一种应用于可重构处理器中的流水线配置技术,能够有效减低配置时间,提高应用程序的执行速度。可重构处理器包括通用处理器和一个粗颗粒度的可重构阵列。可重构阵列将处理应用中占据大量执行时间的循环,这些循环将被分解为不同的行在阵列上以流水线的方式执行。该技术在FPGA验证系统上得到了验证。验证的应用包括H.264基准中的整数离散余弦变换和运动估计。相比传统的可重构处理器PipeRench, MorphoSys以及TI的DSP TMS320DM642有大约3.5倍的性能提升。  相似文献   

11.
嵌入式系统具有计算能力较弱和用途专一的特点,从而限制了其图形图像的处理能力。将可重构计算思想应用到嵌入式系统中,设计一种嵌入式可重构显示适配器,兼有软件灵活和硬件高效的特点。以BMP图像显示功能为例,在Xilinx公司的FPGA开发板上实现一个原型系统,介绍具体的设计细节,验证技术可行性。该设计为将来可重构音视频处理提供了重要的技术基础。  相似文献   

12.
介绍了可重构信息处理的概念, 目前的发展状况以及几种可 重构处理的方法和器件,最后对可重构处理的发展进行了简要的展望。  相似文献   

13.
随着多种视频编解码标准和视频算法的提出,视频处理器高效性和灵活性显得更为重要。针对视频阵列处理器中数据加载速率与阵列处理单元处理不匹配的问题,通过对视频编解码标准算法的分析,深度挖掘数据访存冗余和传输的特点,在可编程可重构体系结构下,设计了支持灌入和Cache两种工作模式的数据加载电路,并进行了功能仿真和FPGA验证。结果表明,该电路能够满足1080P视频处理对数据加载的要求,采用Desgin Compiler在SMIC 0.13μm CMOS工艺标准单元库下综合,频率可达197 MHz。  相似文献   

14.
基于可重构的高速并行数据采集系统的设计与实现   总被引:1,自引:0,他引:1       下载免费PDF全文
本文介绍了一种基于可重构技术的高速并行数据采集系统的设计方案及实现方法。系统每个采集通道由一组A/D和双端RAM组成,多个采集通道模块组成多通道全并行采集系统;采用Altera公司的现场可编程门阵列(FPGA)EP1C6-8和软核CPU为数据处理与控制核心,异步双端RAM为数据缓冲区,USB控制器为CY7C68013。采集系统使数据采集、数据处理、数据传输并行执行,同时系统具有较强的容错能力。本文描述了设计方案的硬件和软件实现,实验表明系统具有高速、实时、能耗低、容错强等特点。  相似文献   

15.
分块存储的滑动窗口数据重用技术   总被引:1,自引:0,他引:1  
刘陶刚  赵荣彩  姚远  瞿进 《计算机应用》2010,30(5):1371-1375
滑动窗口操作在基于可重构系统的典型应用(如图像处理、模式识别和数字信号处理等)中广泛采用,但是当前生成的滑动窗口电路,存在着存储冗余、操作等待等问题,导致执行效率不高。从增大滑动窗口数据吞吐量出发,提出了分块存储的滑动窗口数据重用方法,通过并行存取窗口数据,来减少存储器访问时间,加速滑动窗口执行。实验表明,在三个滑动窗口典型应用实例中,采用该方法生成的硬件电路能够将程序性能分别提高7.0~9.0倍。  相似文献   

16.
Reconfigurable computing tries to achieve the balance between high efficiency of custom computing and flexibility of general-purpose computing. This paper presents the implementation techniques in LEAP, a coarse-grained reconfigurable array, and proposes a speculative execution mechanism for dynamic loop scheduling with the goal of one iteration per cycle and implementation techniques to support decoupling synchronization between the token generator and the collector. This paper also introduces the techniques of exploiting both data dependences of intra- and inter-iteration, with the help of two instructions for special data reuses in the loop-carried dependences. The experimental results show that the number of memory accesses reaches on average 3% of an RISC processor simulator with no memory optimization. In a practical image matching application, LEAP architecture achieves about 34 times of speedup in execution cycles, compared with general-purpose processors. Supported by the National Natural Science Foundation of China (Grant No. 60633050, 60621003) and the National High Technology Research and Development Program of China (Grant No. 2007AA01Z06)  相似文献   

17.
根据重构系统的需要,提出了一种适合动态可重构系统的混合调度映射算法。采用图分割理论的方式对任务进行描述,并建立了动态可重构模式。该算法是一种在可重构硬件平台上多核应用的混合调度映射算法,即将每一个应用程序看作一个程序核,利用程序核之间的相关信息,尽可能减少可重构造成的系统时间开销。实验结果证明,所提出的算法能够有效地完成图分割到可重构系统的时空映射,与其他算法相比性能较高。  相似文献   

18.
互连网络是高性能计算系统和数据中心的核心组件之一,也是决定其系统整体性能的全局性基础设施。随着高性能计算、云计算和大数据技术的迅速发展,传统的电互连网络在性能、能耗和成本等方面无法满足高性能计算应用和数据中心业务的大规模可扩展通信需求,面临着严峻的挑战。为此,近年来相关研究者提出了多种面向高性能计算和数据中心的可重构的光互连网络结构。首先阐明了光互连网络相对于电互连网络的优势;然后介绍了几种典型的可重构光互连网络体系结构,并对其特点进行了分析比较;最后探讨了可重构光互连网络的发展趋势。  相似文献   

19.
针对卷积神经网络(CNN)模型中大量卷积操作,导致网络规模大幅增加,从而无法部署到嵌入式硬件平台,以及不同粒度数据与底层硬件结构不协调导致计算效率低的问题,基于项目组开发的可重构阵列处理器,面向支持多种位宽的运算单元,通过软硬件协同和可重构计算方法,采用KL(Kullback-Leibler)散度自定义量化阈值和随机取整进行截断处理的方式,寻找参数定长的最佳基点位置,设计支持多种计算粒度并行操作的指令及其卷积映射方案,并以此实现三种不同位宽的动态数据量化。实验结果表明,将权值与特征图分别量化到8 bit可以在准确率损失2%的情况下将模型压缩为原来的50%左右;将测试图像量化到三种位宽下进行硬件测试的加速比分别达到1.012、1.273和1.556,最高可缩短35.7%的执行时间和降低56.2%的访存次数,同时仅带来不足1%的相对误差,说明该方法可以在三种量化位宽下实现高效率的神经网络计算,进而达到硬件加速和模型压缩的目的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号