期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《计算机测量与控制》2014,(3):869-871

作为嵌入式处理器的关键部件,片上Cache的功耗能占到整个处理器功耗的50%以上;一个设计良好的片上数据存储单元能有效降低处理器功耗,并且提高整个系统的性能;便签式存储器(Scratchpad memory,SPM)具有占用片上面积少、功耗低和访问时延确定等优点,因此成为嵌入式系统领域的研究热点;以SPM为基础,介绍了一种动态可配置片上数据存储单元的设计方法,并提出SPM操作函数,方便应用程序开发;实验结果表明,该片上数据存储单元能耗降低超过35%,测试程序运行时间平均减少了20.3%。相似文献

2.

基于不完全算法的并行FPGA SAT求解器

黎铁军马柯帆张建民《计算机工程与科学》2021,43(12):2126-2130

可满足性问题是计算机理论与应用的核心问题。在FPGA上提出了一个基于不完全算法的并行求解器pprobSAT+。使用多线程的策略来减少相关组件的等待时间,提高了求解器效率。此外,不同线程采用共用地址和子句信息的数据存储结构,以减少片上存储器的资源开销。当所有数据均存储在FPGA的片上存储器时,pprobSAT+求解器可以达到最佳性能。实验结果表明,相比于单线程的求解器,所提出的pprobSAT+求解器可获得超过2倍的加速比。相似文献

3.

基于FPGA的CNN图像识别加速与优化

齐延荣周夏冰李斌周清雷《计算机科学》2021,48(4):205-212

目前,CNN已广泛应用于许多应用场景中,包括图像分类、语音识别、视频分析、文档分析等。由于CNN计算密集,常以GPU进行加速,但GPU功耗高,不适用于CNN推理阶段。基于此,文中研究了基于FPGA的CNN图像识别加速与优化的应用方法,利用Intel FPGA提供的OpenCL SDK,在FPGA板卡上设计并优化了CNN前向模型。首先,针对计算量问题,通过功能模块划分,充分发挥FPGA的高计算效能优势。其次,优化核心算法,提高运行速度;分析特征图处理操作,利用参数共享策略降低数据存储量;采用通道传输数据,减少访问片外存储次数。最后,对数据缓存、数据流、循环进行优化设计,缓解了FPGA片上的资源限制;通过量化参数降低FPGA内存资源占用量。实验结果表明,FPGA具有较低的功耗,CPU的功耗是其2.1倍,而GPU的功耗是其6.5倍;与近年来相关领域文献中提出的方法相比,所提方法具有较高的吞吐量和计算性能。相似文献

4.

应用于片上系统中低功耗IP核设计的自适应门控时钟技术 总被引：1，自引：0，他引：1

常晓涛张明明张志敏韩银和《计算机学报》2007,30(5):823-830

门控时钟技术一直以来是降低芯片动态功耗的有效方法.文章结合片上系统(SoC)的结构特性和设计特点,分析已有的各种门控时钟技术的优缺点,指出这些缺点是SoC设计中的严重障碍,随后抽象出IP核工作模型,提出了仅用非常简单的逻辑就可以方便应用于IP核的自适应门控时钟技术.这种技术在不影响性能的前提下,可以根据IP核的应用状况自动开关时钟,不但可以降低动态功耗,还可以结合门控电源技术降低漏电功耗.对一款真实SoC中浮点IP核的改造实验表明,在不降低性能的前提下,可以平均降低62.2%的动态功耗,同时理论上平均降低70.9%的漏电功耗. 相似文献

5.

基于FPGA的卷积神经网络并行加速设计

龚豪杰周海冯水春《计算机工程与设计》2022,(7):1872-1878

为提升在资源、功耗受限的嵌入式平台上运行的深度卷积网络算法的速度和能效,提出一种基于现场可编程门阵列(FPGA)的卷积并行加速方案。利用卷积层与批归一化(batch normalization,BN)层融合减少计算复杂度;利用数据分片减少片上存储消耗;利用数据复用、并行计算提升运算速度,减少系统硬件开销;利用设计空间探索找到最符合硬件资源约束的计算并行度。实验结果表明,在100MHz的工作频率下,加速器的峰值计算性能可以达到52.56GFLOPS,性能是CPU的4.1倍,能耗仅为GPU的9.9%,与其它FPGA方案相比综合性能有一定的提升。相似文献

6.

基于小型FPGA的快速AES算法研究

下载免费PDF全文

冷文曹进才王安国《计算机工程》2010,36(7):159-161

AES算法在实时数据加密中的应用对其处理速度及在FPGA中实现的功耗和成本提出较高要求。针对上述情况,介绍一种基于小型FPGA的快速AES算法的改进方法,通过微处理器完成AES算法中的密钥扩展运算,同时采用共享技术实现加密和解密模块共享同一密钥。实验结果表明,该方法可有效提高处理速度,节省FPGA资源,降低芯片功耗。相似文献

7.

基于自适应功耗管理的高性能计算机作业调度策略的研究

王洁曾宇《计算机科学》2012,39(10):313-317

作业调度系统是高性能计算机的核心组件,其目标是在满足性能要求的前提下,使得所有任务消耗的总功耗最低。提出了一种自适应功耗管理策略,该策略采用遗传算法作为功耗调度算法,采用作业队列的能效比作为调度因素,与面向资源效率的传统作业调度算法相比,在确保提升资源利用率、减少资源碎片、提升作业吞吐率、减少饥饿作业的前提下,大幅提升了系统的能效比。实验证明该策略能有效提高整机能效,与传统作业调度策略相比能节约9%以上的能耗。相似文献

8.

片内二级Cache的静态功耗优化技术研究

下载免费PDF全文

张承义张民选《计算机工程与科学》2007,29(3):77-79

随着集成电路制造工艺进入超深亚微米阶段,静态功耗在微处理器总功耗中所占的比例越来越大,尤其是片上二级Cache。在开发新的低漏流工艺和电路技术之外,如何在体系结构级控制和优化静态功耗成为业界研究的热点。本文提出了一种ADSR算法,在保证处理器性能不受影响的前提下,可以大幅降低二级Cache的静态功耗。相似文献

9.

基于FPGA加速的低功耗的MobileNetV2网络识别系统

下载免费PDF全文

孙小坚林瑞全方子卿马驰《计算机测量与控制》2023,31(5):221-227

近年来,卷积神经网络由于其出色的性能被广泛应用在各个领域,如图像识别、语音识别与翻译和自动驾驶等;但是传统卷积神经网络（Convolutional Neural Network,CNN）存在参数多,计算量大,部署在CPU与GPU上推理速度慢、功耗大的问题。针对上述问题,采用量化感知训练（Quantization Aware Training,QAT）的方式在保证图像分类准确率的前提下,将网络参数总量压缩为原网络的1/4;将网络权重全部部署在FPGA的片内资源上,克服了片外存储带宽的限制,减少了访问片外存储资源带来的功耗;在MobileNetV2网络的层内以及相邻的点卷积层之间提出一种协同配合的流水线结构,极大的提高了网络的实时性;提出一种存储器与数据读取的优化策略,根据并行度调整数据的存储排列方式及读取顺序,进一步节约了片内BRAM资源。最终在Xilinx的Virtex-7 VC707开发板上实现了一套性能优、功耗小的轻量级卷积神经网络MobileNetV2识别系统,200HZ时钟下达到了170.06 GOP/s的吞吐量,功耗仅为6.13W,能耗比达到了27.74 GOP/s/W,是CPU的92倍,GPU的25倍,性能较其他实现有明显的优势。相似文献

10.

基于数组分块的FPGA高级综合编译优化算法

张茉莉杨海钢崔秀海李园强《计算机应用研究》2013,30(11):3349-3352

针对FPGA高级综合中提高矩阵存储并行的问题, 提出了一种基于数组分块的编译优化算法, 用来优化以矩阵乘法为代表的矩阵应用。算法在LLVM编译器架构下对访存密集的数组进行分块, 然后对迭代空间进行对应的合并, 最后修改迭代空间与数据空间之间的数据访问。与AutoESL循环展开算法的实验对比表明, 在分块数目最优的情况下, 矩阵乘法电路的延时平均被降低46%, 资源平均被降低39%。因而该基于数组分块的高级综合编译优化算法能有效降低电路延时和资源使用量。相似文献

11.

移动边缘计算不确定性任务持续卸载及资源分配方法

许斌赵云凯朱剑鸣刘一川李烜焘孙雁飞季一木《软件学报》2024,35(3):1466-1484

移动边缘计算场景中任务的不确定性增加了任务卸载及资源分配的复杂性和难度.鉴于此,提出一种移动边缘计算不确定性任务持续卸载及资源分配方法.首先,构建一种移动边缘计算不确定性任务持续卸载模型,通过基于持续时间片划分的任务多批次处理技术应对任务的不确定性,并设计多设备计算资源协同机制提升对计算密集型任务的承载能力.其次,提出一种基于负载均衡的自适应策略选择算法,避免计算资源过度分配导致信道拥堵进而产生额外能耗.最后,基于泊松分布实现了对不确定任务场景模型的仿真,大量实验结果表明时间片长度减小能够降低系统总能耗.此外,所提算法能够更有效地实现任务卸载及资源分配,相较于对比算法,最大可降低能耗11.8%. 相似文献

12.

Load Balancing Parallel Explicit State Model Checking

Rahul Kumar Eric G. Mercer 《Electronic Notes in Theoretical Computer Science》2005,128(3):19

This paper first identifies some of the key concerns about the techniques and algorithms developed for parallel model checking; specifically, the inherent problem with load balancing and large queue sizes resultant in a static partition algorithm. This paper then presents a load balancing algorithm to improve the run time performance in distributed model checking, reduce maximum queue size, and reduce the number of states expanded before error discovery. The load balancing algorithm is based on generalized dimension exchange (GDE). This paper presents an empirical analysis of the GDE based load balancing algorithm on three different supercomputing architectures—distributed memory clusters, Networks of Workstations (NOW) and shared memory machines. The analysis shows increased speedup, lower maximum queue sizes and fewer total states explored before error discovery on each of the architectures. Finally, this paper presents a study of the communication overhead incurred by using the load balancing algorithm, which although significant, does not offset performance gains. 相似文献

13.

单片FPGA的小型非制冷红外机芯设计

顾鑫曹丹华吴裕斌栾永昕王伟成《传感器与微系统》2017,36(6)

针对传统的基于数字信号处理器(DSP)+现场可编程门阵列(FPGA)的非制冷红外机芯平台存在体积大、功耗大、实时性差、系统集成度低等不足,提出了一种基于单片FPGA的小型化非制冷红外机芯平台设计.针对25μm非制冷红外探测器,为满足小型化、低功耗要求,平台在采用先进的FPGA处理器和DDR3存储器技术的同时,将硬件逻辑算法与NIOS Ⅱ软核相结合,完成对红外探测器的时序驱动、温度控制、图像的非均匀性处理、图像增强以及各种人机接口控制.实验结果表明:该系统成像质量较高,系统功耗小于2W,系统延时小于0.5ms,系统具有较强的可拓展性. 相似文献

14.

基于混合架构的卷积神经网络算法加速研究

下载免费PDF全文

郭子博高瑛珂胡航天弓铎刘凯吴宪云《计算机工程与应用》2022,58(6):88-94

具有优越性能的卷积神经网络算法已得到广泛应用,但其参数量大、计算复杂、层间独立性高等特点也使其难以高效地部署在较低功耗和较少资源的边缘场景.为此结合该种算法的特点提出了一种基于混合架构的卷积神经网络计算加速方法,该方法选用CPU加FPGA的混合架构,对网络模型进行了压缩优化;在FPGA上通过指令控制数据流的DSP阵列结... 相似文献

15.

基于高层次综合的AES算法研究与设计

张望贾佳孟渊白旭《计算机应用》2017,37(5):1341-1346

由于对广泛使用的AES算法的性能要求越来越高,基于软件的密码算法已经越来越难以满足高吞吐量密码破解的需求,因此越来越多的算法利用现场可编程逻辑门阵列（FPGA）平台进行加速。针对AES算法在FPGA硬件上存在的开发复杂度高且开发周期长等问题,采用高层次综合（HLS）设计方法,使用高级程序语言描述并设计AES硬件加速算法。首先利用循环展开等提高运算并行度;其次使用资源平衡技术进行优化,充分利用片上存储和电路资源;最后添加全流水结构,提高整体设计的时钟频率和吞吐量,同时也详细对比分析基准设计、利用结构展开、资源均衡以及流水线优化方法的设计。经过实验表明,在Xilinx xc7z020clg484 FPGA芯片上,最终AES算法的时钟频率最高达到127.06 MHz,而吞吐量达到了16.26 Gb/s,较之基准的AES设计,性能提升了三个数量级。相似文献

16.

FPGA schemes for minimizing the power-throughput trade-off in executing the Advanced Encryption Standard algorithm

Jason Van Dyken José G. Delgado-Frias 《Journal of Systems Architecture》2010,56(2-3):116-123

Today most research involving the execution of the Advanced Encryption Standard (AES) algorithm falls into three areas: ultra-high-speed encryption, very low power consumption, and algorithmic integrity. This study’s focus is on how to lower the power consumption of an FPGA-based encryption scheme with minimum effect on performance. Three novel FPGA schemes are introduced and evaluated. These schemes are compared in terms of architectural and performance differences, as well as the power consumption rates. The results show that the proposed schemes are able to reduce the logic and signal power by 60% and 27%, respectively on a Virtex 2 Pro FPGA while maintaining a high level of throughput. 相似文献

17.

LLVM-based automation of memory decoupling for OpenCL applications on FPGAs

《Microprocessors and Microsystems》2020

The availability of OpenCL High-Level Synthesis (OpenCL-HLS) has made FPGAs an attractive platform for power-efficient high-performance execution of massively parallel applications. At the same time, new design challenges emerge for massive thread-level parallelism on FPGAs. One major execution bottleneck is the high number of memory stalls exposed to data-path which overshadows the benefits of data-path customization.This article presents a novel LLVM-based tool for decoupling memory access from computation when synthesizing massively parallel OpenCL kernels on FPGAs. To enable systematic decoupling, we use the idea of kernel parallelism and implement a new parallelism granularity that breaks down kernels to separate data-path and memory-path (memory read/write) which work concurrently to overlap the computation of current threads^[1] with the memory access of future threads (memory pre-fetching at large scale). At the same time, this paper proposes an LLVM-based static analysis to detect the decouplable data for resolving the data dependency and maximize concurrency across the kernels.The experimental results on eight Rodinia benchmarks on Intel Stratix V FPGA demonstrate significant performance and energy improvement over the baseline implementation using Intel OpenCL SDK. The proposed sub-kernel parallelism achieves more than 2x speedup, with only 3% increase in resource utilization, and 7% increase in power consumption which reduces the overall energy consumption more than 40%. 相似文献