期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵世凡樊晓桠李玉发《计算机测量与控制》2010,18(3)

随着工艺尺寸及处理器频率的提高,Cache的功耗已经成为处理器功耗的重要来源,数据Cache的亚阈值漏电流功耗在总功耗中的比重也在上升;提出一种通过降低未被访问的Cache line的亚阈值漏电流功耗来降低整个数据Cache功耗的控制策略;该策略对所有Cache line周期性地提供低电压,从而降低了SRAM单元的亚阈值漏电流;当某一行被访问时,提供正常的电压,直到下一次被周期性地控制提供低电压;仿真结果显示,此策略以较少的硬件代价和访问延迟显著地降低了数据Cache的亚阈值漏电流功耗。相似文献

2.

基于流水化和滑动窗口结构的低功耗指令Cache设计

下载免费PDF全文

李伟肖建青《计算机工程与科学》2015,37(6):1037-1042

嵌入式处理器中Cache的应用极大地提高了处理器的性能,同时Cache,尤其是指令Cache功耗占据了处理器很大一部分功耗,关闭不必要的tag SRAM和data SRAM的访问,可以极大地降低功耗。提出了一种流水化的指令Cache访问机制,关闭不必要的data SRAM的访问;并且通过记录指令Cache行的信息和预测下一行的Cache形成一个Cache行滑动窗口,关闭不必要的tag SRAM访问。所提出的方法没有性能损失,在SMIC 90nm工艺下进行功耗分析,其指令访问的功耗降低50%。相似文献

3.

基于记录缓冲的低功耗指令Cache方案 总被引：1，自引：1，他引：1

马志强季振洲胡铭曾《计算机研究与发展》2006,43(4):744-751

现代微处理器大多采用片上Cache来缓解主存储器与中央处理器(CPU)之间速度的巨大差异,但Cache也成为处理器功耗的主要来源,尤其是其中大部分功耗来自于指令Cache.采用缓冲器可以过滤掉大部分的指令Cache访问,从而降低功耗,但仍存在相当程度不必要的存储体访问,据此提出了一种基于记录缓冲的低功耗指令Cache结构RBC.通过记录缓冲器和对存储体的改造,RBC能够过滤大部分不必要的存储体访问,有效地降低了Cache的功耗.对10个SPEC2000标准测试程序的仿真结果表明,与传统基于缓冲器的Cache结构相比,在仅牺牲6.01%处理器性能和3.75%面积的基础上,该方案可以节省24.33%的指令Cache功耗. 相似文献

4.

基于多级磁自旋存储器的Cache调度策略的设计

朱艳娜王党辉《计算机科学》2018,45(Z6):513-517

多级磁自旋存储器(Multi-Level Cell Spin-Transfer Torque RAM,MLC STT-RAM)可在一个存储单元中存储多个比特位,有望取代SRAM用于构建大容量低功耗的最后一级Cache(Last Level Cache,LLC)。MLC STT-RAM的静态功耗在理论上为0,且拥有高密度和优秀的读操作特性,但它的缺陷在于低效的写操作。针对这一问题,在MLC STT-RAM Cache hard/soft逻辑分区结构的基础上,实现了MLC STT-RAM LLC写操作密集度预测技术以及相应Cache结构的设计。通过动态预测写操作密集度较高的Cache块,帮助MLC STT-RAM LLC减少执行写操作的代价。预测的基本思想是利用访存指令地址与相应Cache块行为特征的联系,根据预测结果决定数据在LLC中的放置位置。实验结果显示,在MLC STT-RAM LLC中应用写操作密集度预测技术,使得写操作动态功耗降低6.3%的同时,系统性能有所提升。相似文献

5.

基于存储队列的Cache访问性能优化研究

李玉发高德远黄小平《计算机测量与控制》2009,17(11):2260-2262,2266

高性能处理器普遍采用片上集成大容量复杂结构的一级Cache提高处理器性能,但随着Cache容量和复杂度的增加,访问Cache所产生的访存延迟和功耗明显增加;基于存储队列,提出了一种通过减少Cache访问次数来降低功耗和延迟的方法,利用存储队列来缓存Load/Store指令的数据,并且当存储队列不满时,通过空闲入口暂存已经完成的仿存数据,提高了连续访存数据的复用率,减少了Cache的访问次数;仿真结果显示,该方法在增加少量的控制逻辑基础上,显著减少了Cache的访问次数,降低了Cache的功耗,减少了访存延迟,加快了执行速度。相似文献

6.

基于预缓冲机制的低功耗指令Cache

下载免费PDF全文

王冶张盛兵王党辉《计算机工程》2012,38(1):268-269,272

为降低微处理器中片上Cache的能耗,设计一种基于预缓冲机制的指令Cache。通过预缓冲控制部件的预测,使处理器需要的指令尽可能在缓冲区命中,从而避免访问指令Cache所造成的功耗。对7个测试程序的仿真结果表明,预缓冲机制能节省23.23%的处理器功耗,程序执行性能平均提升7.53%。相似文献

7.

混合Cache的低功耗设计方案 总被引：1，自引：0，他引：1

下载免费PDF全文

郝玉艳彭蔓蔓《计算机工程与应用》2009,45(20):68-70

在嵌入式处理器中,Cache的功耗所占的比重越来越大。为降低嵌入式系统中混合Cache的功耗,引入一种基于程序段的重构算法——PPBRA,并提出一种新的基于分类访问的可重构混合Cache结构,该方案能够根据不同程序段对Cache容量的需求,动态地分配混合Cache的指令路数和数据路数,还能够对混合Cache进行分类访问,过滤对不必要路的访问,从而实现降低混合Cache的功耗的目的。Mibench仿真结果表明,该方案在有效降低Cache功耗的同时,还能提高Cache的综合性能。相似文献

8.

一种增强的低功耗的嵌入式系统设计

叶顺福《现代计算机》2009,(10)

嵌入式系统片上Cache功耗是微处理器的功耗的最主要部分.提出新的低功耗技术,将Filter Cache方法与Loop Table方法相结合,无需增加新的指令,不需要复杂的硬件结构,并可针对具体的应用程序对处理器系统结构进行定制. 相似文献

9.

基于统计信息的Cache漏流功耗估算方法

周宏伟张承义张民选《计算机研究与发展》2008,45(2):367-374

随着工艺尺寸的缩小,漏流功耗逐渐成为制约微处理器设计的主要因素之一.Sleep Cache与Drowsy Cache是两种降低Cache漏流功耗的重要技术.基于统计信息的Cache漏流功耗估算方法(SB-CLPE)用于对Sleep Cache或Drowsy Cache进行Cache漏流功耗估算,根据该方法设计的Cache体系结构能够在程序执行过程中实时估算Cache漏流功耗.通过对所有Cache块的访问间隔时间进行统计,SB_CLPE可以估算出使用不同衰退间隔时Cache的漏流功耗,从而得到使Cache漏流功耗最低的最佳衰退间隔.实验表明,SB_CLPE对Sleep Cache的漏流功耗的估算结果与HotLeakage漏流功耗模拟器通过模拟获得的结果相比,平均偏差仅为3.16%,得到的最佳衰退间隔也可以较好吻合.使用SB_CLPE的Cache体系结构可以用于在程序执行过程中对最佳衰退间隔进行实时估算,通过动态调整衰退间隔以达到最优的功耗降低效果. 相似文献

10.

一种基于统计信息的Cache漏流功耗估算模型

下载免费PDF全文

周宏伟张承义张民选《计算机工程与科学》2007,29(6):81-83

本文提出了一种基于统计信息的Cache漏流功耗估算模型。该模型通过对Cache访问间隔时间的统计,估算出不同衰退间隔条件下Cache的漏流功耗。根据该模型所设计的Cache 漏流功耗模拟器与Hotleakage漏流功耗模拟器相比,对于Cache漏流功耗估算的结果平均偏差小于3.46%。该模型可以用于Sleep Cache与Drowsy Cache中,估算不同衰退间隔下Cache漏流功耗比率,选取最优衰退间隔,最大程度地降低Cache漏流功耗。相似文献

11.

Architecture and data migration methodology for L1 cache design with hybrid SRAM and volatile STT-RAM configuration

《Microprocessors and Microsystems》2016

Spin-Transfer Torque RAM (STT-RAM) has the advantages of circuit density and ignorable leakage power. However, it suffers from the bad write latency and poor write power consumption. Therefore, it is difficult to replace entire SRAM with STT-RAM in the L1 cache, but we can relax the retention time of STT-RAM cell to improve its write performance and replace some of the SRAM capacity to reduce leakage power. In this paper, we propose a locality-aware approach for L1 cache design with hybrid SRAM and volatile STT-RAM configuration. Based on the principle of cache locality, data block is mapped to SRAM firstly to reduce write latency and write energy, and is moved to volatile STT-RAM to reduce leakage power consumption. After a time period when there is no access of a data block in the volatile STT-RAM, we then stop its refresh operations to further reduce power consumption. Experimental results show that in comparison with the SRAM only L1 cache configuration, our hybrid cache configuration and data migration methodology reduce energy consumption by about 15–20%, with only nearly to 5% of latency overhead. Also when comparing to the STT-RAM only L1 cache configuration, we reduce memory access latency nearly to 20% with close or even better energy consumption. 相似文献

12.

DSP中指令Cache的低功耗设计

下载免费PDF全文

杨晓刚屈凌翔张树丹《计算机工程与应用》2011,47(32):82-86

设计了一种低功耗指令Cache：通过在CPU与一级指令Cache之间加入Line Buffer,来减少CPU对指令Cache的访问次数,从而降低指令Cache的功耗。此外在Line Buffer控制器中添加了重装控制单元,当指令Cache发生缺失时,能将片外存储单元中的指令直接送给CPU,从而最大限度地减少由于Cache缺失所引起CPU取指的延迟。经验证,该设计在降低功耗的同时,还提升了指令Cache的性能。相似文献

13.

适用于多核环境的混合Cache一致性协议

下载免费PDF全文

李静梅杨鹏飞张健沛门朝光吴艳霞《计算机工程》2011,37(24):284-286

提出一种适用于多核环境的混合Cache一致性协议。该协议采用混合值传播策略,引入小容量目录D-Cache,克服传统监听一致性协议发送数据请求时盲目广播的缺点,通过数据块状态的扩展,有效避免乒乓现象的发生。仿真实验结果表明,该协议能减少测试程序的运行时间,降低多核处理器私有L1 Cache的失效率,提高系统性能。相似文献

14.

AES访问驱动Cache计时攻击 总被引：2，自引：0，他引：2

赵新杰王韬郭世泽郑媛媛《软件学报》2011,22(3):572-591

首先给出了访问驱动Cache计时攻击的模型,提出了该模型下直接分析、排除分析两种通用的AES加密泄漏Cache信息分析方法;然后建立了AES加密Cache信息泄露模型,并在此基础上对排除分析攻击所需样本量进行了定量分析,给出了攻击中可能遇到问题的解决方案;最后结合OpenSSL v.0.9.8a,v.0.9.8j中两种... 相似文献

15.

密码嵌入式处理器中高速缓存的研究与设计

王晓燕杨先文陈海民《计算机工程与设计》2012,33(8):3000-3005

为了提高密码嵌入式处理器的运行效率,给出了一种哈佛结构的高速缓存(Cache)设计,包括指令Cache(iCache)和数据Cache(dCache)。采用双端口RAM和较低的硬件开销设计了标签存储器和指令/数据存储器,并描述了iCache和dCache控制流程。实现时配置iCache容量为4KB、dCache容量为8KB,并完成了向密码嵌入式处理器的集成。FPGA验证结果表明其满足处理器的应用要求;性能分析结果表明,采用Cache比处理器直接访问主存在速度上至少提高5.26倍。相似文献

16.

一种阵列众核处理器的多级指令缓存结构

陈逸飞李宏亮刘骁高红光《计算机工程与科学》2018,40(4):571-579

阵列众核处理器由于其较高的计算性能和能效比已经被广泛应用于高性能计算领域。而要构建未来高性能计算系统处理器必须解决严峻的"访存墙"挑战以及核心协同问题。通常的阵列处理器中,核心多采用单线程结构,以减少开销,但是对访存提出了较高的要求。在阵列众核处理器中,在单核心中引入硬件同时多线程技术,针对实验中一级指令缓存命中率随着线程数增加而显著降低的问题,提出了一种面向阵列众核处理器的冗余指令缓存存储结构,基于该结构,提出采用FIFO及类LRU替换策略。通过上述优化的高速缓存结构设计,经实验模拟,双线程整体指令Cache失效率降低了25.2%,整体CPI性能提升了30.2%。相似文献

17.

ARM指令执行速度影响因素的实验研究

下载免费PDF全文

尹旭峰苑士华胡纪滨《计算机工程》2011,37(12):262-264,267

介绍ARM微处理器S3C2440A的内存管理单元(MMU)和高速缓存,设计一种实验方法来测定在不同CPU时钟频率下禁用或启用高速缓存时,程序指令在SDRAM和SRAM中的平均执行速度,并对数据进行分析和处理。实验结果表明,启用高速缓存对提高指令的平均执行速度具有较大影响。相似文献