期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

周宏伟张承义张民选《计算机工程与科学》2007,29(6):81-83

本文提出了一种基于统计信息的Cache漏流功耗估算模型。该模型通过对Cache访问间隔时间的统计,估算出不同衰退间隔条件下Cache的漏流功耗。根据该模型所设计的Cache 漏流功耗模拟器与Hotleakage漏流功耗模拟器相比,对于Cache漏流功耗估算的结果平均偏差小于3.46%。该模型可以用于Sleep Cache与Drowsy Cache中,估算不同衰退间隔下Cache漏流功耗比率,选取最优衰退间隔,最大程度地降低Cache漏流功耗。相似文献

2.

片内二级Cache的静态功耗优化技术研究

下载免费PDF全文

张承义张民选《计算机工程与科学》2007,29(3):77-79

随着集成电路制造工艺进入超深亚微米阶段,静态功耗在微处理器总功耗中所占的比例越来越大,尤其是片上二级Cache。在开发新的低漏流工艺和电路技术之外,如何在体系结构级控制和优化静态功耗成为业界研究的热点。本文提出了一种ADSR算法,在保证处理器性能不受影响的前提下,可以大幅降低二级Cache的静态功耗。相似文献

3.

基于亚阈值漏电流的数据Cache低功耗控制策略研究

赵世凡樊晓桠李玉发《计算机测量与控制》2010,18(3)

随着工艺尺寸及处理器频率的提高,Cache的功耗已经成为处理器功耗的重要来源,数据Cache的亚阈值漏电流功耗在总功耗中的比重也在上升;提出一种通过降低未被访问的Cache line的亚阈值漏电流功耗来降低整个数据Cache功耗的控制策略;该策略对所有Cache line周期性地提供低电压,从而降低了SRAM单元的亚阈值漏电流;当某一行被访问时,提供正常的电压,直到下一次被周期性地控制提供低电压;仿真结果显示,此策略以较少的硬件代价和访问延迟显著地降低了数据Cache的亚阈值漏电流功耗。相似文献

4.

一种嵌入式系统的滑动Cache机制设计

何青松邓超邱志《单片机与嵌入式系统应用》2015,15(3)

为了提高嵌入式系统中Cache的使用效率,针对不同类型的应用程序对指令和数据Cache的容量实时需求不同,提出一种滑动Cache组织方案.均衡考虑指令和数据Cache需求,动态地调整一级Cache的容量和配置.采用滑动Cache结构,不但降低了一级Cache的动态和静态泄漏功耗,而且还降低了整个处理器的动态功耗.模拟仿真结果表明,该方案在有效降低Cache功耗的同时能够提高Cache的综合性能. 相似文献

5.

基于预缓冲机制的低功耗指令Cache

下载免费PDF全文

王冶张盛兵王党辉《计算机工程》2012,38(1):268-269,272

为降低微处理器中片上Cache的能耗,设计一种基于预缓冲机制的指令Cache。通过预缓冲控制部件的预测,使处理器需要的指令尽可能在缓冲区命中,从而避免访问指令Cache所造成的功耗。对7个测试程序的仿真结果表明,预缓冲机制能节省23.23%的处理器功耗,程序执行性能平均提升7.53%。相似文献

6.

多核处理器可重构Cache功耗计算方法的研究

《计算机科学》2014,(Z1)

多核动态可重构Cache是解决Cache功耗困扰的一个重要方法。现有Cache功耗模拟器并不能很好地支持多核动态可重构Cache功耗研究,通过对多核动态可重构Cache的功耗模型进行研究,找到了计算可重构Cache的方法和思路,应用CACTI来分别构建各个组成结构的Cache功耗模型,以较为准确地测算可重构Cache的功耗。在Simics模拟器下构建动态可重构Cache,运行测试程序,对比传统的体系结构,可重构Cache的功耗能够得到10.4%的降低。同时,实验中发现功耗的降低不仅仅是动态可重构Cache贡献的,而是由系统综合产生的,因此在低功耗设计中,要综合考虑整体系统的功耗和性能,避免片面地考虑Cache结构而导致整体功耗的提高。相似文献

7.

一种低功耗可重构Cache的重构算法 总被引：4，自引：0，他引：4

方亮肖斌柴亦飞陈章龙涂时亮《计算机工程与设计》2006,27(20):3894-3897,3937

随着半导体技术的发展,芯片上的功率密度也逐渐增大,这使得功耗问题在芯片设计时越来越受到人们的关注.片上Cache是处理器芯片中的主要功耗源之一,采用低功耗Cache可有效降低处理器整体功耗.对低功耗Cache设计进行了研究.介绍了当前低功耗Cache设计的主要方法和一种低功耗可重构的数据Cache的体系结构及相应的重构算法.给出了一种新的重构算法——LoW-High Boundary（LHB）算法.实验表明LHB算法在性能和功耗上均优于原算法. 相似文献

8.

ELSS:一种降低数据Cache体转换能量的替换策略

下载免费PDF全文

周宏伟孙岩张民选《计算机工程与科学》2009,31(1)

随着工艺尺寸的缩小以及频率的增加,漏流能量将成为未来微处理器能量消耗的主要来源。其中,片上Cache存储结构将是整个处理器能量消耗的重要组成部分。为了降低漏流能量,组相联数据Cache中采用了分体的结构,通过使用位线隔离技术将那些未被访问的Cache存储体的位线进行隔离,使之进入低能耗状态。本文提出一种新的数据Cache替换策略——ELSS。该策略充分考虑到访问数据Cache的地址具有较好的空间局部性,特别增加了对数据地址序列中的跨步访问模式的识别,用于指导Cache块的替换。通过将符合顺序模式与跨步模式的数据块尽量放在同一个存储体中,可以减少存储体的转换次数。实验表明,使用ELSS替换策略可以进一步减少位线隔离数据Cache使用LRU策略时9%的体转换次数,多节省8%的数据Cache能量消耗,而对性能的影响比使用LRU策略时小。相似文献

9.

基于记录缓冲的低功耗指令Cache方案 总被引：1，自引：1，他引：1

马志强季振洲胡铭曾《计算机研究与发展》2006,43(4):744-751

现代微处理器大多采用片上Cache来缓解主存储器与中央处理器(CPU)之间速度的巨大差异,但Cache也成为处理器功耗的主要来源,尤其是其中大部分功耗来自于指令Cache.采用缓冲器可以过滤掉大部分的指令Cache访问,从而降低功耗,但仍存在相当程度不必要的存储体访问,据此提出了一种基于记录缓冲的低功耗指令Cache结构RBC.通过记录缓冲器和对存储体的改造,RBC能够过滤大部分不必要的存储体访问,有效地降低了Cache的功耗.对10个SPEC2000标准测试程序的仿真结果表明,与传统基于缓冲器的Cache结构相比,在仅牺牲6.01%处理器性能和3.75%面积的基础上,该方案可以节省24.33%的指令Cache功耗. 相似文献

10.

嵌入式处理器中访存部件的低功耗设计研究 总被引：2，自引：0，他引：2

黄海林范东睿许彤唐志敏《计算机学报》2006,29(5):815-821

以“龙芯1号”处理器为研究对象,探讨了嵌入式处理器中访存部件的低功耗设计方法.通过对访存部件的结构、功耗以及关键路径进行分析,利用局部性原理,提出一种根据虚拟地址历史记录进行判断的方法,可以显著减少TLB和Cache对RAM块的访问次数,使得TLB部件功耗平均降低了28.1%,Cache部件功耗平均降低了54.3%,处理器总功耗平均降低了23.2%,而关键路径延时反而减少,处理器性能略有提高. 相似文献

11.

组相联Cache中漏流功耗优化技术研究

张承义张民选邢座程《小型微型计算机系统》2007,28(2):372-375

随着集成电路制造工艺进入超深亚微米阶段,漏电流功耗在微处理器总功耗中所占的比例越来越大,在开发新的低漏流工艺和电路技术之外,如何在体系结构级控制和优化漏流功耗成为业界研究的热点.Cache在微处理器中面积最大,是进行漏流控制和优化的首要部件.本文提出了一种LRU-assist算法,利用既有的LRU信息,在保证处理器性能不受影响的前提下,cache的平均关闭率可达53%,大大降低了漏电流功耗. 相似文献

12.

一种带有无效缓存路访问过滤机制的低功耗高速缓存

范灵俊唐士斌张轮凯郑亚松张浩《小型微型计算机系统》2012,(10):2231-2236

功耗是当今处理器设计领域的重要问题之一.随着多核处理器的普及,片上缓存占有了越来越多的芯片面积和功耗.提出一种带有无效缓存路访问过滤机制的低功耗高速缓存结构来降低CPU的动态功耗,具体为,通过无效缓存块的预先检查(Pre-Invalid Way Checking,PIWC)消除对无效缓存路的访问,及通过不匹配缓存路的预先检测(Pre-Mismatch Way Detecting,PMWD)消除对tag低位不匹配缓存路的访问.对实际程序的测试表明,65.2%-88.9%缓存路的无效访问可以通过以上方法被消除,约60.9%-85.6%由缓存访问带来的动态能耗从而被降低.同时,跟tag-data顺序访问方法相比,对于大多数程序,我们的方法可以获得5.1%-13.8%的节能效果提升. 相似文献

13.

异构环境下MPI程序Cache访问的单机模拟

下载免费PDF全文

胡晨光郑启龙许胤龙姚震姚再勇张红涛《计算机工程》2007,33(14):54-56

Cache模拟工具可以在单机上模拟运行于异构环境下的并行程序的Cache访问。用户依照自己的需求指定Cache模型参数及替换算法,对每个进程中的某一段进行模拟,使并行程序中每个或每组子进程/线程分别对应一个Cache模型,从而同时得到每个或每组子进程/线程的Cache访问参数。使用单机Cache模拟环境降低了并行程序的Cache模拟对实际并行环境的依赖。同时,用户还可以很方便地在其基础上扩展并使用自行开发的替换算法或进程通信模块功能,适应了不同用户对并行程序Cache模拟工具的需要。相似文献

14.

An on-chip instruction cache design with one-bit tag for low-power embedded systems

Ji Gu^{Author Vitae} Hui Guo Author VitaePatrick LiAuthor Vitae 《Microprocessors and Microsystems》2011,35(4):382-391

On-chip instruction cache is a potential power hungry component in embedded systems due to its large chip area and high access-frequency. Aiming at reducing power consumption of the on-chip cache, we propose a Reduced One-Bit Tag Instruction Cache (ROBTIC), where the cache size is judiciously reduced and the cache tag field only contains the least significant bit of the full-tag. We develop a cache operational control scheme for ROBTIC so that with the one-bit cache tag, the program locality can still be efficiently exploited. For applications where most of the memory accesses are localized, our cache can achieve similar performance as a traditional full-tag cache; however, the power consumption of the cache can be significantly reduced due to the much smaller cache size, narrower tag array (just one bit), and tinier tag comparison circuit being used. Experiments on a set of benchmarks implemented in CMOS 180 nm process technology demonstrate that our proposed design can reduce up to 27.3% dynamic power consumption and 30.9% area of the traditional cache when the cache size is fixed at 32 instructions, which outperforms the existing partial-tag based cache design. With the cache size customization, a further 47.8% power saving can be achieved. Our experimental results also show that when implemented in the deep sub-micron technologies where the leakage power is not ignorable, our design is still efficient - a coherent power saving trend (about 22%) has been observed for technologies from 130 nm down to 65 nm. 相似文献

15.

基于MongoDB的分布式缓存

王胜杨超崔蔚黄高攀张明明《计算机系统应用》2016,25(4):97-101

电力信息化的发展对传统电力信息系统的数据处理、并发请求及响应能力提出诸多挑战.针对电力信息系统数据处理的特点,提出一种基于MongoDB数据库的分布式缓存,并对该分布式缓存的运行机制、服务端架构和客户端功能模块的设计进行了分析与阐述.基于MongoDB的分布式缓存能够有效地降低电力信息系统数据库层的访问负载量,提高系统的整体性能,它采用分布式文件存储缓存数据,支持数据冗余备份和故障恢复功能,具有较高的可靠性和扩展性.基于MongoDB的分布式缓存已成功应用到电力某企业的项目管理系统中. 相似文献

16.

基于大规模事务处理系统的中间层语义缓存技术的研究 总被引：3，自引：0，他引：3

向阳杨树强蔡建宇贾焰《计算机应用》2005,25(8):1843-1845

对当前的中间层语义缓存的研究进行了分析,以一个大规模事务处理系统为背景,提出了一个针对海量数据统计分析的中间层语义缓存解决方案,给出了其相关定义、体系结构及管理机制,并在大规模事务处理系统上对语义缓存进行了测试。相似文献

17.

指导cache静态划分的程序性能profiling优化技术

贾耀仓武成岗张兆庆《计算机研究与发展》2012,49(1):93-102

对于共享cache的多核处理器,如何管理好各个核对cache的利用,对于充分发挥多核处理器性能是很关键的问题.目前采用的cache替换方法程序间会出现性能干扰,cache静态划分技术则是通过为同时运行的程序分配不同的空间来解决性能干扰问题.为了给程序分配合适大小的cache空间,需要对程序进行性能profiling,即事先多遍运行收集程序在各种cache容量下的性能数据,这种性能profiling方法开销巨大,影响实用.为了解决性能profiling需要多遍运行程序的问题,提出了只需单遍运行的程序性能profiling优化技术.该技术利用在线的phase分析技术识别程序的运行阶段,避免对相同阶段的重复profiling;同时分析程序各phase的性能同cache容量变化的关系趋势,对于性能不敏感的容量变化则不进行profiling,降低开销.在程序运行结束后通过程序各phase在cache各种容量下的性能来估计程序在各容量下的整体性能,以指导cache静态划分.实验表明,该技术的开销仅为7%,而该方法指导的cache划分比未划分时有8%的性能改进,同多遍运行的程序性能profiling指导的cache划分性能相比仅有1%的下降. 相似文献

18.

A leakage-aware L2 cache management technique for producer-consumer sharing in low-power chip multiprocessors

Hyunhee Kim Author VitaeJihong KimAuthor Vitae 《Journal of Parallel and Distributed Computing》2011,71(12):1545-1557

This paper proposes a novel leakage management technique for applications with producer-consumer sharing patterns. Although previous research has proposed leakage management techniques by turning off inactive cache blocks, these techniques can be further improved by exploiting the various run-time characteristics of target applications in CMPs. By exploiting particular access sequences observed in producer-consumer sharing patterns and the spatial locality of shared buffers, our technique enables a more aggressive turn-off of L2 cache blocks of these buffers. Experimental results using a CMP simulator show that our proposed technique reduces the energy consumption of on-chip L2 caches, a shared bus, and off-chip memory by up to 31.3% over the existing cache leakage power management techniques with no significant performance loss. 相似文献

19.

Chronos: a Performance Characterization Tool Inside the EDPEPPS Toolset

Bourgeois J. Spies F. Zemerly M. J. Delaitre T. 《The Journal of supercomputing》2000,15(2):123-140

The EDPEPPS toolset is the fruit of a 10 man-year-research development and integrates many modules in order to predict and classify the execution times of C/PVM programs mapped on a cluster of heterogeneous workstations. In this project, a performance characterization tool called Chronos has been developed to model the processor and C instructions. Chronos can be used to characterize a wide range of machines as it is developed round a specialized benchmark. Chronos uses a parameter-based model and characterizes the machine and the program studied. Then, the execution predictor evaluates the time spent in each program block, according to a generic model of cache memory which simulates most of the CPU internal cache memory architecture. Chronos does not need any user's intervention as all the operations are automatic. The performance accuracy of Chronos is highlighted by a real processor-consuming sequential example.This tool can be used by designers to predict the average execution time of their applications quickly. Average percentage errors obtained from this tool are below 10%. 相似文献