首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
在分析Cache性能的基础上介绍了当前低功耗Cache的设计方法,提出了一种可重构Cache模型和动态可重构算法。Cache模型能够在程序运行过程中改变相联度和大小,动态可重构算法能够在运行时针对不同的应用程序对可重构Cache进行配置。通过对Cache的动态配置,不仅可以提高Cache命中率,还能够有效降低处理器的功耗。  相似文献   

2.
为了提高密码嵌入式处理器的运行效率,给出了一种哈佛结构的高速缓存(Cache)设计,包括指令Cache(iCache)和数据Cache(dCache)。采用双端口RAM和较低的硬件开销设计了标签存储器和指令/数据存储器,并描述了iCache和dCache控制流程。实现时配置iCache容量为4KB、dCache容量为8KB,并完成了向密码嵌入式处理器的集成。FPGA验证结果表明其满足处理器的应用要求;性能分析结果表明,采用Cache比处理器直接访问主存在速度上至少提高5.26倍。  相似文献   

3.
低功耗动态可配置Cache设计   总被引:1,自引:1,他引:0  
在现代的微处理器设计中,Cache(高速缓冲存储器)在决定整个微处理器的性能方面起着关键性的作用。同时,作为微处理器的关键部件,它消耗的功耗是微处理器的主要功耗之一。尤其是在嵌入式领域,研究表明Cache所消耗的能量可以占到整个微处理器的50%。因此,降低Cache的功耗可以有效地降低处理器的整体功耗。以"龙腾R2"微处理器为研究对象,以低功耗为出发点,介绍了一种动态可配置Cache的设计方法。实验表明,该低功耗可配置Cache有效的地降低了微处理器的整体功耗,且提高了性能。  相似文献   

4.
方娟  王帅  于璐 《计算机科学》2014,41(7):36-39,73
如何提高多核处理器的性能和降低多核处理器中Cache的功耗已经成为下一代多核处理器的研究热点。为了降低片上多核处理器的功耗,基于路适应算法可以采用一种新的动态划分机制,该机制主要由路分配模块和动态功耗控制模块组成。路分配模块在程序运行过程中根据处理器核所运行线程的工作集的大小调整处理器核所分配的Cache路。动态功耗控制模块利用程序运行的局部性原理,将处理器核所运行线程的工作空间控制在少数Cache路中。关闭剩余的Cache路,从而达到降低Cache功耗的目的。该机制使用Simics全系统模拟平台模拟多核处理器,并用SpecOMP测试集测试了系统的性能和功耗。与传统的Cache(Conventional L2Cache,C-L2)相比,其IPC提高了9.27%,功耗降低了10.95%。  相似文献   

5.
方娟  郭媚  杜文娟  雷鼎 《计算机应用》2013,33(9):2404-2409
针对多核处理器下的共享二级缓存(L2 Cache)提出了一种面向低功耗的Cache设计方案(LPD)。在LPD方案中,分别通过低功耗的共享Cache混合划分算法(LPHP)、可重构Cache算法(CRA)和基于Cache划分的路预测算法(WPP-L2)来达到降低Cache功耗的目的,同时保证系统的性能良好。在LPHP和CRA中,程序运行时动态地关闭Cache中空闲的Cache列,节省了对空闲列的访问功耗。在WPP-L2中,利用路预测技术在Cache访问前给出预测路信息,预测命中时则可用最短的访问延时和最少的访问功耗完成Cache访问;预测失效时,则结合Cache划分策略,降低由路预测失效导致的额外功耗开销。通过SPEC2000测试程序验证,与传统使用最近最少使用(LRU)替换策略的共享L2 Cache相比,本方案提出的三种算法虽然对程序执行时间稍有影响,但分别节省了20.5%、17%和64.6%的平均L2 Cache访问功耗,甚至还提高了系统吞吐率。实验表明,所提方法在保持系统性能的同时可以显著降低多核处理器的功耗。  相似文献   

6.
混合Cache的低功耗设计方案   总被引:1,自引:0,他引:1       下载免费PDF全文
在嵌入式处理器中,Cache的功耗所占的比重越来越大。为降低嵌入式系统中混合Cache的功耗,引入一种基于程序段的重构算法——PPBRA,并提出一种新的基于分类访问的可重构混合Cache结构,该方案能够根据不同程序段对Cache容量的需求,动态地分配混合Cache的指令路数和数据路数,还能够对混合Cache进行分类访问,过滤对不必要路的访问,从而实现降低混合Cache的功耗的目的。Mibench仿真结果表明,该方案在有效降低Cache功耗的同时,还能提高Cache的综合性能。  相似文献   

7.
为了提高嵌入式系统中Cache的使用效率,针对不同类型的应用程序对指令和数据Cache的容量实时需求不同,提出一种滑动Cache组织方案.均衡考虑指令和数据Cache需求,动态地调整一级Cache的容量和配置.采用滑动Cache结构,不但降低了一级Cache的动态和静态泄漏功耗,而且还降低了整个处理器的动态功耗.模拟仿真结果表明,该方案在有效降低Cache功耗的同时能够提高Cache的综合性能.  相似文献   

8.
设计一种被称之为消除低重用块和预测访问间隔的Cache管理策略ELRRIP.根据多核处理器的共享最后一级高速缓存中低重用块占用资源时间较长这一特点,ELRRIP策略:1)通过感知最后一级共享高速缓存的上一级Cache中的数据历史访问信息预测出低重用块并优先将其淘汰;2)通过改进的访问间隔预测技术预测出潜在的低重用块并将其优先淘汰.同时,本文还基于ELRRIP提出了TADELRRIP.实验表明,对于4核多核处理器而言,TADELRRIP可以将加权加速比平均提高9.14%.  相似文献   

9.
《新电脑》2004,(7)
除了运行频率以外,Cache(高速缓存)的大小也在很大程度上影响着处理器性能,厂商也用其容量划分产品档次。无论是英特尔还是AMD,都在最高档的产品中配备高容  相似文献   

10.
《电脑应用文萃》2004,(12):32-32
这是一套采用Intel平台的低端配置。使用的是Celeron D 320处理器.该处理器采用的核心是性能强劲且具备更大容量L2 Cache的Prescott核心。256KB的L2Cache,533MHz的前端总线,配以24GHz的运行速度使得CeleronD320处理器不管是在主流游戏还是一般的影音娱乐、办公应用上都显得游刃有余.而且这款处理器是Celeron D系列中.笔认为最具性价比的一款。主板方面.选用了隽星的一块整合型主板.它采用的是Intel 845GL ICH4芯片组.小板设计,最高可支持533MHz的前端总线,  相似文献   

11.
The widening gap between processor and memory speeds makes cache an important issue in the computer system design.Compared with work set of programs,cache resource is often rare.Therefore,it is very important for a computer system to use cache efficiently.Toward a dynamically reconfigurable cache proposed recently,DOOC(Data-Object Oriented Cache),this paper proposes a quantitative framework for analyzing the cache requirement of data-objects, which includes cache capacity,block size,associativity and coh...  相似文献   

12.
左琦  付宇卓  程秀兰  黄洋 《计算机工程》2006,32(1):237-239,275
为了提高性能,通用处理器中所广泛采用的cache技术被引入到了嵌入式处理器中。该文采用基于仿真的方法分析了嵌入式应用环境下几个主要的cache结构参数对cache性能的影响。在分析过程中,还考虑了不同主存实现方式带来的影响。  相似文献   

13.
In order to meet the ever-increasing computing requirement in the embedded market, multiprocessor chips were proposed as the best way out. In this work we investigate the energy consumption in these embedded MPSoC systems. One of the efficient solutions to reduce the energy consumption is to reconfigure the cache memories. This approach was applied for one cache level/one processor architecture, but has not yet been investigated for multiprocessor architecture with two level caches. The main contribution of this paper is to explore two level caches (L1/L2) multiprocessor architecture by estimating the energy consumption. Using a simulation platform, we first built a multiprocessor architecture, and then we propose a new algorithm that tunes the two-level cache memory hierarchy (L1 and L2). The tuning caches approach is based on three parameters: cache size, line size, and associativity. To find the best cache configuration, the application is divided into several execution intervals. And then, for each interval, we generate the best cache configuration. Finally, the approach is validated using a set of open source benchmarks; Spec 2006, Splash-2, MediaBench and we discuss the performance in terms of speedup and energy reduction.  相似文献   

14.
改进型缓存敏感B+树的研究   总被引:1,自引:0,他引:1  
王晨  陈刚  董金祥 《计算机测量与控制》2006,14(11):1531-1534,1550
在内存数据库中,处理器缓存的失配次数对系统的性能有重要的影响;缓存敏感的索引能减少在做查询操作时产生的缓存失配次数,从而提高系统的性能;传统的设计思路将结点大小等于缓存块大小,认为这样就能使得缓存失配次数减少;但是这样的设计忽略了TLB失配对系统性能的影响;我们提出了一种缓存敏感索引——改进型缓存敏感B+树(简称MCSB+树),它同时兼顾了缓存失配和TLB失配对系统性能的影响。比传统的缓存敏感索引能提供更好的操作性能。  相似文献   

15.
大规模数据排序、搜索引擎、流媒体等大数据应用在面向延迟的多核/众核处理器上运行时资源利用率低下,一级缓存命中率高,二级/三级缓存命中率低,LLC容量的增加对IPC的提升并不明显。针对缓存资源利用率低的问题,分析了大数据应用的访存行为特点,提出了针对大数据应用的两种众核处理器缓存结构设计方案,两种结构均只有一级缓存,Share结构为完全共享缓存,Partition结构为部分共享缓存。评估结果表明,两种方案在访存延迟增加不多的前提下能大幅节省芯片面积,其中缓存容量较低时,Partition结构优于Share结构,缓存容量较高时,Share结构要逐渐优于Partition结构。由于众核处理器中分配到每个处理器核的容量有限,因此Partition结构有一定的优势。  相似文献   

16.
基于软硬件的协同支持在众核上对1-DFFT算法的优化研究   总被引:2,自引:0,他引:2  
随着高性能计算需求的日益增加,片上众核(many-core)处理器成为未来处理器架构的发展方向.快速傅立叶变换(FFT)作为高性能计算中的重要应用,对计算能力和通信带宽都有较高的要求.因此基于众核处理器平台,实现高效、可扩展的FFT算法是算法和体系结构设计者共同面临的挑战.文中在众核处理器Godson-T平台上对1-D FFT算法进行了优化和评估,在节省几乎三分之一L2 Cache存储开销的情况下,通过隐藏矩阵转置,计算与通信重叠等优化策略,使得优化后的1-D FFT算法达到3倍以上的性能提升.并通过片上网络拥塞状况的实验分析,发现对于像FFT这样访存带宽受限的应用,增加L2 Cache的访问带宽,可以缓解因为爆发式读写带给片上网络和L2 Cache的压力,进一步提高程序的性能和扩展性.  相似文献   

17.
徐教显  王雅文 《软件》2013,(12):10-13
为了解决代码测试系统测试C项目的时间开销较大这一问题,本文提出了一种基于缓存估算模型的性能优化方法。该方法向代码测试系统中引入了缓存技术,并且建立了缓存规模估算模型。不相似的C项目应用该模型计算出的缓存规模是不一样的。使用缓存规模估算模型后,代码测试系统文件缓存的规模能够随着C项目的改变而发生改变,具有动态变化的能力。缓存估算模型已在系统中实现,对4个开源C项目的测试结果表明:该优化方法能有效地提高代码测试系统测试C项目时的时间性能。  相似文献   

18.
非易失性存储器具有能耗低、可扩展性强和存储密度大等优势,可替代传统静态随机存取存储器作为片上缓存,但其写操作的能耗及延迟较高,在大规模应用前需优化写性能。提出一种基于缓存块重用信息的动态旁路策略,用于优化非易失性存储器的缓存性能。分析测试程序访问最后一级缓存(LLC)时的重用特征,根据缓存块的重用信息动态预测相应的写操作是否绕过非易失性缓存,利用预测表进行旁路操作完成LLC缺失时的填充,同时采用动态路径选择进行上级缓存写回操作,通过监控模块为旁路的缓存块选择合适的上级缓存,并将重用计数较高的缓存块填充其中以减少LLC写操作次数。实验结果表明,与未采用旁路策略的缓存设计相比,该策略使4核处理器中所有SPLASH-2程序的运行时间平均减少6.6%,缓存能耗平均降低22.5%,有效提高了整体缓存性能。  相似文献   

19.
嵌入式处理器的Cache结构研究   总被引:5,自引:0,他引:5  
针对嵌入式处理嚣结构的特点,探讨虚拟Cache的结构、性能及实施方法等进行,讨论了Cache的锁定来改进Cache的循环淘汰置换算法的可行性,并对基于ARM架构的嵌入式处理器的Cache结构特点作了介绍。  相似文献   

20.
合理地组织一个多级的高速缓冲存储器(Cache)是一种有效的减少存储器访问延迟的方法。论文提出了一种设计32位超标量微处理器Cache单元的结构,讨论了一级Cache、二级Cache设计中的关键技术,介绍了Cache一致性协议的实现,满足了“龙腾”R2微处理器芯片的设计要求。整个芯片采用0.18umCMOS工艺实现,芯片面积在4.1mm×4.1mm之内,微处理器核心频率超过233MHz,功耗小于1.5W。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号