首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
Cache是高性能微处理器解决CPU和存储器速度差异问题的有效措施之一。在共享存储器的多机环境下,共享数据在多个处理器的片上Cache中分布,Cache间维持数据一致性成为关键。该文讨论了32位嵌入式微处理器“龙腾R2”的Cache的设计和实现和支持多机环境的Cache一致性实现方法,并给出了实现的结果。  相似文献   

2.
低功耗动态可配置Cache设计   总被引:1,自引:1,他引:0  
在现代的微处理器设计中,Cache(高速缓冲存储器)在决定整个微处理器的性能方面起着关键性的作用。同时,作为微处理器的关键部件,它消耗的功耗是微处理器的主要功耗之一。尤其是在嵌入式领域,研究表明Cache所消耗的能量可以占到整个微处理器的50%。因此,降低Cache的功耗可以有效地降低处理器的整体功耗。以"龙腾R2"微处理器为研究对象,以低功耗为出发点,介绍了一种动态可配置Cache的设计方法。实验表明,该低功耗可配置Cache有效的地降低了微处理器的整体功耗,且提高了性能。  相似文献   

3.
论文分析了面向多媒体应用的TTA(TransportTriggeredArchitecture)微处理器的特点和访存要求,提出并设计实现了应用于此款微处理器、采用直接映象规则、写回和按写分配策略的4KB数据Cache,并在全系统环境下对其进行了模拟验证。实验结果说明数据Cache系统在降低命中时间和提高命中率两方面做到了良好的折中,命中时间与芯片流水线处理周期匹配,有效保证了全系统性能的发挥。  相似文献   

4.
多核处理机系统Cache管理技术研究现状   总被引:1,自引:0,他引:1       下载免费PDF全文
多核处理器的Cache结构设计和管理是微处理器设计领域的重要问题。当前主流的商用微处理器均采用共享最后一级Cache的系统结构,而片上最后一级Cache的性能通常对处理器的性能影响较大,因此共享Cache的管理问题成为当前研究热点。本文首先介绍当前主流多核处理器及其设计问题,然后介绍了共享Cache管理的三项重要技术:线程调度、NUCA和Cache划分,最后给出多核处理器Cache管理技术的发展方向。  相似文献   

5.
Pentium4处理器的内存层次分析   总被引:2,自引:0,他引:2  
吴金  齐欢 《微机发展》2004,14(7):47-48,51
处理器存储系统的效率对其整体性能有着十分重要的作用。文中介绍了P4处理器内存的体系结构,它包括一级数据Cache、二级Cache、Trace Cache;各部分完成的功能以及为提高命中率和降低存取时间,从而提高效率而采取的预取处理机制;P4处理器主要采取具有层次结构的内存设计、大容量的二级Cache和在跟踪Cache中采用预取处理机制的方法来提高Cache的命中率和降低未命中的代价来缩短处理器的访问时间,最终达到提高处理器整体性能的目的。  相似文献   

6.
随着集成电路制造工艺进入超深亚微米阶段,静态功耗在微处理器总功耗中所占的比例越来越大,尤其是片上二级Cache。在开发新的低漏流工艺和电路技术之外,如何在体系结构级控制和优化静态功耗成为业界研究的热点。本文提出了一种ADSR算法,在保证处理器性能不受影响的前提下,可以大幅降低二级Cache的静态功耗。  相似文献   

7.
Cache数据一致性问题是多处理器系统中必须解决的一个难点。作者在开发LX-1164安全微处理器过程中对WishBone总线标准以及MOESI协议进行了深入研究,提出了一种基于WishBone总线的Cache数据一致性设计方案,对WishBone总线标准进行了扩充,实现了对MOESI协议支持。本设计采用SMIC公司的0.18um工艺标准单元库,经仿真测试在400MHz主频下达到设计要求。  相似文献   

8.
以基本块为单位的非顺序指令预取   总被引:1,自引:0,他引:1  
取指令能力的高低对微处理器的性能有很大影响。指令预取技术能够有效地降低指令Cache的访问失效率,提高微处理器的取指令能力,进而提高微处理器的性能。本文提出了一种由分支指令指导的、以基本块为单位的非顺序指令预取技术,每次预取将一个完整的基本块读入指令Cache。这种方法使用静态策略分析程序行为,实现所需的硬件复杂度低。模拟结果显示,该方法能够有效地提高指令Cache访问的命中率。  相似文献   

9.
一种低功耗可重构Cache的重构算法   总被引:4,自引:0,他引:4  
随着半导体技术的发展,芯片上的功率密度也逐渐增大,这使得功耗问题在芯片设计时越来越受到人们的关注.片上Cache是处理器芯片中的主要功耗源之一,采用低功耗Cache可有效降低处理器整体功耗.对低功耗Cache设计进行了研究.介绍了当前低功耗Cache设计的主要方法和一种低功耗可重构的数据Cache的体系结构及相应的重构算法.给出了一种新的重构算法——LoW-High Boundary(LHB)算法.实验表明LHB算法在性能和功耗上均优于原算法.  相似文献   

10.
随着网络上光盘资源的增长,光盘服务器成为光盘网络共享的重要技术,针对传统光盘服务器的缺点,实现了一个新的高性能光盘服务器CDS(CDServer),CDS系统采用两级Cache(客户端Cache加服务器Cache)的技术来提高系统的性能.客户端Cache根据光盘顺序访问特点,采用慢速增长快速下降的预取算法设计,即提高了系统的性能,也保证预取不命中时的响应时间,服务器Cache采用Hash算法同平衡二叉树相结合的两级组织结构,实现了Cache的快速查找.在详细介绍了CDS系统的两级Cache算法的同时,进行了相应的试验测试和性能分析.  相似文献   

11.
在分析现有体系结构级低功耗cache设计方案的基础上,提出了一种混合cache低功耗设计策略,通过在常规混合cache结构上增加一标志域来区分cache某组中的指令和数据,限制了处理器每次访问的路数,从而达到低功耗的效果。详细阐明了该方法的原理和硬件实现,并将其应用到自主研发的龙腾C2微处理器上。实验结果表明,该方法不损耗cache性能,面积牺牲仅1.45%,总功耗降低了23.1%。  相似文献   

12.
龙腾R2微处理器是西北工业大学航空微电子中心设计的采用PowerPC体系结构,具有自主知识产权的R ISC微处理器。为了扩展其多处理器的功能,采用总线侦听的方法来维护多处理器环境下的cache一致性。首先介绍了共享总线侦听技术以及侦听协议,然后详细介绍了龙腾R2微处理器的总线侦听部件的实现方案,对几类cache一致性的实现方案以及性能进行了评析。FPGA实验结果表明,总线侦听部件能高效而准确地保证多处理器系统的cache一致性。  相似文献   

13.
黄光奇  李子木  周兴铭  窦勇 《计算机学报》2001,24(12):1318-1323
随着半导体工艺技术的飞速发展,单芯片多处理器(Single-Chip Multiprocessor,SCMP)结构将是一条提高处理器性能的有效途径。该文在分析SCMP结构的特点的基础上,提出了SCMP的一种结构实现:共享多端口数据Cache结构(Shared Multi-Ported Data Cache Architecture,SMPDCA).SMPDCA结构具有三个突出的优点:最小的通信延迟、没有Cache一致性维护开销和数据Cache命中率提高。模拟结果表明,与数据Cache私有的结构相比,SMPDCA结构的煅出优点使得应用程序的性能得到了明显的提高,特别是对于改善处理器之间的通信与交互比较多的应用程序的性能具有最为明显的效果。  相似文献   

14.
The L1 cache in today’s high-performance processors accesses all ways of a selected set in parallel. This constitutes a major source of energy inefficiency: at most one of the N fetched blocks can be useful in an N-way set-associative cache. The other N-1 cachelines will all be tag mismatches and subsequently discarded.We propose to eliminate unnecessary associative fetches by exploiting certain software semantics in cache design, thus reducing dynamic power consumption. Specifically, we use memory region information to eliminate unnecessary fetches in the data cache, and ring level information to optimize fetches in the instruction cache. We present a design that is performance-neutral, transparent to applications, and incurs a space overhead of mere 0.41% of the L1 cache.We show significantly reduced cache lookups with benchmarks including SPEC CPU, SPECjbb, SPECjAppServer, PARSEC, and Apache. For example, for SPEC CPU 2006, the proposed mechanism helps to reduce cache block fetches from the data and instruction caches by an average of 29% and 53% respectively, resulting in power savings of 17% and 35% in the caches, compared to the aggressively clock-gated baselines.  相似文献   

15.
微架构侧信道攻击(microarchitectural side channel attack)是一种利用处理器微架构状态开展侧信道攻击的方式.它打破了操作系统及其他软件层面提供的隔离手段,严重威胁了用户的信息安全,受到了学术界的广泛关注.与其他传统侧信道攻击不同,微架构侧信道攻击不需要攻击者与被攻击对象存在物理接触,也不需要复杂的分析设备,它只需要能够与受害者在同一环境中执行代码就可以完成攻击.基于缓存的侧信道攻击(cache-based side channel attack)利用处理器中广泛存在的缓存(cache)结构,所以这种攻击方式最有吸引力,研究也最为深入.首先总结了微架构侧信道攻击尤其是缓存侧信道攻击相关的硬件架构,之后从攻击者能力、攻击步骤以及攻击目标对攻击模型进行讨论,并根据攻击模型对现有的防御措施进行分类和比较,重点介绍了新型安全缓存架构及其设计方案,最后讨论了现有防御措施面临的挑战以及未来的研究方向.  相似文献   

16.
本文基于简单常见模式压缩编码设计了一种新颖的片内压缩Cache层次结构。在该结构中,L1数据Cache和L2Cache都以压缩格式保存数据,但具有不同的布局。其中,L1数据Cache的布局能触发部分Cache行预取,同时又能避免普通预取技术可能导致的Cache污染增加以及带宽浪费的现象,而且没有预取缓冲开销。实验结果表明,与传统Cache结构相比,本文的设计方案可以显著增加L1数据Cache和L2Cache的有效容量,并且不会增加L1数据Cache的访存延迟,对L1数据Cache平均能增加33%的有效容量,减少L1数据Cachhe失效率达21%,程序执行速度提高了13%。  相似文献   

17.
功耗是当今处理器设计领域的重要问题之一.随着多核处理器的普及,片上缓存占有了越来越多的芯片面积和功耗.提出一种带有无效缓存路访问过滤机制的低功耗高速缓存结构来降低CPU的动态功耗,具体为,通过无效缓存块的预先检查(Pre-Invalid Way Checking,PIWC)消除对无效缓存路的访问,及通过不匹配缓存路的预先检测(Pre-Mismatch Way Detecting,PMWD)消除对tag低位不匹配缓存路的访问.对实际程序的测试表明,65.2%-88.9%缓存路的无效访问可以通过以上方法被消除,约60.9%-85.6%由缓存访问带来的动态能耗从而被降低.同时,跟tag-data顺序访问方法相比,对于大多数程序,我们的方法可以获得5.1%-13.8%的节能效果提升.  相似文献   

18.
"龙腾R2"微处理器精确中断优化实现   总被引:1,自引:0,他引:1  
介绍了"龙腾R2"微处理器精确中断的实现方法,详细讨论了备份缓冲区精确中断优化方法和中断指令缓冲区中断响应机制.在"龙腾R2"微处理器上的实验结果表明,采用备份缓冲区和中断指令缓冲区的精确中断方法在不影响微处理器速度的情况下,中断响应速度是原来的3.5倍,中断返回速度是原来的2.6倍.  相似文献   

19.
提出了一种以自主研发的32位RISC结构高性能嵌入式微处理器"龙腾"R2为核心,包括存储控制单元、中断控制器、微处理器接口单元、中央控制单元、配置寄存器单元等的嵌入式SOC微处理器的设计方法,成功实现了VxWorks操作系统的移植.  相似文献   

20.
现今CPU和GPU的发展已经出现新的瓶颈,将两者“结合”在同一块芯片上成为一种新的趋势。这种新的异构架构给片上共享资源的管理带来压力。而共享末级缓存(LLC)的管理对性能的影响非常关键。由于CPU程序和GPU程序的不同特性,给CPU和GPU间共享的末级缓存管理带来新的挑战。通过分析GPU程序访存特征,借鉴之前的缓存管理方案,提出对CPU-GPU融合系统的末级缓存进行等量的静态划分和最优静态划分的方案。实验结果表明:通过缓存划分可以有效避免CPU和GPU程序间的干扰。与传统LRU策略相比,等量静态划分和最优静态划分可以使系统整体性能分别提高7.68%和11.62%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号