期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

兰丽《计算机工程》2013,39(4)

多数处理器中采用多级包含的cache存储层次,现有的末级cache块替换算法带来的性能开销较大.针对该问题,提出一种优化的末级cache块替换算法PLI,在选择丢弃块时考虑其在上级cache的访问频率,以较小的代价选出最优的LLC替换块.在时钟精确模拟器上的评测结果表明,该算法较原算法性能平均提升7％. 相似文献

2.

片上多处理器中延迟和容量权衡的cache结构 总被引：1，自引：0，他引：1

肖俊华冯子军章隆兵《计算机研究与发展》2009,46(1)

片上多处理器中二级cache的设计面临着延迟和容量不能同时满足的矛盾,私有结构有较小的命中延迟但是减少了cache的有效容量,共享结构能增加cache的有效容量但是有较长的命中延迟.提出了一种适用于CMP的cache结构--延迟和容量权衡的cache结构(TCLC).该结构是一种混合私有结构和共享结构的设计,核心思想是动态识别cache块的共享类型,根据不同共享类型分别对其进行优化,对私有cache块采用迁移的优化策略,对共享只读cache块采用复制的优化策略,对共享读写cache块采用中心放置的优化策略,以期达到访问延迟接近私有结构,有效容量接近共享结构的目的,从而缓解线延迟的影响,减少平均内存访问延迟.全系统模拟的实验结果表明,采用TCLC结构,相对于私有结构性能平均提高13.7%.相对于共享结构性能平均提高12%. 相似文献

3.

全相联Cache的体系结构级功耗估算与分析

王永文张民选《计算机工程与应用》2003,39(26):21-23,27

Cache是现代微处理器中消耗能量最多的部件之一。论文研究了全相联cache的组织结构,给出了一种全相联cache的体系结构级功耗估算模型,验证了该模型的有效性,并定量地分析了全相联cache组织结构的功耗特性。相似文献

4.

面向机器学习的高性能SIMT处理器cache的设计与实现

《计算机应用与软件》2019,(7)

为了满足机器学习中大数据、并行计算及降低处理器与主存之间的差距等要求,设计基于自主研发的SIMT处理器的流水线cache结构。依据局部性原理与LRU替换算法相结合设计专用的伪LRU替换算法,与通用的轮询、LFU、LRU替换算法共同完成cache替换算法的可配置要求,实现处理器与主存之间的快速交互。采用Xilinx公司virtex ultrascale系列的xcvu440-flga2892-2-e FPGA芯片对设计进行综合。结果表明该结构指令cache最大时延为2.923 ns,数据cache最大时延为3.258 ns,满足SIMT处理器性能要求。相似文献

5.

面向虚拟机环境的Cache动态划分算法设计与实现

李家文沈立《计算机科学与探索》2012,6(1):58-66

为改善虚拟化系统的cache隔离性,提高系统的整体性能,面向虚拟化环境设计并实现了一种cache动态划分算法。该算法采用页面着色的思想,通过为虚拟机分配私有颜色页面来实现cache的划分,同时能够根据虚拟机的cache需求为其动态调整cache容量。在Xen虚拟环境中实现了该算法。实验结果表明,该算法可以在较低开销的情况下,显著提高多虚拟机上并发程序的全局性能。相似文献

6.

基于硬件cache锁机制的Java虚拟机即时编译器优化

敖琪蔡嵩松王剑《计算机研究与发展》2012,(Z1):185-190

Java虚拟机即时编译器以方法为单位进行编译,编译器将字节码方法编译成可执行代码,并经过数据cache存入内存中,当再次执行到该代码段时,处理器需要从包含该代码段的内存区域取指令执行,如果该内存区域在数据cache中已经建立映射,就可以直接从数据cache中读取数据,读数据的性能就会有大幅度的提高.但是编译生成的大量可执行代码在cache中频繁替换,当生成代码被替换出cache后,代码再次执行时处理器必须访问速度较慢的主存储器,成为编译器的性能瓶颈.设计并实现了硬件cache锁机制,提出了一种软硬件协同设计的即时编译方法.通过该方法,生成代码执行时的cache失效次数降低了6.9%,SPECjvm2008中程序最高获得了17.9%的性能提升,平均性能提升4.2%. 相似文献

7.

基于嵌入应用的一级Cache设计空间的研究

胡荣群《计算机光盘软件与应用》2010,(8):27-28

在嵌入式领域,一般都是单个或一类应用程序在处理器上反复执行,在这种情况下,通过配置cache的参数,可以得一个性能最优的cache。通过变化cache的组容量s、块容量a和块大小b三个参数,可以得到一个总访问时间最小的cache配置。在本文中,提出了两个cache仿真算法,此算法可以减少判断cache命中／失效的时间复杂度。相似文献

8.

一种低功耗动态可重构cache算法的研究 总被引：1，自引：0，他引：1

任小西刘清《计算机应用研究》2013,30(2):414-416

动态可重构cache算法根据指令时间数监测程序段的变化,确定容量调整.在程序段内,状态机根据平均访问时间对cache的访问进行预判,然后根据预判的结果确定当前程序段的cache结构.实验结果表明,此算法比传统四路组相联cache功耗降低61％,而性能损失只有2％左右.与已有算法相比,功耗和性能都得到进一步的提高. 相似文献

9.

基于共享cache多核处理器的数据库内存排序优化

邓亚丹吴京熊伟景宁《计算机研究与发展》2009,46(Z2)

针对目前主流的多核处理器,提出了共享cache敏感的数据库排序多线程执行框架(sharedcache sensitive multithreaded sorting framework,SCS-MSF).首先分析了多线程QuickSort排序在共享cache多核处理器中执行时面临的性能瓶颈,在此基础上针对SCS-MSF每个处理阶段的数据访问特点,提出了各自的多线程并行执行模式,并通过各种优化策略改善线程执行时的cache性能,特别是减少多线程访问共享cache时的访问冲突问题,以提高线程的cache性能.在实验中,基于内存数据库EaseDB实现了SCS-MSF.实验结果表明SCS-MSF具有良好cache访问性能,从而提高了多线程执行的效率,而且性能稳定,数据库排序性能得到了较大提高. 相似文献

10.

环连接CMP模拟器：Godson-Ring

下载免费PDF全文

曹非《计算机工程与应用》2013,49(9):13-18

片上互连结构和cache一致性协议是片上多核处理器（CMP）设计的关键。为了探索使用环形互连结构CMP的cache一致性协议设计空间,需要使用对环形互连结构和cache一致性协议进行精确模拟的CMP模拟器平台。Godson-Ring是一个环连接CMP的用户态模拟器平台,采用功能和时序相分离的模拟方式,使用了事件驱动和执行驱动相结合的方法,周期精确地模拟了环形互连结构和cache一致性协议的硬件行为。该模拟器具有速度快和灵活性高的特点,能模拟多种cache一致性协议,可以快速、有效地探索环连接CMP的cache一致性协议设计空间。相似文献

11.

弹性Web Cache集群的自适应负载均衡策略

段赵磊黄艳《小型微型计算机系统》2013,34(7):1527-1530

在Web cache集群中,Web突发请求的频繁出现引发资源供给不足,造成系统性能显著下降.为有效处理Web突发请求,构建了同时使用本地资源和云资源的弹性Web cache集群.在弹性Web cache集群中,为提升系统性能,降低费用,提出一种自适应的负载模型.该模型可以动态自适应地调整,能够有效适用于异构Web cache集群.考虑到云结点的网络延迟,修正该模型得到云结点负载模型.基于以上负载模型,构造弹性Web cache集群的自适应负载均衡策略.与其他负载均衡策略相比较,使用该自适应负载均衡策略能够在弹性Web cache集群中实现高效的负载均衡. 相似文献

12.

基于语义信息的cache管理策略

周勇蒋泽军王丽芳宋玲玲王斌《微处理机》2011,32(6):87-90

针对传统的cache在预取时不判断预取数据块的状态,导致一些不必要的I/O,同时降低cache命中率的缺点,提出了一种基于语义信息的cache管理策略.该策略首先通过收集语义信息让磁盘了解文件系统在磁盘上的数据布局,磁盘上每个数据块是活跃的还是死亡的,并得出磁盘上分区数据块的活跃度.然后根据语义信息在预取的时候不预取死亡的块,在活跃度高的分区上提高预取参数,而在cache替换出数据块时对于死亡块不进行写盘操作.实验结果表明该策略可以较好提高cache命中率进而提高系统的吞吐量. 相似文献

13.

避免模调度中cache代价的优化方法 总被引：1，自引：0，他引：1

刘利李文龙郭振宇李胜梅汤志忠《软件学报》2005,16(10):1842-1852

软件流水能够加快循环的执行速度.模调度是一种被广泛采用的软件流水的启发式.为了改善存储系统,cache使用了分级机制,但这也带来了额外的存储延迟-cache代价.证明了模调度可能导致cache代价,并提出了一种可以避免模调度的cache代价的PCPMS(prevent cache penalty in modulo scheduling)算法.实验结果表明,PCPMS能够避免模调度中的cache代价,提高程序性能. 相似文献

14.

一种步长自适应二级cache预取机制

下载免费PDF全文

靳强郭阳鲁建壮《计算机工程与应用》2011,47(29):56-59

随着集成电路制造工艺的快速发展,片上实现大容量的cache成为可能,这从很大程度上降低了cache的失效率,与此同时,大容量的cache发生失效时的开销也更加显著。通过分析cache失效行为,设计了一种新的二级cache步长自适应预取机制,该机制充分利用了二级cache对指令地址不可见的特点,使用失效地址作为索引检查预取表。通过分析测试结果,选择了合适的结构参数,有效提高了cache性能。相似文献

15.

一种低功耗动态可重构cache方案 总被引：1，自引：0，他引：1

赵欢苏小昆李仁发《计算机应用》2009,29(5):1446-1451

嵌入式系统中,处理器功耗是十分受关注的,研究表明嵌入式系统中cache存储器的功耗占处理器总功耗的30%～60%。为此提出一种低功耗动态可重构的cache方案Tournament cache,该cache方案通过在传统cache结构的基础上增加三个计数器和一个寄存器,在程序运行的过程中,根据计数器统计的结果动态调整cache的相联度,使得相联度在1、2或4路之间变化,以适应不同程序段的需要,从而降低系统的功耗。实验结果表明,此cache方案对比传统的四路组相联的cache能耗节省超过40%,而且性能的降低几乎可以忽略。相似文献

16.

指导cache静态划分的程序性能profiling优化技术

贾耀仓武成岗张兆庆《计算机研究与发展》2012,49(1):93-102

对于共享cache的多核处理器,如何管理好各个核对cache的利用,对于充分发挥多核处理器性能是很关键的问题.目前采用的cache替换方法程序间会出现性能干扰,cache静态划分技术则是通过为同时运行的程序分配不同的空间来解决性能干扰问题.为了给程序分配合适大小的cache空间,需要对程序进行性能profiling,即事先多遍运行收集程序在各种cache容量下的性能数据,这种性能profiling方法开销巨大,影响实用.为了解决性能profiling需要多遍运行程序的问题,提出了只需单遍运行的程序性能profiling优化技术.该技术利用在线的phase分析技术识别程序的运行阶段,避免对相同阶段的重复profiling;同时分析程序各phase的性能同cache容量变化的关系趋势,对于性能不敏感的容量变化则不进行profiling,降低开销.在程序运行结束后通过程序各phase在cache各种容量下的性能来估计程序在各容量下的整体性能,以指导cache静态划分.实验表明,该技术的开销仅为7%,而该方法指导的cache划分比未划分时有8%的性能改进,同多遍运行的程序性能profiling指导的cache划分性能相比仅有1%的下降. 相似文献

17.

INETLi486微处理器的辅助超高速缓冲存贮器设计

梁亢《微处理机》1992,(1):14-22

超高速缓冲存贮器（cache）技术是目前国际上高档微型机普遍采用的先进技术。尽管i486具有内部cache，然而对于以大量数据集方式进行操作的数据，内部cache又显得够用。为了充分发挥i486CPU高速特性，系统必须采用外部cache或者辅助cache，使大多数CPU数据的I／O周期均可对cache进行访问，这样CPU就可在平均接近于零等待状态下进行运行，从而提高了系统的数据吞吐量。如何合理选择Cache的容量以及工作方式是至关重要的。相似文献

18.

片上多核处理器共享末级缓存动静结合地址映射机制

曹非刘志勇《计算机科学》2012,39(8):304-310

片上多核处理器(CMP)通常采用私有或者共享的末级高速缓存(cache)结构,而共享末级cache一般使用静态地址映射机制。该机制将各处理器临时私有访问的数据映射于分布在其他处理器的末级cache中,使得各处理器对临时私有数据的访问延时增加。针对该问题,提出了一种动静结合的共享末级cache地址映射方法。该方法可将原来静态映射于其他处理器末级cache中的临时私有数据动态映射于访问者处理器的本地末级cache中,减少了大量静态映射所造成的长延时非本地末级cache访问,从而有效降低了整个共享末级cache的访问延时,在提高性能的同时降低了功耗和带宽使用。实验结果表明,动静结合的地址映射方式应用于采用环连接互连结构和侦听顺序环协议的CMP结构时,可获得的平均性能提升为9%,最大性能提升为38%。相似文献

19.

基于分布式合作cache的私有cache划分方法

李浩谢伦国《计算机应用研究》2012,29(1):229-233

当片上多处理器系统上运行多个不同程序时,如何给这些不同的应用程序分配适当的cache空间成为一个难题。Cache划分就是解决这一难题的有效方法,目前大部分的划分方法都是针对最后一级共享cache设计的。私有cache划分(private cache partitioning,PCP)方法采用一个分布式一致性引擎(DCE)把多个私有cache组织在一起,最后通过硬件信息提取单元获得多个程序在不同cache路上的命中分布情况,用于指导划分算法的执行,最后由每个DCE根据划分算法运行的结果对cache空间进行划分。实验结果表明PCP方法降低了失效率,提高了程序执行性能。相似文献

20.

一种面向流媒体的多核处理器分组调度算法*

贺鹏程王劲林邓浩江张武《计算机应用研究》2010,27(10):3911-3914

针对流媒体分组处理和多核网络处理器cache亲和性的特点,提出了综合流调度和分组调度优点的两级调度算法,即FBLA。FCFS调度算法可以达到分组级的细粒度负载均衡,但cache亲和性却很差。基于hash的调度算法可以保证很好的cache亲和性,但难以保证核间负载均衡。FBLA算法对这两种算法进行了折中,既通过cache亲和性提高处理器利用率,又能够达到细粒度的核间负载均衡。理论分析和仿真评估表明,FBLA算法具有良好的cache亲和性和负载均衡性,转发延迟和延迟波动比FCFS算法更低。在亲和因子较小时,F 相似文献