期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

片上多处理器中延迟和容量权衡的cache结构 总被引：1，自引：0，他引：1

肖俊华冯子军章隆兵《计算机研究与发展》2009,46(1)

片上多处理器中二级cache的设计面临着延迟和容量不能同时满足的矛盾,私有结构有较小的命中延迟但是减少了cache的有效容量,共享结构能增加cache的有效容量但是有较长的命中延迟.提出了一种适用于CMP的cache结构--延迟和容量权衡的cache结构(TCLC).该结构是一种混合私有结构和共享结构的设计,核心思想是动态识别cache块的共享类型,根据不同共享类型分别对其进行优化,对私有cache块采用迁移的优化策略,对共享只读cache块采用复制的优化策略,对共享读写cache块采用中心放置的优化策略,以期达到访问延迟接近私有结构,有效容量接近共享结构的目的,从而缓解线延迟的影响,减少平均内存访问延迟.全系统模拟的实验结果表明,采用TCLC结构,相对于私有结构性能平均提高13.7%.相对于共享结构性能平均提高12%. 相似文献

2.

多级缓存模式下的数据块替换优化算法

兰丽《计算机工程》2013,39(4)

多数处理器中采用多级包含的cache存储层次,现有的末级cache块替换算法带来的性能开销较大.针对该问题,提出一种优化的末级cache块替换算法PLI,在选择丢弃块时考虑其在上级cache的访问频率,以较小的代价选出最优的LLC替换块.在时钟精确模拟器上的评测结果表明,该算法较原算法性能平均提升7％. 相似文献

3.

环连接CMP模拟器：Godson-Ring

下载免费PDF全文

曹非《计算机工程与应用》2013,49(9):13-18

片上互连结构和cache一致性协议是片上多核处理器（CMP）设计的关键。为了探索使用环形互连结构CMP的cache一致性协议设计空间,需要使用对环形互连结构和cache一致性协议进行精确模拟的CMP模拟器平台。Godson-Ring是一个环连接CMP的用户态模拟器平台,采用功能和时序相分离的模拟方式,使用了事件驱动和执行驱动相结合的方法,周期精确地模拟了环形互连结构和cache一致性协议的硬件行为。该模拟器具有速度快和灵活性高的特点,能模拟多种cache一致性协议,可以快速、有效地探索环连接CMP的cache一致性协议设计空间。相似文献

4.

面向虚拟共享域划分的自适应迁移与复制机制

黄安文石文强高军张民选《计算机研究与发展》2013,50(8)

传统数据管理机制无法感知分布式cache布局的非一致访问延迟特性,导致多核处理器大容量cache失效率和命中延迟之间的矛盾日益加剧.此外,单独依靠数据迁移和盲目复制难以解决共享数据块的竞争访问与长延迟命中问题.基于瓦片式多核处理器分布式cache的虚拟共享域划分机制,提出并实现一种域间数据自适应迁移与复制机制,能够协同感知本地目标bank候选牺牲块状态和远程命中块的局部活跃程度,在多个虚拟共享域间对多核竞争访问的共享数据进行动态迁移和复制决策,综合权衡片上长延迟命中和cache容量有效利用率问题,降低平均存储访问延迟.最后,在全系统模拟器中实现虚拟共享域划分和域间共享数据自适应迁移-复制机制,并采用典型测试程序包SPLASH-2评估性能优化情况.实验表明,与传统固定共享域划分机制和同类优化机制相比,自适应迁移与复制机制在不同共享度下均可获得相应性能提升,面积开销可以忽略不计. 相似文献

5.

面向多线程应用的片上多核处理器私有LLC优化

吴建宇彭蔓蔓《计算机工程》2015,41(1):316-321

片上多核处理器已逐渐取代传统超标量处理器成为集成电路设计的主流结构,但芯片的存储墙问题依旧是设计的一个难题。CMP通过大容量的末级高速缓存来缓解访存压力。在软件编程模式向多线程并行方式转变的背景下,针对多线程应用在多核处理器上的Cache访问特征,提出一种面向私有末级Cache的优化算法,通过硬件缓冲器记录处理器访存地址,从而实现共享数据在Cache间的传递机制,有效降低Cache失效开销。实验结果表明,在硬件开销不超过Cache部件0.1%的情况下,测试用例平均加速比为1.13。相似文献

6.

面向多核NUCA共享数据竞争问题的Bank一致性技术

吴俊杰潘晓辉《计算机工程与科学》2009,31(11)

非一致Cache体系结构(NUCA)几乎已经成为未来片上大容量cache的发展方向。多核处理器的NUCA结构中,多个处理器核对共享数据的竞争访问,可能导致数据经常处于中部的cache Bank,增加NUCA的访问延迟。本文提出支持数据副本的Bank一致性技术,通过有选择地在NUCA中为访问的处理器核创建不同的数据副本,Bank一致性技术能够缓解多核处理器对共享数据的竞争问题。本文详细地介绍了Bank一致性协议的设计方法。最后,使用全系统模拟器对8个NPB基准测试程序进行了详细评测。实验结果表明,Bank一致性技术能够有效缓解多核处理器中共享数据的竞争访问问题。相比不支持Bank一致性技术的CMP-DNUCA结构,本文的方法能将系统IPC性能平均提升5.95%。相似文献

7.

多核处理器非一致Cache体系结构延迟优化技术研究综述 总被引：1，自引：0，他引：1

黄安文高军张民选《计算机研究与发展》2012,(Z1):118-124

非一致Cache体系结构(non-uniform cache architecture,NUCA)为解决多核处理器(chip multi-processor)"存储墙"难题提供了新的设计思路.重点关注面向CMP的NUCA延迟优化技术,在介绍若干典型NUCA模型的基础上,分析大容量Cache环境下共享/私有机制中的延迟-容量权衡问题,讨论映射、迁移、复制和搜索等数据管理机制在多核环境下的优缺点.最后,针对基于片上网络(network-on-chip,NoC)互连结构的可扩展CMP体系结构,从NUCA模型优化、数据管理和一致性维护机制3个方面讨论和预测未来CMP NUCA延迟优化领域的发展趋势及面临的挑战性问题. 相似文献

8.

面向多线程程序基于效用的Cache优化策略

唐轶轩吴俊敏陈国良隋秀峰黄景《计算机研究与发展》2013,50(1):170-180

为了提供高速的数据访问,多核处理器常使用Cache划分机制来分配二级Cache资源,但传统的共享Cache划分算法大多是面向多道程序的,忽略了多线程负载中共享和私有数据访问模式的差别,使得共享数据的使用效率降低.提出了一种面向多线程程序的Cache管理机制UPP,它通过监控Cache中共享、私有数据的效用信息,为每个线程以及共享数据分配Cache空间,使得各个线程以及共享数据的边际效用最大化,从而提高负载的整体性能.另外,UPP还考虑了程序中数据的使用频率以及临近性信息,通过提升、动态插入策略过滤低重用数据,从而使得高频数据块留在Cache中.通过实验表明,其性能相对于基于LRU的纯共享Cache结构和基于公平的静态Cache划分结构均有提升. 相似文献

9.

基于共享cache多核处理器的数据库内存排序优化

邓亚丹吴京熊伟景宁《计算机研究与发展》2009,46(Z2)

针对目前主流的多核处理器,提出了共享cache敏感的数据库排序多线程执行框架(sharedcache sensitive multithreaded sorting framework,SCS-MSF).首先分析了多线程QuickSort排序在共享cache多核处理器中执行时面临的性能瓶颈,在此基础上针对SCS-MSF每个处理阶段的数据访问特点,提出了各自的多线程并行执行模式,并通过各种优化策略改善线程执行时的cache性能,特别是减少多线程访问共享cache时的访问冲突问题,以提高线程的cache性能.在实验中,基于内存数据库EaseDB实现了SCS-MSF.实验结果表明SCS-MSF具有良好cache访问性能,从而提高了多线程执行的效率,而且性能稳定,数据库排序性能得到了较大提高. 相似文献

10.

面向CMP体系结构的二级CACHE替换算法设计

张骏樊晓桠刘松鹤《小型微型计算机系统》2007,28(12):2277-2281

片上多处理器体系结构（CMP）能够有效地挖掘程序线程级和指令级的并行性.典型的CMP体系结构中二级CACHE被多个处理器内核共享,这提高了二级CACHE利用率并且能避免复制存储器硬件资源.但内核的分支误预测导致错误路径上的LOAD缺失向共享的二级CACHE中写入无用数据,造成二级CACHE的污染.这降低了其他内核对二级CACHE空间的占用率,增加了二级CACHE缺失率,引起了存储资源在线程间分配的不均衡,甚至导致线程饥饿,影响处理器的整体性能.本文提出一种适用于CMP处理器的轻污染二级CACHE替换算法,优先将这些错误路径上的数据替换出去,缓解了二级CACHE污染对性能造成的影响. 相似文献

11.

“龙腾”R2微处理器Cache单元的设计与实现

屈文新樊晓桠《计算机工程与应用》2006,42(17):22-25

合理地组织一个多级的高速缓冲存储器(Cache)是一种有效的减少存储器访问延迟的方法。论文提出了一种设计32位超标量微处理器Cache单元的结构,讨论了一级Cache、二级Cache设计中的关键技术,介绍了Cache一致性协议的实现,满足了“龙腾”R2微处理器芯片的设计要求。整个芯片采用0.18umCMOS工艺实现,芯片面积在4.1mm×4.1mm之内,微处理器核心频率超过233MHz,功耗小于1.5W。相似文献

12.

移动数据库技术的缓存管理策略研究

刘耀林程菊花《计算机时代》2010,(8):14-16

移动数据库的缓存技术使客户机通过缓存少量的服务器数据项,便能拥有较高的处理速度,而且,它也是解决移动数据库频繁断接性问题的关键技术。文章研究了缓存管理策略在移动数据库中的应用,重点研究了缓存管理策略三大关键问题：缓存粒度、缓存一致性以及缓存替换,提出了一种基于统计与优先级原则解决缓存一致性问题的新思路。相似文献

13.

基于嵌入应用的一级Cache设计空间的研究

胡荣群《计算机光盘软件与应用》2010,(8):27-28

在嵌入式领域,一般都是单个或一类应用程序在处理器上反复执行,在这种情况下,通过配置cache的参数,可以得一个性能最优的cache。通过变化cache的组容量s、块容量a和块大小b三个参数,可以得到一个总访问时间最小的cache配置。在本文中,提出了两个cache仿真算法,此算法可以减少判断cache命中／失效的时间复杂度。相似文献

14.

CMP体系结构上非包含高速缓存的设计及性能分析

冯昊吴承勇《计算机工程与设计》2008,29(7):1595-1600

半导体技术的发展使得在芯片上集成数十亿个晶体管成为可能.目前工业界和学术界倾向于采用片上多处理器体系结构(CMP),对于此类结构,芯片性能受片外访存影响较大,因此如何组织片上高速缓存层次结构是一个关键.针对此问题,提出采用非包含高速缓存组织片上最后一级高速缓存,以降低片外访存次数.并通过对Splash2部分测试程序的详细模拟,对CMP上高速缓存层次结构的不同组织方式做了比较.数据显示非包含高速缓存最多可使平均访存时间降低8.3%.同时,指出非包含高速缓存有助于节省片上资源的特性,并给出片上集成三级高速缓存后CMP上高速缓存层次结构的设计建议. 相似文献

15.

基于用户偏好的协作内容缓存策略

左亚兵王凯杨帆姜静《计算机应用研究》2022,39(1):123-127

随着无线网络不断增长的业务需求,蜂窝架构频谱资源受限,回程容量将成为系统瓶颈。为了缓解这种瓶颈,考虑一种特殊的异构蜂窝网络,结合缓存节点的部署、用户位置分布、用户对请求内容的偏好以及缓存节点有限的存储空间,对内容存储及用户关联联合优化问题进行建模分析。将目标函数建模为请求时延的最小化,简单证明该问题是NP-hard的,并设计了基于改进KM(Kuhn-Munkres)的内容放置策略。最后,通过实验比较了该算法与其他基准方案的性能。相似文献

16.

机群代理的单一缓存映像技术

廖祥文刘美华古志民《计算机应用》2003,23(11):79-81

为了在Web机群代理中有效定位缓存对象在节点机中的位置，必须实现单一缓存映像，以隐藏机群的分布和异构特性，为客户提供一致的缓存资源。为解决该问题，文中首先提出一个缓存摘要管理器体系结构，该结构基于各个缓存节点机的摘要、结合负载平衡信息，可有效定位缓存节点机，然后给出了机群代理中缓存节点机与缓存摘要管理器的实现方法。相似文献

17.

一种新颖的软件可控Cache优化方法

杜红燕田兴彦田新华《计算机工程与应用》2005,41(21):52-57

由于Cache污染问题,传统的仅由硬件控制的Cache替换策略不能得到令人满意的Cache利用率。随着软件可控Cache机制的出现,编译器开始可以直接控制Cache替换,改善Cache行为。本文证明了一个Cache提示优化定理,并依该定理提出了一个由编译器辅助控制的Cache替换策略:最优Cache划分(OCP)。OCPCache替换策略简化了Cache行为和Cache失效分析方法。实验结果表明OCPCache替换策略能有效地降低Cache失效率。相似文献

18.

P2P网络缓存协作的研究

贾磊张新有《小型微型计算机系统》2011,32(4)

为了提高P2P网络的数据性能和提高节点的缓存利用率,提出一种实施在应用层的缓存协作协议R/WGCC,它由分组协议和缓存协作管理协议两部分组成.根据P2P网络中节点不稳定的特点,分组协议分析了节点的四种不同的状态,把一个节点的邻居结点分为只读组和读写组,并提出一种区分节点状态的分组算法.缓存管理协议利用缓存替换算法中产生的信息并根据节点所在的分组,管理组内的缓存资源.R/WGCC平衡了各节点的缓存利用率,提高了缓存的命中率,有效的提高缓存的效率. 相似文献

19.

基于缓存技术的Web应用性能优化研究

王春娟《数字社区&智能家居》2008,(3)

在Internet快速发展的今天,用户通过网络获取大量的信息,各种各样的Web应用系统也随之产生,用户对Web应用系统的响应速度上升到最高需求。为提高用户的感受并降低企业和服务提供者的成本,经过研究和分析,发现缓存技术是在不增加成本的前提下提高Web应用系统性能的最有效的解决方案之一。相似文献

20.

一种低功耗动态可重构cache方案 总被引：1，自引：0，他引：1

赵欢苏小昆李仁发《计算机应用》2009,29(5):1446-1451

嵌入式系统中,处理器功耗是十分受关注的,研究表明嵌入式系统中cache存储器的功耗占处理器总功耗的30%～60%。为此提出一种低功耗动态可重构的cache方案Tournament cache,该cache方案通过在传统cache结构的基础上增加三个计数器和一个寄存器,在程序运行的过程中,根据计数器统计的结果动态调整cache的相联度,使得相联度在1、2或4路之间变化,以适应不同程序段的需要,从而降低系统的功耗。实验结果表明,此cache方案对比传统的四路组相联的cache能耗节省超过40%,而且性能的降低几乎可以忽略。相似文献