期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

周谦冯晓兵张兆庆《计算机科学》2007,34(11):298-300

随着处理器和存储器速度差距的不断拉大，访存指令尤其是频繁cache miss的指令成为影响性能的重要瓶颈。编译器由于无法得知访存指令动态执行的拍数，一般假定这些指令的延迟为cache命中或者cache miss的延迟，所以并不准确。我们引入cache profiling技术来收集访存指令运行时的cache miss或者命中的信息，利用这些信息来计算访存的延迟。乱序机器上硬件的指令调度对于发射窗口内的指令能进行很好的动态调度，编译器则对更长的范围内的指令调度更有优势。在reorder buffer中cache miss一旦发生，容易引起reorder buffer满，导致流水线阻塞。调度容易cache miss的指令。使其并行执行，从而隐藏cache miss的长延迟，就可以提高程序性能。因此，我们针对load指令，一方面修改频繁miss的指令的延迟，一方面修改调度策略，提高存储级并行度。实验证明，我们的调度对于bzip2有高达4．8％的提升，art有4％的提升，整体平均提高1．5％。相似文献

2.

cache profiling信息指导的软件流水

周谦冯晓兵张兆庆《计算机研究与发展》2008,45(5):834-840

软件流水是一种重要的指令调度技术,它通过同时执行来自不同循环迭代的指令来加快循环的执行时间.随着处理器速度和访存速度差距越拉越大,访存指令尤其是cache miss的访存指令日益成为系统性能提高的瓶颈.由于这些指令的延迟不是固定的,如何在软件流水中预测并掩盖这些访存指令的延迟是非常重要的.与前人预测访存延迟的方法不同,引入cache profiling技术,通过动态收集到profile信息来预测访存延迟,并进行适当的调度.当增加模调度循环中的访存指令的延迟时,启动间隔也会随之增大,导致性能不会随之上升.CSMS算法和FLMS算法在尽量不增大启动间隔的情况下,改变访存指令的延迟.改进了CSMS算法和FLMS算法,根据cache profiling的信息来改变访存延迟,所以比前人的方法更为准确.实验表明,新方法可以有效地提高程序性能,对SPEC2000测试程序平均性能提高1%左右,个别例子的性能改进高达11%. 相似文献

3.

非线性规律访存操作的数据预取技术

吴佳骏冯晓兵张兆庆《计算机研究与发展》2007,44(2):355-360

编译器在静态分析方式下很难对程序的非线性规律访存操作进行正确的数据预取 .但采用profiling技术可以得到程序运行时候的访存规律,利用这些信息可以精确地插入数据预取指令 .基于stride profiling技术,提出了新的信息收集类型stride iterative,更精确地反映程序执行时访存指令的实际行为,并结合别名分析的结果调整对同一cache行的数据预取,得到比普通数据预取更好的预取性能 .安腾2上运行CPU2000的12个整型测试例子平均有8.54%的性能提升,其中mcf性能提升达到了77.87%. 相似文献

4.

指导cache静态划分的程序性能profiling优化技术

贾耀仓武成岗张兆庆《计算机研究与发展》2012,49(1):93-102

对于共享cache的多核处理器,如何管理好各个核对cache的利用,对于充分发挥多核处理器性能是很关键的问题.目前采用的cache替换方法程序间会出现性能干扰,cache静态划分技术则是通过为同时运行的程序分配不同的空间来解决性能干扰问题.为了给程序分配合适大小的cache空间,需要对程序进行性能profiling,即事先多遍运行收集程序在各种cache容量下的性能数据,这种性能profiling方法开销巨大,影响实用.为了解决性能profiling需要多遍运行程序的问题,提出了只需单遍运行的程序性能profiling优化技术.该技术利用在线的phase分析技术识别程序的运行阶段,避免对相同阶段的重复profiling;同时分析程序各phase的性能同cache容量变化的关系趋势,对于性能不敏感的容量变化则不进行profiling,降低开销.在程序运行结束后通过程序各phase在cache各种容量下的性能来估计程序在各容量下的整体性能,以指导cache静态划分.实验表明,该技术的开销仅为7%,而该方法指导的cache划分比未划分时有8%的性能改进,同多遍运行的程序性能profiling指导的cache划分性能相比仅有1%的下降. 相似文献

5.

基于记录缓冲的低功耗指令Cache方案 总被引：1，自引：1，他引：1

马志强季振洲胡铭曾《计算机研究与发展》2006,43(4):744-751

现代微处理器大多采用片上Cache来缓解主存储器与中央处理器(CPU)之间速度的巨大差异,但Cache也成为处理器功耗的主要来源,尤其是其中大部分功耗来自于指令Cache.采用缓冲器可以过滤掉大部分的指令Cache访问,从而降低功耗,但仍存在相当程度不必要的存储体访问,据此提出了一种基于记录缓冲的低功耗指令Cache结构RBC.通过记录缓冲器和对存储体的改造,RBC能够过滤大部分不必要的存储体访问,有效地降低了Cache的功耗.对10个SPEC2000标准测试程序的仿真结果表明,与传统基于缓冲器的Cache结构相比,在仅牺牲6.01%处理器性能和3.75%面积的基础上,该方案可以节省24.33%的指令Cache功耗. 相似文献

6.

TigerSHARC Ts201中Cache的原理及应用

刘学李少谦《通讯和计算机》2005,2(12):61-64

本文详细论述了TigerSHARC Ts201中cache的结构和运行原理，并给出了在DSP复位后对cache进行初始化和打开cache使其处于工作状态的汇编程序，最后通过常用的FFT程序使用cache前后DSP所消耗的时间显示了cache在提高DSP性能方面起到的重要作用。相似文献

7.

面向多核处理器系统的Cache感知调度算法

徐远超沈岩谭旭万虎张志敏《小型微型计算机系统》2013,34(2):365-369

Cache空间的不公平使用和争用直接影响系统的整体性能,现有Linux操作系统的默认调度算法不能感知程序的行为,包括访问cache的失效次数,不了解线程之间访存模式和频度上可能存在的差异,因而无法做出更加合理的调度.本文提出并在Linux环境下实现了一种Cache感知的调度算法CAS,通过监测每个任务每千条指令的共享cache失效次数,把cache失效次数相近的任务聚合到同一个核上,使得cache失效次数差异较大的任务运行在不同的核上,避免了cache失效次数都很大的任务在不同的核上同时运行,从而减小了cache空间的不公平使用和争用.实验表明,CAS算法在大多数情况下,减少了整个负载的共享cache失效次数,提高系统的平均吞吐量约5％左右. 相似文献

8.

龙芯/ORC编译器中的Edge Profiling技术

下载免费PDF全文

梁珊珊张军超冯晓兵《计算机工程》2007,33(13):78-80

在程序实际执行中，Profiling技术能为编译器提供准确的轮廓信息。编译优化借助这种轮廓信息，可在优化时进行取舍，提高生成代码性能。该文介绍了在龙芯/ORC编译器中edge profiling的技术，给出了在edge profiling辅助下CPU2000性能测试结果。相似文献

9.

指令调度中推断和推测技术的研究

叶崴马杰侯朝焕《微计算机应用》2006,27(6):691-693

编译器提高程序并行性的主要障碍是：频繁的控制转移和模棱两可的内存访问。推断和推测是vliw处理器体系结构的新特点，为了消除分支或访存对指令级并行性识别的影响。指令调度是编译器挖掘程序指令级并行性的关键技术之一，本文论述了如何在指令调度中有效地利用推断和推测技术，提高程序的性能。相似文献

10.

ALTOS3068的存储管理

陈代权《小型微型计算机系统》1990,11(10):33-37

ALTOS 3068超级微机的存储管理机构中有三级cache。除了CPU 68020在片指令cache外,在CPU与MMU之间设置了数据/指令cache,访问这一cache时可不经过MMU从而避免了地址转换引起的延迟;在MMU中有一地址翻译表的cache,以实现快速的虚实页号映象。3068独有的多上下文cache技术,使得多个进程可共享各cache,加速了上下文的切换。此外3068的地址翻译表采用树形结构,有效地压缩了表的规模并提高了检索速度。相似文献

11.

基于缓存的分布式统一身份认证优化机制研究

杨冬菊冯凯《计算机科学》2018,45(3):300-304, 310

企业在进行应用系统集成时,普遍使用独立的身份认证系统来实现平台中身份信息的交换和共享。如何应对高并发、大用户流量的用户请求,是保障认证系统稳定、高效运行的重要问题。针对单认证中心负载过重,容易出现单点失效及系统响应慢的问题,提出了将认证服务器集群化的方案;将认证票据存储在缓存使得多个认证节点共享认证信息,并将重要且频繁使用的数据预存到缓存中以提高响应速度;结合复杂多样的用户行为提出了基于Hybrid的多因素缓存替换算法。实验结果表明,所采用的基于缓存的分布式认证架构能够保证系统的稳定性,提高系统的响应速度,改进的缓存替换算法提高了缓存命中率。相似文献

12.

CMFSim:高可配可扩展的缓存微架构功能模拟器

宋双洋赵姗杨秋松《计算机系统应用》2017,26(10):36-43

作为提高CPU读取和存储数据的效率,弥补与主存之间存取速度差距的有效策略,CPU的缓存（Cache）充分利用其对数据使用的局部性原理,对最近或最常使用的数据进行暂存,对CPU的性能起着决定性作用.缓存的微架构正是决定缓存性能的关键性因素.然而,现代先进的CPU缓存都具备极为复杂的结构,存在多种策略、多种硬件算法和多个层级等不同维度的设计,从硬件上直接设计和论证不仅耗时而且成本很高,Cache微架构模拟器正是用软件方法对硬件微架构进行模拟和仿真.设计一款结构优良的缓存,对不同微架构进行评估,是一件具有深远意义的工作.本文从硬件结构出发,设计实现了一款多级、高可配、高可扩展的缓存微架构功能模拟器CMFSim（Cache microarchitecture functional simulator）,实现了常见的缓存策略和硬件算法,可以进行给定配置下的缓存功能的模拟,从而分析配置参数与缓存性能间的关系. 相似文献

13.

一个由编译器控制的Cache替换策略

杜红燕田兴彦田新华《计算机工程》2006,32(8):102-104

由于Cache拓染问题，传统的仅由硬件控制的Cache替换箫略不能得到令人满意的Cache利用率。为解决该问题，EPIC引入了Cache提示以辅助控制Cache替换。文章提出了一个由编译器辅助挖制的Cache替换策略：最优Cache划分（OCP）。OCP Cache替换策略简化了Cache行为和Cache失效分析方法。实验结果表明，OCP Cache替换箫略能有效地降低Cache失效率。相似文献

14.

基于OPT Cache替换Profiling的Cache提示生成

田兴彦黄春陈火旺《计算机工程》2005,31(20):85-87

提出了一个基于最优Cache替换（OPT）Profiling的静态Cache提示生成方法，并通过模拟SPEC2000Int测试程序，对该方法与LRU Cache替换策略进行了性能比较。相似文献

15.

基于版本控制策略的WebGIS缓存实现机制研究

王映辉冯德民《计算机科学》2003,30(12):89-91

Analyze the access efficiency key factor of WebGIS, according to the locality and site- correlation, and by different access of client-side and server-side, combing mechanism of edition-control, advanced cache strategy and implementation mechanism of based client-side and server-side separately, and describe the detail of implementation based edition information. It can improve the efficiency of WebGIS greatly with this cache technology based on edition information. 相似文献

16.

网格Cache若干问题分析 总被引：7，自引：0，他引：7

陈梅都志辉《计算机科学》2004,31(5):15-17

网格中资源能力的不均衡和异构特性会给系统造成瓶颈，引起客户端延迟。网格cache系统能够有效地缓解这一问题。本文分析了网格cache的研究目的、网格cache和传统cache的关系，介绍了目前与网格cache相关的研究和网格cache系统设计的若干问题。相似文献

17.

Cache tiling for high performance morphological image processing

Craig M. Wittenbrink Arun K. Somani 《Machine Vision and Applications》1993,7(1):12-22

Morphological image analysis is a technique of processing images through shape characteristics (Jain 1989). Because images are regular data structures, morphology algorithm's memory access patterns are predictable. By using read and write patterns, we derive a model of processing to examine inefficiencies in cache processing. We then develop a cache architecture for windowed processing that reduces cache thrashing. Our caching technique, cache tiling, improves efficiency dramatically for small caches independent of compiler optimizations. Programs are not affected, providing a transparent solution to improve caching. A system code, compilers, or profiling programs can determine the blocking necessary for the best performance. An analytical model for morphological processing's memory characteristics is presented that provides for exact cache analysis and prediction. The analytical model is compared to address traces to validate the model. Other algorithms such as inner product, matrix multiplication, and convolution also benefit from the architecture presented herein. 相似文献

18.

VOD集群代理缓存系统中缓存技术的研究

夏嵩李俊《计算机仿真》2009,26(5)

在VOD集群代理缓存系统中,由于存在多个服务器节点,缓存在其上的合理分布能够极大地提高整个系统的缓存利用率,进而提高系统的整体性能,这就是缓存配置问题.现有缓存技术中动态缓存配置(DCR)算法中,部分影片缓存不充分,浪费了一部分缓存空间.针对该问题,提出了一种改进算法.算法以提高系统的缓存利用率并进而提高缓存命中率为目标,在放置过程中,对需要缓存的影片数据都进行充分放置.仿真实验表明,改进后的算法有较高的缓存命中率,因而,改进算法使缓存系统有更好的整体性能. 相似文献

19.

在移动计算环境中基于移动代理的缓存失效方案 总被引：2，自引：2，他引：2

吴劲卢显良任立勇《计算机科学》2003,30(4):82-84

1 引言缓存技术是分布式计算环境中的重要技术,它可以改善系统的整体性能(如查询响应时间、吞吐量等),而移动计算的网络环境是一种特殊的分布式环境,与传统的分布式系统相比,它具有鲜明的特点:移动性、断接性、带宽多样性、可伸缩性、弱可靠性、网络通信的非对称性、电源能力局限性等等。这些特点使得缓存技术在移动计算环境中尤为重要。因为缓存能有效减少带宽需求,并能节省移动计算机的能耗。相似文献