期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

利用循环分割和循环展开避免Cache代价 总被引：1，自引：0，他引：1

刘利陈彧乔林汤志忠《软件学报》2008,19(9):2228-2242

存储系统与处理器之间的速度差距逐渐变大,为此,cache使用了分级机制,但这也带来了额外的存储延迟(cache代价).提出一种利用循环分割和循环展开相结合避免cache代价的PCPLPU(prevent cache penalty by loop partition-unrolling)算法.实验结果表明,PCPLPU算法能够有效避免循环代价,提高程序性能. 相似文献

2.

面向虚拟机环境的Cache动态划分算法设计与实现

李家文沈立《计算机科学与探索》2012,6(1):58-66

为改善虚拟化系统的cache隔离性,提高系统的整体性能,面向虚拟化环境设计并实现了一种cache动态划分算法。该算法采用页面着色的思想,通过为虚拟机分配私有颜色页面来实现cache的划分,同时能够根据虚拟机的cache需求为其动态调整cache容量。在Xen虚拟环境中实现了该算法。实验结果表明,该算法可以在较低开销的情况下,显著提高多虚拟机上并发程序的全局性能。相似文献

3.

结合指令预取和缓存划分的多核缓存WCEC优化

下载免费PDF全文

安立奎韩丽艳《计算机工程与应用》2020,56(1):69-75

对于能量供应有限制的硬实时多核系统,最差情况下的能量消耗WCEC（Worst-Case Energy Consumption）是一个非常关键的问题。随着芯片工艺的发展,顺序指令预取技术可以减少缓存WCEC。为了提高指令预取的最差情况下的节能效率,提出结合指令预取和共享缓存划分的硬实时多核系统缓存WCEC优化方法。该方法通过线性规划方程ILP（Integer-Linear Programing）为每个核分配L2缓存划分因子和调整每个硬实时子任务的指令预取度,在保证硬实时系统满足时间截止期的情况下,最小化其缓存WCEC。对DEBIE系统进行实例分析,实验结果表明优化方法是有效的,在保证系统满足时间截止期的情况下,优化后的缓存WCEC比没有指令预取优化的缓存WCET平均减少了22.5%。相似文献

4.

虚拟机缓存划分的设计与实现

下载免费PDF全文

靳辛欣陈昊罡汪小林王振林温翔罗英伟李晓明《计算机科学与探索》2010,4(1):36-45

阐述了一种基于VMM(virtual machine manager)的虚拟机缓存划分的设计与实现。该方法采用操作系统中的页面着色技术,在虚拟机管理器Xen上进行实现。这种机制对于VMM之上的客户操作系统是完全透明的,便于操作,具有很好的灵活性。经测试表明,提出的缓存划分的方法能够显著地提高同时运行在不同虚拟机上的应用程序的性能。对从SPEC CPU 2006基准测试程序里面挑选出来的并发程序的负载进行测试,结果表明缓存划分最高可以使其性能提升19%。相似文献

5.

关键循环到可重构阵列映射中的时序参数分析

下载免费PDF全文

朱敏刘雷波尹首一王星魏少军《计算机工程》2012,38(22):260-262

通过定义算法关键循环到可重构阵列映射的建立时间、保持时间等核心时序参数,分析存储器带宽有限、算法数据流图拓扑不规则等实际问题,给出配置时序模型的优化算法,提出路径特征等参数的描述形式,为可重构自动编译提供新的处理方式。验证结果表明,在视频算法H.264关键循环deblocking的映射过程中,该优化映射方法使得性能在原有基础上提升43%。相似文献

6.

片上多核处理器共享末级缓存动静结合地址映射机制

曹非刘志勇《计算机科学》2012,39(8):304-310

片上多核处理器(CMP)通常采用私有或者共享的末级高速缓存(cache)结构,而共享末级cache一般使用静态地址映射机制。该机制将各处理器临时私有访问的数据映射于分布在其他处理器的末级cache中,使得各处理器对临时私有数据的访问延时增加。针对该问题,提出了一种动静结合的共享末级cache地址映射方法。该方法可将原来静态映射于其他处理器末级cache中的临时私有数据动态映射于访问者处理器的本地末级cache中,减少了大量静态映射所造成的长延时非本地末级cache访问,从而有效降低了整个共享末级cache的访问延时,在提高性能的同时降低了功耗和带宽使用。实验结果表明,动静结合的地址映射方式应用于采用环连接互连结构和侦听顺序环协议的CMP结构时,可获得的平均性能提升为9%,最大性能提升为38%。相似文献

7.

Partitioning and mapping of parallel programs by self-organization

Hans-Ulrich Heiss Marcus Dormanns 《Concurrency and Computation》1996,8(9):685-706

To execute a parallel program on a multicomputer system, the tasks of the program have to be mapped to the particular processors of the parallel machine. The aim of the mapping is twofold: (i) to achieve a balanced load on the processors (partitioning problem) and (ii) to keep communication delays low by placing communicating tasks closely together (mapping). Since both the communication structure of the program and the interconnection structure of the parallel machine can be represented as graphs, the mapping problem can be regarded as a graph embedding problem to minimize communication costs. As a new heuristic approach to this NP-hard problem we apply Kohonen's self-organizing maps to establish a topology-preserving embedding. Experimental results are presented and compared to other approaches to this problem. The most attractive feature of our new method is that it can be extremely well parallelized. 相似文献

8.

线性脉动阵列变换的空时映射搜索算法

陈慕羿李挥《小型微型计算机系统》2007,28(2):297-301

研究了一类多重循环算法的线性脉动阵列实现.为了提高线性脉动阵列变换中空时映射的搜索效率,在Moldovan空时映射的基础上,采用启发式搜索方法,并引入基削减与分支定界相结合的算法,大大降低了算法复杂度,提高了效率.通过合理安排验证顺序,结合实际硬件结构进行搜索,进一步降低了计算复杂性,并使得到的线性阵列更加易于实际实现,硬件功能及结构之间达到了最大程度的均衡性. 相似文献