共查询到20条相似文献,搜索用时 62 毫秒
1.
所光 《计算机工程与科学》2009,31(Z1)
Cache划分技术是解决共享Cache访问冲突的重要方法,但是已有的Cache划分技术具有开销高、Cache划分时机难以确定的缺点。本文提出了面向应用的Cache划分框架(ACP)。ACP的优点是能够使用程序员提供的应用最外层循环的边界信息,更好地获取应用的失效率信息,因此Cache划分算法具有更高的精度,从而降低了划分的频率,进而提高系统性能。实验结果表明,和传统的固定周期的Cache划分方向相比,ACP具有更好的性能。 相似文献
2.
多核处理机系统Cache管理技术研究现状 总被引:1,自引:0,他引:1
多核处理器的Cache结构设计和管理是微处理器设计领域的重要问题。当前主流的商用微处理器均采用共享最后一级Cache的系统结构,而片上最后一级Cache的性能通常对处理器的性能影响较大,因此共享Cache的管理问题成为当前研究热点。本文首先介绍当前主流多核处理器及其设计问题,然后介绍了共享Cache管理的三项重要技术:线程调度、NUCA和Cache划分,最后给出多核处理器Cache管理技术的发展方向。 相似文献
3.
Cache空间的不公平使用和争用直接影响系统的整体性能,现有Linux操作系统的默认调度算法不能感知程序的行为,包括访问cache的失效次数,不了解线程之间访存模式和频度上可能存在的差异,因而无法做出更加合理的调度.本文提出并在Linux环境下实现了一种Cache感知的调度算法CAS,通过监测每个任务每千条指令的共享cache失效次数,把cache失效次数相近的任务聚合到同一个核上,使得cache失效次数差异较大的任务运行在不同的核上,避免了cache失效次数都很大的任务在不同的核上同时运行,从而减小了cache空间的不公平使用和争用.实验表明,CAS算法在大多数情况下,减少了整个负载的共享cache失效次数,提高系统的平均吞吐量约5%左右. 相似文献
4.
基于多核处理器并行系统的任务调度算法 总被引:6,自引:0,他引:6
针对多核处理器并行系统的特点,提出了相应的任务调度算法,该算法在任务调度之前加入了任务分配技术,通过合理的任务分配,可有效减少多个处理器间的通信开销,使任务调度效率更佳.仿真实现了该算法,并通过实验数据证明了该算法的优越性. 相似文献
5.
面向多线程多道程序的加权共享Cache划分 总被引:4,自引:1,他引:4
并行应用在共享Cache结构的多核处理器执行时,会因为对共享Cache的冲突访问而产生性能下降和执行时间不确定的现象.共享Cache划分技术可以把共享Cache互斥地分配给多个进程使用,是解决该问题的有效方法.由于线程间的数据共享,线程数目不同的应用对共享Cache的利用率不同,但传统的以失效率最低为目标的共享Cache划分算法(例如UCP)没有区分应用线程数目的不同.文中设计了一种面向多线程多道程序的加权共享Cache划分框架(Weighted Cache Partitioning,WCP),包括面向应用的失效率监控器和加权Cache划分算法.失效率监控器以进程为单位动态监控在不同的Cache容量下应用的失效率;而加权Cache划分算法扩展了传统的失效率最优的Cache划分算法,根据应用线程数目的不同在进行Cache划分时给应用赋予不同的权值,以使具有更多线程的应用获得更多的共享Cache,从而提高系统的整体性能.实验结果表明:加权Cache划分算法虽然失效率有所增高,但却改进了IPC吞吐率、加权加速比和公平性.在由科学和工程计算应用组成的多道程序测试用例中,WCP-1的IPC吞吐率比以失效率最低为目标函数的共享Cache划分算法最高高出10.8%,平均高出5.5%. 相似文献
6.
集成电路制造工艺的飞速发展,使得集成电路的特征尺寸不断减少和集成度不断提高,造成集成电路对工作环境的影响越来越敏感,发生软错误的几率不断增加,对可靠性造成重要影响。随着微处理器进入了多核时代,丰富的片上资源给软错误加固带来了很好的机遇。本文针对多核处理器中I/O系统软错误,提出了一种基于多核处理器的软件Scrub方法对软错误进行加固。测试结果表明,我们提出的软错误容错方法可以大大提高I/O系统的可靠性。 相似文献
7.
为了提供高速的数据访问,多核处理器常使用Cache划分机制来分配二级Cache资源,但传统的共享Cache划分算法大多是面向多道程序的,忽略了多线程负载中共享和私有数据访问模式的差别,使得共享数据的使用效率降低.提出了一种面向多线程程序的Cache 管理机制UPP,它通过监控Cache 中共享、私有数据的效用信息,为每个线程以及共享数据分配Cache 空间,使得各个线程以及共享数据的边际效用最大化,从而提高负载的整体性能.另外,UPP还考虑了程序中数据的使用频率以及临近性信息,通过提升、动态插入策略过滤低重用数据,从而使得高频数据块留在Cache中.通过实验表明,其性能相对于基于LRU的纯共享Cache结构和基于公平的静态Cache划分结构均有提升. 相似文献
8.
多核处理器中,各个处理器核之间可以并发地进行外部存储访问,提供不同于单处理器的存储级并行(memory level parallelism)能力.不规则应用中的循环,传统的并行方法难以识别其并行性,不能充分利用多核处理器存储级并行能力和并行计算能力.对基于软件开发多核处理器存储级并行进行了讨论,提出一种前瞻并行多线程算法LLSM(loop level speculative mssultithreading).LLSM对不规则应用中的循环进行并行化,在多核处理器上的测试数据表明:该算法能够有效地挖掘多核处理器的存储级并行能力和计算能力,同时指出多核环境下存储级并行计算公式需要考虑线程同步开销. 相似文献
9.
阵列众核处理器由于其较高的计算性能和能效比已经广泛应用于高性能计算领域。而要构建未来高性能计算系统处理器必须解决严峻的\"访存墙\"挑战以及核心协同问题。通常的阵列处理器,其核心多采用单线程结构,以减少开销,但是对访存提出了较高的要求。引入硬件同时多线程技术,针对实验中单核心多线程二级Cache利用率较低的问题,提出了一种共享二级Cache划分机制。经实验模拟,通过上述优化的共享二级Cache划分机制,二级指令Cache失效率下降18.59%,数据Cache失效率下降6.60%,整体CPI性能提升达到10.1%。 相似文献
10.
异构多核处理器在异构环境中受限于处理器种类,只能在特定处理器上执行.现有调度方法通常使用多类型DAG(directed acyclic graph)任务模型进行模拟,但调度方法往往忽略不同核上的通信开销,或未考虑处理器与节点的对应关系,导致调度时间开销较大,处理器资源未充分利用,任务效率低.针对上述问题,提出了PNIF(processor-node impact factor)算法.该算法引入了两个对节点优先级具有重大影响的比例因子,将它们加入到节点优先级的计算中从而确定任务执行顺序.实验结果表明,PNIF比PEFT、HEFT、CPOP在调度长度上分别平均提升5.902%、19.402%、25.831%,有效缩短了整体调度长度,提升了处理器资源利用率. 相似文献
11.
研究基于CMP(Chip Multiple Processors,片上多处理器)系统的并行编程模式旨在建立开发CMP系统上并行程序的整套方法。首先简要介绍了多核并行计算,然后通过对CMP系统上并行计算问题的综合归纳,提出了基于CMP系统的并行编程模式的概念模型,这个概念模型包含并行体系结构、并行算法设计模型、开发环境、并行程序实现模型四个核心要素;其次,对各并行编程模式各要素及其子概念的内涵进行了阐释;最后以实例对并行编程模式进行说明,初步验证了这套编程模式的合理性。 相似文献
12.
半导体技术的发展使得在芯片上集成数十亿个晶体管成为可能.目前工业界和学术界倾向于采用片上多处理器体系结构(CMP),对于此类结构,芯片性能受片外访存影响较大,因此如何组织片上高速缓存层次结构是一个关键.针对此问题,提出采用非包含高速缓存组织片上最后一级高速缓存,以降低片外访存次数.并通过对Splash2部分测试程序的详细模拟,对CMP上高速缓存层次结构的不同组织方式做了比较.数据显示非包含高速缓存最多可使平均访存时间降低8.3%.同时,指出非包含高速缓存有助于节省片上资源的特性,并给出片上集成三级高速缓存后CMP上高速缓存层次结构的设计建议. 相似文献
13.
片上多核处理器(CMP)已经成为处理器发展的方向,处理器设计的重点也转到了互连网络和存储层次结构方面,其中的一个关键问题是如何维护各处理器各级缓存(Cache)的一致性,该问题在传统的共享存储多处理器中使用Cache一致性协议来解决,而CMP相对于传统的多处理器结构具有更高的片上互连带宽和速度,给Cache一致协议提出了新的要求,也提供了新的改进机会.传统的总线侦听协议存在可扩展性不足和不必要的广播、侦听过多的缺点,而目录协议则存在失效间接延时大和复杂度高、验证困难等问题.环形连接的可扩展性好于总线结构,而其实现复杂度也远小于通常目录协议所使用的包交换点到点网络.将基于环的侦听协议应用于CMP;并考虑利用环的顺序性取消原有协议中冲突引起的重发操作,消除可能的饥饿、死锁和活锁等情况,增加协议的稳定性,同时减少消息流量和功耗;利用片上互连延时短的特点,将侦听结果和侦听请求同时传播,使得处理器可以根据侦听结果来对侦听请求进行选择性的侦听操作,可减少不必要的侦听操作,降低功耗. 相似文献
14.
在光纤2.5Gbps SDH干线网上,常常需要将某些重要的高速数据及时记录下来,以便为后续的分析处理作准备;以硬盘作为存储介质的高速海量数据记录系统有着广泛的应用前景;但是受其机械结构的限制,硬盘的内部数据传输速率远低于高速数据的传输速度;在分析了乒乓缓存结构的原理及特点的基础之上,提出了一种由乒乓结构演变而来的并行缓存结构;该结构可以降低数据流的传输速率,使之与硬盘内部数据传输率相匹配,进而实现了以硬盘为存储介质的高速海量数据记录系统。 相似文献
15.
多核处理器大规模并行系统中的任务分配问题及算法 总被引:2,自引:0,他引:2
对基于多核处理器的大规模并行系统中的任务分配问题进行了分析讨论,在此基础上建立了任务分配模型,并提出一种基于迭代的任务分配算法,该算法分为两轮操作,分别完成进程到处理节点和进程内线程到处理器核的分配,每轮操作经过带回溯的多次迭代处理,最终得到任务关系图的划分.实验数据表明该算法能在较短时间内求得近优解,并且当线程个数增大时,算法的求解时间远小于遗传算法. 相似文献
16.
随着Internet迅速发展,利用网上资源构筑分布式并行计算环境进行中、大粒度任务的分布式并行计算已呈现出重要研究价值。另外,Agent理论的日益成熟及多Agent系统MAS(Multi-Agent System)的出现,为开放式分布系统的开发和应用提供了新的模式。结合移动Agent在并行计算中的任务特性,对网络并行计算进行了抽象的分析和描述,然后给出了一个基于移动Agent计算的任务流模型实例。 相似文献
17.
随着Internet迅速发展,利用网上资源构筑分布式并行计算环境进行中、大粒度任务的分布式并行计算已呈现出重要研究价值。另外,Agent理论的日益成熟及多Agent系统MAS(Multi-Agent System)的出现,为开放式分布系统的开发和应用提供了新的模式。结合移动Agent在并行计算中的任务特性,对网络并行计算进行了抽象的分析和描述,然后给出了一个基于移动Agent计算的任务流模型实例。 相似文献
18.
考虑网格资源异构、自治、动态等特性,讨论本地用户具有强占优先权情况下的任务调度问题,提出了TBBS(Time-Balancing Based Scheduling Algorithm)算法.建立调度优化模型,以期望完成时间最小为目标选择执行任务的最佳资源组合.以时间均衡策略将任务分解并调度到资源上执行,减少了子任务同步时因等待而产生的延时,获得较好的并行计算性能.采用重复调度策略,适应计算网格中资源的特性. 相似文献
19.
20.
一种高度并行的多任务并行绘制系统结构 总被引:2,自引:0,他引:2
随着计算机图形技术的实用化,需要构造更逼真、更精细的三维复杂场景,其数据规模日益膨胀,加上对场景的实时交互的要求也越来越高,人们对多屏幕高分辨率显示的需求与日俱增,迫切需要一种针对大规模复杂场景的多任务并行图形绘制系统。本文介绍了一种适用于大规模复杂场景的高度并行的多任务多屏幕并行图形绘制系统的体系结构,支持图形任务的并行化处理和多屏幕显示。该系统结构将几何计算任务与图形绘制任务相分离,分剐进行并行化处理,在计算节点按绘制对象类型对任务进行分类以便于并行计算和任务分配,在绘制节点对各个小块屏幕图形进行并行合成。实验测试结果表明,该系统结构对多任务具有较好的并行效率和可扩展性,能够充分利用系统的并行计算资源,达到较好的绘制效果。 相似文献