首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
多核处理器的内存和Cache共享策略使内存访问延迟成为影响多核处理器性能的瓶颈,预取技术能够隐藏访问延迟,对提高多核处理器的性能有重要意义.分析并比较了一系列典型的预取策略,讨论了它们的优缺点,对几种新颖的基于硬件的多核预取技术提出了改进方案,讨论了在多核处理器体系结构下,预取策略面临的挑战和必须考虑的设计问题,为多核预取提供了创新的思路.  相似文献   

2.
针对嵌入式处理器中指令Cache功耗显著的特点,提出了一种基于分支执行历史的循环缓冲低功耗方法.利用分支指令当前信息与分支执行历史信息之间的关系,实现了应用程序中循环的动态检测与加载.通过对取指通道的精确控制,该方法能够过滤大部分不必要的指令Cache访问,有效降低了指令Cache的功耗.在SuperV_EF01DSP上的实验结果表明,采用该方法后,在处理器性能没有损失的情况下,指令Cache功耗平均降低32.58%,面积仅增加8.31%.  相似文献   

3.
党向磊  王箫音  佟冬  陆俊林  程旭  王克义 《电子学报》2012,40(11):2145-2151
为提高按序执行处理器的访存性能,本文提出一种预执行指导的数据预取方法(PEDP).PEDP利用跨距预取器对规则的访存模式进行预取,并在发生L2 Cache失效后通过预执行后续指令对不规则的访存模式进行精确的预取,从而结合两者的优势提高预取覆盖率.同时,PEDP利用预执行过程中提前捕获的真实访存信息指导跨距预取器的预取过程.在预执行的指导下,跨距预取器可以对预执行能够产生的符合跨距访存模式的地址更早地发起预取请求,从而改善预取及时性.此外,为进一步优化上述指导过程,PEDP使用更新过滤器有效去除指导过程中对跨距预取器的有害更新,从而提高预取准确率.实验结果表明,在平均情况下,PEDP将基准处理器的性能提升33.0%.与跨距预取和预执行各自单独使用相比,PEDP将性能分别提高16.2%和7.3%.  相似文献   

4.
高性能DSP器件对功耗指标要求越来越高,功耗主要来源于对存储空间的访问,因此提出了一种改进型Cache功耗优化策略,实现了对指令Cache的分阶段访问,同时兼顾了Cache的动态功耗和静态漏流功耗的优化,改进了传统的基于非分阶段访问的按需唤醒策略NPOWP(Non-Phased Cache with On-Demand Wakeup Prediction)显著影响处理器性能的缺点。设计应用于DSP设计的4路组相连昏睡指令Cache中,使用基于分阶段访问的按需唤醒策略POWP(Phased Cache with On-Demand Wakeup Prediction)策略平均可降低75.4%的指令Cache功耗,降低6.7%的处理器总功耗,性能损失仅为0.77%.  相似文献   

5.
非阻塞Cache是指Cache在等待预取数据返回时,还能继续提供指令和数据.首先分析了多线程非阻塞Cache的处理器需求,然后提出其时序要求和一种实现方案.利用SystemVerilog对该方案进行RTL级建模和性能评估.仿真结果表明,该方案可以很好地应用于多线程、乱序执行处理器的指令引擎设计之中.  相似文献   

6.
本文提出了一种VLIW处理器的预取和针对循环指令的优化策略.文中重点介绍了预取普通指令和处理循环指令的方法,以及普通预取和循环预取这两种预取模式间的切换方式.基于该设计和优化方案,可以有效减小取指操作的功耗.实验证明,在针对不同的应用上,减少的功耗从40%到90%不等,优化了该VLIW多运算簇DSP处理器的性能.  相似文献   

7.
本文提出了一种基于"组拼合"技术的嵌入式片上高速缓存(Cache)在线可配置结构.在线可配置Cache可以针对不同的应用,配置Cache的组关联等参数,从而在保持应用性能基本不变的前提下,有效降低Cache的动态功耗.其中水平组拼合方式与Gated-Vdd技术配合使用,不仅可以有效降低动态功耗,而且可以降低超深亚微米工艺中不断凸现的静态漏电功耗.将该结构应用于32-bit嵌入式处理器CK510中,PowerStone测试基准中的一组应用测试表明,组拼合可在线配置Cache结构可以显著降低处理器功耗.  相似文献   

8.
基于控制流的混合指令预取   总被引:2,自引:0,他引:2  
沈立  王志英  鲁建壮  戴葵 《电子学报》2003,31(8):1141-1144
取指令能力的高低对微处理器的性能有很大影响.指令预取技术能够有效地降低指令Cache的访问失效率,提高微处理器的取指令能力,进而提高微处理器的性能.本文提出了一种基于程序控制流的混合指令预取机制,它采用顺序预取和非顺序预取相结合的方式将指令提前读入指令Cache.模拟结果显示,该方法能够有效地提高指令Cache访问的命中率,并具有实现简单,无效预取率低等特点.  相似文献   

9.
处理器分簇技术是进一步提高超标量处理器性能的一种有效手段,实现了更大指令窗口和发射宽度的同时对Cache系统提出了严峻要求,需要一种访存延迟更小、扩展性更强的Cache结构.采用分簇投机的LO Cache结构,处理器在访存时投机访问各簇内简单快速的LO Cache,较好地隐藏了下级Cache的访问延迟.仿真结果显示在8簇的分簇处理器中,采用4kB,2路组相连的分簇L0 Cache后处理器性能平均提升5.6%,在部分测试程序中达到20%以上.  相似文献   

10.
针对嵌入式处理器中数据Cache功耗显著的特点,提出了一种基于Load重用的低功耗数据Cache设计方法.通过保存Load指令从数据Cache中取回的数据,实现了随后Load指令对该数据的重新使用,从而减少了数据Cache的访问次数,有效降低了数据Cache的功耗.在SuperV_EF01DSP上的实验结果显示,采用该方法后,在处理器性能没有损失的情况下,数据Cache功耗平均降低29.48%,面积仅增加0.64%.  相似文献   

11.
一种基于流水线的指令Cache优化设计   总被引:1,自引:0,他引:1  
在现代微处理器的设计中.Cache是整个微处理器性能的决定性因素。本文详细介绍了32位RISC微处理器“龙腾”R2中指令Cache的体系结构.着重研究了其设计和实现问题。为了提高性能,采用了预取技术和流水线技术来优化设计.仿真结果表明得到了预期的效果。  相似文献   

12.
程东年  刘增基 《电子学报》2001,29(5):634-637
本文提出了一种适于分组交换机或路由器的缓存空间的动态分配机制:附加缓存块按需分配机制ABBA,在给出其排队模型"M/M/1/K(2K)"的基础上,导出了其矩阵形式的稳态概率分布和分组丢失概率,并通过理论和仿真两种途径将分组丢失率性能与典型的缓存空间的静态分配系统进行了分析比较.最后分析了附加块动态分配决策机制应考虑的几个重要因素并给出了相应的动态分配算法.  相似文献   

13.
面向变长分组的多优先级动态域值缓存管理算法   总被引:1,自引:1,他引:0  
李锁钢  徐恪  吴建平 《电子学报》2002,30(8):1188-1191
缓存管理是高性能路由器需要解决的技术难题之一,一个好的缓存管理算法可以提高路由器的缓存资源利用率并降低分组丢失率.本文首先介绍了面向定长信元的几种典型动态域值缓存管理算法——DT算法与最佳DT算法以及多优先级DT算法.然后提出了一种适用于高性能路由器的多优先级最佳DT算法,并面向变长分组进行了仿真模拟.该算法继承了最佳DT算法缓存资源利用率高的优点,在多优先级情况下分组丢失率很低,模拟分析结果表明该算法的综合性能相当出色.  相似文献   

14.
Delay tolerant networks (DTNs) are an emerging class of wireless networks which enable data delivery even in the absence of end-to-end connectivity. Under these circumstances, message replication may be applied to increase the delivery ratio. The requirement of long term storage and message replication puts a burden on network resources such as buffer and bandwidth. Buffer management is an important issue which greatly affects the performance of routing protocols in DTNs. Two main issues in buffer management are drop decision when buffer overflow occurs and scheduling decision when a transmission opportunity arises. The objective of this paper is to propose an enhancement to the Custom Service Time Scheduling traffic differentiation scheme by integrating it with a fuzzy based buffer ranking mechanism based on three message properties, namely, number of replicas, message size and remaining time-to-live. It uses fuzzy logic to determine outgoing message order and to decide which messages should be discarded within each traffic class queue. Results of simulation study show that the proposed fuzzy logic-based traffic differentiation scheme achieves improved delivery performance over existing traffic differentiation scheme for DTNs.  相似文献   

15.
Hybrid companding delta modulation (HCDM) is known to be superior in performance to other instantaneous or syllabic companding delta modulation systems [1]. To improve its performance or to reduce the bit rate further in coding speech, we propose to use a variable-rate sampling scheme in the HCDM system. The proposed system employs several different sampling rates but transmits the output binary signal at a fixed rate using a buffer. By using the variable-rate scheme, one can improve its performance by 3 to 4 dB in signal-to-quantization noise ratio (SQNR) over the fixedrate HCDM. Detailed algorithm and computer simulation results are presented. Buffer behavior and its control are also discussed. In addition, it is shown that the performance gain of a DM system with variable-rate sampling depends on the degree of variation of the input signal.  相似文献   

16.
This paper describes three circuit techniques for a DDR1/DDR2-compatible chip architecture designed for both high-speed and high-density DRAMs: 1) a dual-clock input-latch scheme, which reduces the excessive timing margin for random input commands by using a pair of latch circuits controlled by dual-phase one-shot clock signals, achieves a 0.9-ns reduction in cycle time from 3.05 to 2.15 ns; 2) a hybrid multi-oxide output buffer reduces the area penalty of the output buffer caused by compatible chip design from 1.35% to 0.3%; and 3) a quasi-shielded distributed data transfer scheme enables a 2.6-ns reduction in access time to 10.25 ns in both 2-b and 4-b prefetch operations. By using these techniques, we developed a 175.3-mm/sup 2/ 1-Gb SDRAM that operates as an 800-Mb/s/pin DDR2 or 400-Mb/s/pin DDR1.  相似文献   

17.
基于提前分配路径的低时延片上路由器结构   总被引:1,自引:0,他引:1  
该文针对片上网络提出一种基于提前分配路径的低时延片上路由器结构(PAPR).新路由器采用提前路由计算和提前分配路径来缩短路由器流水线深度.提前路由计算为虚信道提前分配提供了可靠保障,即使在虚信道路径提前分配失败的情况下,也不影响分组在网络中的传输时延.该文提出基于缓存状态的仲裁算法BSTS(Buffer Status)综合考虑当前节点缓存信息和下游节点缓存信息,不但降低了分组等待时延,而且降低了缓存空闲的概率.仿真结果表明,新路由器能明显改善网络的时延和吞吐性能,相比采用滑动迭代轮询仲裁iSLIP(iterative Round-Robin Matching with SLIP(Serial Line Interface Protocal))算法的经典虚信道路由器,网络平均端到端时延降低了24.5%,吞吐率提高了27.5%;与采用轮询迭代RRM(Round-Robin Matching)算法的经典虚信道路由器相比,平均端到端时延降低了39.2%,吞吐率提高了47.2%.路由器硬件开销和平均功耗分别增加仅为8.9%,5.9%.  相似文献   

18.
Cache能够提高DSP处理器对外部存储器的存取速度,提高DSP的性能,设计高性能低功耗的Cache,对于提高DSP芯片的整体性能有着十分重大的意义。描述了DSP芯片中一种高性能低功耗的数据Cache。这种Cache可以通过增加具备重装功能的Line Buffer来减少处理器对Cache的访问频率,从而降低Cache功耗。通过FFT、AC3、FIR三种基准程序测试表明,Line Buffer可以降低35%的Cache访问频率,明显降低了数据Cache功耗。  相似文献   

19.
This paper describes the construction of loop-free buffer graphs which avoid four types of buffer deadlocks in store-and-forward networks. 1) Progeny deadlock, where original messages spawnother ones, and buffer contention occurs between the original and progeny messages. This occurs when positive or negative acknowledgments are created, e.g., if messages reverse direction after encountering a path failure. 2) Copy-release deadlock, where a message copy is stored at the source node and the buffer is not released until an acknowledgment is received from the destination node. Buffer contention may arise among the original messages, stored copies, and acknowledgments. 3) Pacing deadlock, where a local flow control protocol is used between a network node and attached terminals. Buffer contention may arise between the message flows into and out of the terminal, preventing the transmission of go-ahead commands. 4) Reassembly deadlock, whereby reassembly of packetized messages at the destination node cannot be completed. The solution presented here has the novel features of not requiring preallocation of reassembly buffers before transmission of multiple packets of a multipacket message, and not requiring dedication of buffer space at intermediate nodes for individual messages. These schemes are believed to have modest buffer requirements at each node, and if adequate buffer pools are provided, will incur negligible performance degradations under normal conditions, with overhead increasing under heavy buffer usage when deadlock is near.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号