期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

项晓燕陈志坚孟建熠严晓浪《浙江大学学报(工学版)》2013,47(7):1213-1217

通过分析高速缓存访问的局部性原理,提出当前高速缓存访问行与若干紧邻行链接访问的低功耗指令缓存访问方法.该方法能够在发生相对跳转时依托于相邻行之间的访问链接信息,精确获得跳转目标行的路访问信息,减少对高速缓存标志存储器的访问,达到降低动态功耗的目的.在高速缓存行发生替换时,仅需检测并清除被替换行相邻范围内的若干缓存行的链接信息,从而实现链接关系的正确性.与基于路记忆访问的高速缓存器相比,应用该方法的高速缓存器的动态功耗可以平均减少6%. 相似文献

2.

基于高速缓存资源共享的TLB设计方法

徐鸿明孟建熠严晓浪葛海通《浙江大学学报(工学版)》2011,45(3):462-466

针对嵌入式处理器中旁路转换缓冲（TLB）功耗和面积显著的问题,提出一种共享高速缓存硬件资源的低功耗TLB设计方法,消除了传统方法中TLB存储器的硬件资源及静态功耗.该方法通过设立两级TLB低功耗架构和缓存地址映射表,有效减少TLB的访问次数,降低了功耗;利用高速缓存的结构特性动态扩展TLB表项,扩大对物理内存的映射范围,提升TLB命中率.进一步提出了一种复用缓存替换策略的TLB表项的编码加锁方法,减少页面抖动,缓和TLB表项与指令、数据的资源冲突.实验结果表明:与传统的TLB设计相比,应用本方法的嵌入式处理器的功耗下降28.11%,面积减少21.58%. 相似文献

3.

基于指令回收的低功耗循环分支折合技术

孟建熠严晓浪葛海通《浙江大学学报(工学版)》2010,44(4):632-638

在分析循环分支特性的基础上,提出一种基于过期指令回收的高性能低功耗循环分支折合方法.该方法通过复用指令缓冲区硬件资源实现指令回收区.在循环分支折合过程中,循环体指令直接从回收区送入流水线,降低了分支延时,消除了指令高速缓存访问.通过自适应调整回收窗口宽度,可使有限的指令缓冲区硬件资源同时满足指令缓冲与指令回收的双重需求.当投机折合进入预测盲区时关闭分支预测存储器,从而降低投机折合的动态功耗.实验数据表明,与传统循环分支折合技术相比,应用本方法的嵌入式处理器总体性能平均提升5.03%,取指单元动态功耗下降22.10%. 相似文献

4.

面向非写分配高速缓存的一致性协议及实现

修思文黄凯余慜谢天艺葛海通严晓浪《浙江大学学报(工学版)》2015,(2):351-359

针对现有的高速缓存一致性协议应用在基于写回、非写分配缓存的多核处理器的缺点,提出一种新颖的基于写干涉的一致性协议,并加以硬件实现.采用写干涉协议,在处理器产生写缺失操作时,可以把数据直接写到系统中其他处理器有效的该高速缓存行中;支持"脏数据"的延迟回写和缓存间的数据拷贝;且系统中只要存在有效的被请求的缓存行就可以提供数据,避免不必要的共享存储器访问.实验结果表明,该文提出的写干涉协议与MOESI协议相比,显著减少了对共享存储器的访问,提高了整个系统性能,同时大幅降了低动态功耗. 相似文献

5.

利用基地址相关的低功耗数据cache设计 总被引：2，自引：0，他引：2

张宇弘王界兵严晓浪汪乐宇《浙江大学学报(工学版)》2005,39(10):1524-1528

为了减少以地址偏移为主要寻址方式的精简指令处理器中数据cache的功耗，提出了充分利用读写指令相对于基地址的关联性，减少对cache的数据存储器和标志存储器的访问次数.通过建立两个数据结构来保存组选择信息：一个与通用寄存器一一对应的有效位表用来保证基地址仍然维持在原cache行；一个组选择信息表用来记录最近的cache访问的组选择信息，减少比较代价.该方法适用于多个组的组关联cache和可锁定的cache设计，已被应用于200 MHz的精简指令集（RISC）处理器中.该处理器采用TSMC0.18μm工艺，对一些基准程序进行了测试，结果显示该方法可以节省大约30％的数据cache功耗，还具有硬件代价小的优点相似文献

6.

延长相变存储器寿命的写操作Cache及其调度策略

《西北工业大学学报》2016,(5)

相变存储器具有可扩展性好、单元尺寸小、静态功耗低等优点,是替代DRAM做主存的候选器件之一,但其可重复写入的次数有限。提出了一种基于DRAM写操作Cache的相变存储器主存结构,包括存储器控制器、读/写操作数据通路和标志域查找等。同时还提出了相应的调度策略,包括整体的读写调度以及基于写操作频率的替换策略等。仿真结果显示,所提出的方法可将相变存储器的寿命平均延长50%以上,同时使平均仿存延迟降低35%以上。相似文献

7.

多核处理器共享Cache低功耗可重构方法

方娟雷鼎《北京工业大学学报》2013,39(9)

为了降低整个处理器的功耗,分析了当前多核Cache低功耗技术,并提出一种面向多核共享Cache低功耗的重构方法.在共享Cache上进行静态重构,分析了Cache重构的必要性,然后在Cache访问的过程中加入重构策略.实验结果证明:在性能平均损失4％的情况下,功耗平均降低了18％左右. 相似文献

8.

片上多核处理器末级共享Cache可重用数据预测机制

韩立敏高德远樊晓桠史莉雯安建峰《吉林大学学报(工学版)》2012,42(6):1505-1509

为了减少片上多核处理器(Clip multi-processor,CMP)末级共享Cache中的干扰,根据应用程序的存储访问频率特性,提出了一种基于替换算法的可重用数据预测机制。当末级共享Cache的数据将被替换时,先检测此数据的历史访问信息,根据历史访问信息过滤出会被重复使用的数据,并将其保存在片上专用存储器中。仿真结果表明:本文的可重用数据预测机制将IPC(Instruction per clock)平均提高了2.9%,平均减少了应用程序中22.69%的有害替换,有效地减少了Cache抖动。相似文献

9.

低功耗、低复杂度TURBO码实现研究

姜小波陈杰仇玉林《电子科技大学学报(自然科学版)》2006,35(4):481-483

提出了一种改进的TURBO码算法,该算法改进了传统算法的路径度量的运算和可靠度的运算,可以显著地减少TURBO解码器使用的硬件资源,存储器的使用是传统算法的一半。根据改进的算法,该文还提出了一种新的加比选运算单元,综合结果和功耗分析显示,新的ACS单元面积和功耗分别是传统ACS单元的32.7%和26.8%。相似文献

10.

基于分类访问的低功耗联合式cache方案 总被引：2，自引：0，他引：2

马志强季振洲胡铭曾《哈尔滨工程大学学报》2007,28(1):21-25

片上cache通常消耗大部分的现代处理器功耗,为此提出一种低功耗分类访问方案,用来降低指令和数据共享的联合式cache功耗.通过增加一个类型指示位,cache的每一个块被动态划分为指令块和数据块.对于指令或数据访问,只有类型匹配的块会被访问.通过该方法,不必要的存储体访问很容易被过滤掉,相应的访问功耗也被节省下来.该方案仅需要少量的硬件开销,不会增加cache的访问延迟,而且对面积的影响几乎可以忽略.采用11个Spec 2000标准测试程序的实验结果表明,分类访问方案可以有效降低联合式cache的功耗. 相似文献

11.

利用XY坐标实现GPU缓存索引分布在帧缓冲区上的漫射

张俊《吉林大学学报(工学版)》2013,(Z1):29-33

针对为CPU设计的缓存索引映射技术会导致严重的缓存冲突缺失问题,本文提出了一种全新的基于像素XY坐标进行索引计算的XY型缓存索引映射技术。该方法可以在帧缓冲区上获得缓存行索引分布的良好漫射,并且能完全避免不同帧解像度的不良影响。实验结果表明,XY型缓存索引映射技术可使缓存缺失率最大降低82%。采用该技术的直接映射缓存或2-way组相联缓存的缺失率接近全相联缓存,这有助于降低缓存设计复杂度与缓存功耗。相似文献

12.

两级Trace Cache的设计与研究

康海涛唐朔飞季振洲王凯峰吴代辉《哈尔滨工业大学学报》2006,38(9):1450-1454

通过引入二级trace cache做为一级trace cache补充,捕获那些由于一级trace cache容量冲突而被换出的trace,能够部分缓解trace cache容量失效问题.在进一步提高处理器的性能的同时,也大大降低了为构造trace而对指令cache带宽的要求,空闲的指令cache带宽可以进一步被trace的预构及其他一些技术所利用.实验表明,在64KB一级Trace Cache的基础上,引入一个容量为1MB的二级Trace Cache后,对于go和gcc这类工作集较大的程序,处理器的性能提高了13%,指令cache带宽要求下降27%. 相似文献

13.

基于媒体数字信号处理器的流预取机制

叶霞辛愿刘勇刘鹏《浙江大学学报(工学版)》2014,48(2):268-278

为了降低数据cache缺失而引起的延迟,提出一种针对媒体数字信号处理器MediaDSP64的一级数据cache优化策略,即基于流信息表的可变步长的最小差值预取,同时给出详细数据分析预取深度、流信息表项数和历史表长度对预取效果的影响,得出最优化的预取参数配置.仿真结果表明,该预取算法在最佳参数配置下针对评测程序H.264、DSP kernel和EEMBC消费类测试集性能分别提高了6%、32%和39%,处理器的平均访存时间分别减少了32%、56%和65%. 相似文献

14.

实验仪上高速缓存的设计方法及实现

章复嘉《杭州电子科技大学学报》2004,24(3):39-41

高速缓存(Cache)是计算机组成原理教学中的一个重要部分，由于技术上的原因，目前市场上的组成原理实验仪都不包含Cache。对在实验仪上设计开发Cache提出了一种新的方法，并针对流行的TDN—CM 型组成原理实验仪的结构，用CPLD器件仿真实现了Cache部件，典型数据定量仿真测试表明，所设计的Cache部件具有合理的命中率，符合计算机上Cache的工作原理又能够满足教学需要。相似文献

15.

基于外部共享Cache的多处理机Cache一致性协议

刘广忠肖钰袁淑芳《河北工程技术高等专科学校学报》2006,(2):1-4

基于外部共享C ache的多处理机C ache一致性协议实现了按需求传送数据的目的,从而避免了无效数据的盲目传送,只有处理机在发生读缺失或发现数据已被其他处理机更新,与自身私有C ache数据不一致时,才通过系统总线传输数据,变被动数据更新为主动按需更新,大大减轻了系统总线的传输压力。并且本方法简单易行,协议算法容易实现,特别是将维护C ache一致性的目录表,从内存慢表变成C ache快表,减少了处理机因频繁的读缺失造成的系统开销,提高了处理机工作效率。相似文献

16.

对基于VelociTI结构DSP指令排序分配方法的改进

胡正伟《华北电力大学学报(自然科学版)》2007,34(5):95-98

排序法是一种基于VelociTI结构的DSP指令分配方法。为了完善排序法,对该方法的不足进行了改进。改进的排序法在实现原有指令分配功能的基础上,完成了多周期NOPs指令的检测和当前执行包地址的生成,并结合指令执行条件测试原理,将排序后的执行包中没有被占用功能单元对应的字段设置为无条件不执行。用改进的排序法成功设计了一个DSP指令分配单元的RTL模型,仿真结果验证了方法的正确性。相似文献

17.

基于最小代价的流媒体缓存替换算法研究

张艳牛朵朵《郑州纺织工学院学报》2012,(5):73-75

基于对现有流媒体缓存技术的分析,提出了一种基于最小代价的流媒体缓存替换算法．通过定期统计代理缓存中流媒体前缀片段的流行度,在缓存替换时综合考虑流媒体对象的访问热度和替换的字节代价,使得缓存替换的代价尽量小,进而获取较大的字节命中率．仿真实验结果表明,最小代价替换算法在提高字节命中率方面表现较好．相似文献