首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
温淑鸿  崔慧娟  唐昆 《电子学报》2005,33(11):1937-1940
为了提高嵌入式多媒体应用的运行速度并降低功耗,本文提出一种高效利用片上存储器的方法.将数据矩阵划分成合理大小的子块,分阶段地将数据子块转移到片上,并尽可能重复利用已经转移到片上的数据,以便有效地减少片外存储器与片上存储器之间的数据转移.通过对汇编语言中存储器阵操作数适当分配,避免读写数据延迟.根据汇编语言代码写出不产生流水线停滞的各个矩阵操作数的存储器位置限制条件,根据限制条件,本文提出求解矩阵分配的方法.  相似文献   

2.
本文提出了一种无Cache情况下基于嵌套循环指令分析的片上存储器(On-chip memory)分配策略.该策略分析程序中循环指令,控制划分粒度将所有函数切割成块,然后使用背包算法和优先级算法组合的分配算法,选择合适块放入片上存储器,达到优化程序性能的目的.实验结果表明,该策略能够显著提高程序性能,平均提高一倍,甚至更高,同时它能够预知优化后程序执行时间的变化,最高误差为2%.  相似文献   

3.
本文主要从结构、选择与实现等方面讨论Cache的设计问题.  相似文献   

4.
针对嵌入式处理器中数据Cache功耗显著的特点,提出了一种基于Load重用的低功耗数据Cache设计方法.通过保存Load指令从数据Cache中取回的数据,实现了随后Load指令对该数据的重新使用,从而减少了数据Cache的访问次数,有效降低了数据Cache的功耗.在SuperV_EF01DSP上的实验结果显示,采用该方法后,在处理器性能没有损失的情况下,数据Cache功耗平均降低29.48%,面积仅增加0.64%.  相似文献   

5.
在多核环境下,对共享L2 Cache的优化显得尤为重要,因为当被访问的数据块不在L2 Cache中时(发生L2缺失),CPU需要花费几百个周期访问主存的代价是相当大的.在设计Cache时,替换算法是考虑的一个重要因素,替换算法的好坏直接影响Cache的性能和计算机的整体性能.虽然LRU替换算法已经被广泛应用在片上Cache中,但是也存在着一些不足:当Cache容量小于程序工作集时,容易产生冲突缺失;且LRU替换算法不考虑数据块被访问的频率.文中把冒泡替换算法应用到多核共享Cache中,同时考虑数据块被访问的频率和最近访问的信息.通过分析实验数据,与LRU替换算法相比,采用冒泡替换算法可以使MPKI(Misses per Kilo instructions)和L2 Cache命中率均有所改善.  相似文献   

6.
一种结合动态写策略的磁盘Cache替换算法   总被引:1,自引:0,他引:1  
磁盘Cache是改善I/O性能的一种技术.通过分析Cache写策略和LRU、LFU替换算法对磁盘Cache性能的影响,引入一种动态写策略,改进替换算法,使基于频率的块替换算法FBR与动态写策略相结合.二者结合较好地应用于磁盘存取中,充分利用局部性规律,提高I/O性能,使磁盘在多种工作环境和不同Cache大小下的性能更优.  相似文献   

7.
针对目前可穿戴设备上对存储设备性能要求高、体积小、功耗低等问题,在FPGA上实现了一款可拓展的高性能HyperRAM控制器,并引入Cache缓存加速设计,以提高对频繁访问数据的命中率和优化存储器访问模式,实现更高速的数据传输和优化的系统性能。运用UVM验证方法学和FPGA进行验证,结果表明,带有Cache缓存的HyperRAM控制器相较于普通HyperRAM,在读写连续地址时性能提高61%,并具有较好的可靠性与有效性,可为嵌入式系统提供高效、灵活的存储器解决方案。  相似文献   

8.
ADI公司的DSP Blackfin是嵌入式多媒体终端理想的核心处理器,其性能与Cache和DMA的使用方式紧密联系。AD6532芯片是ADI公司推出的最新的一款双核(包含Blackfin核和ARM核)基带处理器,可用于GSM和TD—SCDMA的移动终端设备。本文阐述了AD6532的内存空间分配及其别名技术,并提出了基于该技术的数据操作方法,使得数据Cache和DMA能够同时使用同一块内存资源。实验表明该方法比传统的数据Cache失效方法性能优越。  相似文献   

9.
一种静态可控功耗的数据Cache设计   总被引:4,自引:2,他引:2  
在目前的微处理器设计中,片内Cache存储器的能量损耗所占的比重越来越大。本文给出了一种能够有效降低功耗的数据Cache设计方法。该方法通过静态调节组映射策略,根据应用程序的自身特点调节数据Cache的容量大小,并且选择合理的替换算法,在保证高性能的同时降低了能量损耗。  相似文献   

10.
以V-Way Cache结构为原型,提出一种面向CMP的可变相联度混合Cache结构CMP-VH.CMP-VH将最后一级片上Cache划分成一种优化的私有/共享结构,Tag私有,数据部分私有部分共享.采用基于数据块的重用信息替换策略,提供显式和隐式两种机制在核间对共享数据进行容量划分.并行程序负载SPLASH-2的模拟...  相似文献   

11.
A method to both reduce energy and improve performance in a processor-based embedded system is described in this paper. Comprising of a scratchpad memory instead of an instruction cache, the target system dynamically (at runtime) copies into the scratchpad code segments that are determined to be beneficial (in terms of energy efficiency and/or speed) to execute from the scratchpad. We develop a heuristic algorithm to select such code segments based on a metric, called concomitance. Concomitance is derived from the temporal relationships of instructions. A hardware controller is designed and implemented for managing the scratchpad memory. Strategically placed custom instructions in the program inform the hardware controller when to copy instructions from the main memory to the scratchpad. A novel heuristic algorithm is implemented for determining locations within the program where to insert these custom instructions. For a set of realistic benchmarks, experimental results indicate the method uses 41.9% lower energy (on average) and improves performance by 40.0% (on average) when compared to a traditional cache system which is identical in size.  相似文献   

12.
Energy consumption is one of the important parameters to be optimized during the design of portable embedded systems. Thus, most of the contemporary portable devices feature low-power processors coupled with on-chip memories (e.g., caches, scratchpads). Scratchpads are better than traditional caches in terms of power, performance, area, and predictability. However, unlike caches they depend upon software allocation techniques for their utilization. In this paper, we present scratchpad overlay techniques which analyze the application and insert instructions to dynamically copy both variables and code segments onto the scratchpad at runtime. We demonstrate that the problem of overlaying scratchpad is an extension of the Global Register Allocation problem. We present optimal and near-optimal approaches for solving the scratchpad overlay problem. The near-optimal scratchpad overlay approach achieves close to the optimal results and is significantly faster than the optimal approach. Our approaches improve upon the previously known static allocation technique for assigning both variables and code segments onto the scratchpad. The evaluation of the approaches for ARM7 processor reports, average energy, and execution time reductions of 26% and 14% over the static approach, respectively. Additional experiments comparing the overlayed scratchpads against unified caches of the same size, report average energy, and execution time savings of 20% and 10%, respectively. We also report data memory energy reductions of 45%-57% due to the insertion of a 1024-bytes scratchpad memory in the memory hierarchy of a digital signal processor (DSP).  相似文献   

13.
非阻塞Cache是指Cache在等待预取数据返回时,还能继续提供指令和数据.首先分析了多线程非阻塞Cache的处理器需求,然后提出其时序要求和一种实现方案.利用SystemVerilog对该方案进行RTL级建模和性能评估.仿真结果表明,该方案可以很好地应用于多线程、乱序执行处理器的指令引擎设计之中.  相似文献   

14.
Cache是一种互联网高速缓存系统,是目前移动运营商提升数据业务下载速率最有效的手段之一。它通过分析和研究互联网业务的请求链接URL,采用被动缓存技术,对热点业务的资源内容进行缓存和重定向转发,将外网资源迁移至网内进行本地化缓存,达到缩短终端用户下载目标资源的路径长度的目的。对P2P文件传输、HTTP文件下载、Web页面浏览以及在线视频播放等各种应用实现网内缓存加速,能提升30%左右的下载速率。同时Cache系统中的重定向功能,也可对移动数据业务访问成功率带来2.2%的提升。  相似文献   

15.
李浩  谢伦国 《通信学报》2012,(4):136-142
提出的访存时间最优Cache划分(OMTP, optimalmemorytimeCachepartitioning)方法通过特征获取部件来获取不同应用程序的平均失效开销和Cache命中的路分布情况,以此作为划分依据来给竞争程序分配合适的Cache空间,达到优化程序整体执行性能的目的.实验结果表明,OMTP方法相比基于利用率的Cache划分(UCP)方法吞吐率平均提高3.1%,加权加速比平均提高1.3%,整体性能更优  相似文献   

16.
为提高通用微处理器的执行效率,研究了高性能指令Cache的体系结构和设计方法。设计了高速并行指令Cache的系统架构,将Cache体访问与线形地址到物理地址的地址转换并行操作,成功实现一个时钟周期内完成地址转换和指令读出的设计目标。详细设计了Cache体和TLB的逻辑结构,并对相关设计参数进行了精心规划,并在设计中采用了奇偶校验逻辑增加了芯片的可靠性。此结构应用于JX微处理器流片成功,并工作可靠正确。  相似文献   

17.
高性能DSP器件对功耗指标要求越来越高,功耗主要来源于对存储空间的访问,因此提出了一种改进型Cache功耗优化策略,实现了对指令Cache的分阶段访问,同时兼顾了Cache的动态功耗和静态漏流功耗的优化,改进了传统的基于非分阶段访问的按需唤醒策略NPOWP(Non-Phased Cache with On-Demand Wakeup Prediction)显著影响处理器性能的缺点。设计应用于DSP设计的4路组相连昏睡指令Cache中,使用基于分阶段访问的按需唤醒策略POWP(Phased Cache with On-Demand Wakeup Prediction)策略平均可降低75.4%的指令Cache功耗,降低6.7%的处理器总功耗,性能损失仅为0.77%.  相似文献   

18.
一种高性能的嵌入式微处理器:银河TS-1   总被引:2,自引:0,他引:2       下载免费PDF全文
陆洪毅  沈立  赵学秘  王蕾  戴葵  王志英 《电子学报》2002,30(11):1668-1671
银河TS-1嵌入式微处理器是国防科学技术大学计算机学院设计的32位嵌入式微处理器,完全正向设计,具有自主版权.在体系结构上采用RISC内核,六级流水线,具有独立的数据Cache和指令Cache.特别的,TS-1具有两个取指部件的动态指令调度机制,拥有面向嵌入式应用的向量处理机制,采用基于内容复制/交换的寄存器窗口技术的中断处理机制,支持WISHBONE IP核互连接口规范,具有良好的扩展性.本文主要介绍TS-1的RISC核心设计思想和关键实现技术,最后给出性能评测结果.TS-1设计已经在Altera的FPGA EP20K400EBC上面得到了验证,主频可以达到36.7MHz.  相似文献   

19.
近阈值电压技术通过降低晶体管的电源电压来降低芯片能耗和提升能效。但是,近阈值电压技术会在Cache中引起大量位错误,严重影响末级缓存的功能。针对近阈值电压下超过1%的位错误率造成的Cache故障问题,该文提出一种基于传统6T SRAM单元的可容错的末级缓存结构(FTLLC)。该策略对缓存条目中的错误进行了低错纠正和多错压缩,提高了Cache中数据保存的可靠性。为了验证FTLLC的有效性,该文在gem5中实现了该结构,并运行了SPEC CPU2006测试集进行仿真实验。结果表明,对于650 mV电压下65 nm工艺的末级缓存,FTLLC与Concertina压缩机制相比在4-Byte粒度下末级缓存可用容量增加了24.9%,性能提高了7.2%,末级缓存的访存缺失率下降了58.2%,而面积和能耗开销仅有少量增加。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号