首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
Cache能够提高DSP处理器对外部存储器的存取速度,提高DSP的性能,设计高性能低功耗的Cache,对于提高DSP芯片的整体性能有着十分重大的意义。描述了DSP芯片中一种高性能低功耗的数据Cache。这种Cache可以通过增加具备重装功能的Line Buffer来减少处理器对Cache的访问频率,从而降低Cache功耗。通过FFT、AC3、FIR三种基准程序测试表明,Line Buffer可以降低35%的Cache访问频率,明显降低了数据Cache功耗。  相似文献   

2.
针对嵌入式处理器中数据Cache功耗显著的特点,提出了一种基于Load重用的低功耗数据Cache设计方法.通过保存Load指令从数据Cache中取回的数据,实现了随后Load指令对该数据的重新使用,从而减少了数据Cache的访问次数,有效降低了数据Cache的功耗.在SuperV_EF01DSP上的实验结果显示,采用该方法后,在处理器性能没有损失的情况下,数据Cache功耗平均降低29.48%,面积仅增加0.64%.  相似文献   

3.
当设计工程师为低功耗应用选择微控制器时,芯片厂商的数据手册所提供的帮助是有限的.手册不能提供业界标准的功耗评价方法,也不能说明像高速缓存(Cache)和集成浮点运算单元等功能部件是怎样影响能量消耗和性能的.  相似文献   

4.
SOC时代低功耗设计的研究与进展   总被引:11,自引:1,他引:10  
王祚栋  魏少军 《微电子学》2005,35(2):174-179
在片上系统(SOC)时代,芯片内核的超高功耗密度以及移动应用市场对低功耗的无止境需求,使低功耗设计变得日益重要.文章全面系统地介绍了低功耗设计的相关内容,包括背景、原理和不同层次的功耗优化技术,着重介绍了面向SOC的系统级功耗优化技术.通过对已有研究成果按设计抽象层次和系统功能的分析,指出了其优化的全局性不够充分.提出了基于软硬件协同设计的系统功耗优化思路和设计流程,展望了SOC低功耗设计的发展方向.  相似文献   

5.
在多媒体系统的系统集成芯片(SoC)中,从系统集成芯片工作实时性要求,应用程序和数据尽可能存放在片上存储或Cache,执行方便,处理速度快,就要使用大量的存储部件,使得存储部件的面积和功耗占到整个芯片的很大部分.为了减少片上存储部件,则部分程序和数据移到片外存储,在执行时轮流调进到芯片内,势必增加I/O的开销.因此如何使设计优化是软硬件协同设计中的一个问题.本文以MPEG2集成解码芯片中音频存储优化为例给出了系统集成芯片存储优化的一些方法.包括通过LGDFG(Large Grain Data Flow Graph)模型分析改变程序结构,共享数据空间,改变数据类型以及添加片上SRAM并减少片上Cache容量从而减少系统存储消耗等.这些方法显著地减少系统的存储消耗,降低系统芯片的面积和功耗.  相似文献   

6.
介绍了SOC设计中的IP核可复用技术、软硬件协同设计技术、SOC验证技术、可测性设计技术以及低功耗设计技术。对SOC低功耗设计中的瞬态功耗优化、平均功耗优化以及功耗的物理来源、电容充放电功耗、短路功耗、静电漏电功耗进行了分析。并对典型SOC设计中采取降低芯片和封装电容、降低电源电压,达到降低功耗的技术进行了研究。最后对系统级功耗设计中的电源系统低功耗设计、工作系统低功耗设计进行了探讨。  相似文献   

7.
功耗是片上系统(SOC)设计中的关键指标之一。对于SOC芯片的低功耗设计,可以采用多种设计方法进行优化。本文设计的低功耗管理模块是通过管理工作时钟的方式对SOC的功耗进行动态调节,能够有效地降低SOC芯片的功耗。  相似文献   

8.
于宗光  杨兵  魏敬和  单悦尔  曹华锋 《微电子学》2015,45(2):217-220, 224
针对超大规模集成电路低功耗设计技术市场需求的迅速增大,提出了一种新的百万门级系统芯片低功耗设计流程,重点分析了芯片系统级、电路级、逻辑级与物理级四个不同的层次的低功耗设计方法,包括系统构架、时钟与功耗管理算法等低功耗关键技术。以某新型雷达SoC低功耗设计为例,采用SMIC 0.18 μm 1P6M CMOS工艺进行设计,版图尺寸为7.825 mm×7.820 mm,规模约为200万门。实验结果表明,在100 MHz工作频率下,采用新的低功耗设计流程后,前端设计阶段功耗降低了42.79%,后端设计阶段功耗降低了12.77%,芯片总功耗仅为350 mW。样品电路通过了用户某新型相控阵雷达系统的应用验证,满足小型化和低功耗的要求。  相似文献   

9.
为了对嵌入式系统中存储模块的访问操作进行低功耗优化设计,文章从软件设计角度提出了一种功耗优化的方法,该方法包括"减少分支程序与函数调用"、"块数据连续存放"以及"Cache替换算法"三个方面,但其关键是减少存储访问,提高Cache命中率,降低系统内电路状态的翻转频率.实验证明,该方法能有效降低系统功耗,减少系统成本.  相似文献   

10.
随着芯片的集成度越来越高,芯片的功耗成为芯片设计中越来越重要的优化参数。设计了一种可应用于视频处理芯片、多媒体手持设备、嵌入式SoC等系统中的视频输出控制器。设计中通过多种工艺无关的低功耗设计技术优化控制器的动态功耗。首先分析各子模块的工作频率,降低低速子模块的工作时钟,然后通过添加门控时钟单元降低时钟的翻转次数。应用Design Compiler[1]进行工程的功耗分析,结果表明设计中使用的低功耗设计方法有效降低了模块的动态功耗。  相似文献   

11.
高性能DSP器件对功耗指标要求越来越高,功耗主要来源于对存储空间的访问,因此提出了一种改进型Cache功耗优化策略,实现了对指令Cache的分阶段访问,同时兼顾了Cache的动态功耗和静态漏流功耗的优化,改进了传统的基于非分阶段访问的按需唤醒策略NPOWP(Non-Phased Cache with On-Demand Wakeup Prediction)显著影响处理器性能的缺点。设计应用于DSP设计的4路组相连昏睡指令Cache中,使用基于分阶段访问的按需唤醒策略POWP(Phased Cache with On-Demand Wakeup Prediction)策略平均可降低75.4%的指令Cache功耗,降低6.7%的处理器总功耗,性能损失仅为0.77%.  相似文献   

12.
非一致Cache体系结构(NUCA)几乎已经成为未来片上大容量Cache的发展方向。本文指出同构单芯片多处理器的设计主要有多级Cache设计的数据一致性问题,核间通信问题与外部总线效率问题,我们也说明多处理器设计上的相应解决办法。最后给出单核与双核在性能、功耗的比较,以及双核处理器的布局规划图。利用双核处理器,二级Cache控制器与AXI总线控制器等IP提出一个可供设计AXI总线SoC的非一致Cache体系结构平台。  相似文献   

13.
In the last two decades we have witnessed the tremendous success of the Internet and its technologies. Wireless Internet access becomes important to continue this success. However, wireless Internet access suffers from limited battery power, limited bandwidth, high mobility, and an increasing degree of heterogeneity. Cache mechanisms have been proposed to improve access latency, reduce battery power consumption, and reduce bandwidth usage in the wireless Internet. In this article we discuss issues in wireless Internet caching. In particular, we classify and survey cache access mechanisms and replacement algorithms, which should be designed considering both the limitations of wireless networks/devices and heterogeneity of the future wireless Internet.  相似文献   

14.
一种低功耗Cache设计技术的研究   总被引:2,自引:0,他引:2  
低功耗、高性能的cache系统设计是嵌入式DSP芯片设计的关键。本文在多媒体处理DSP芯片MD32的设计实践中,提出一种利用读/写缓冲器作为零级cache,减少对数据、指令cache的读/写次数,由于缓冲器读取功耗远远小于片上cache,从而减小cache相关功耗的方法。通过多种多媒体处理测试程序的验证,该技术可减少对指令cache或者数据cache20%~40%的读取次数,以较小芯片面积的增加换取了较大的功耗降低。  相似文献   

15.
On-chip L1 and L2 caches represent a sizeable fraction of the total power consumption of microprocessors. In nanometer-scale technology, the subthreshold leakage power is becoming one of the dominant total power consumption components of those caches. In this study, we present optimization techniques to reduce the subthreshold leakage power of on-chip caches assuming that there are multiple threshold voltages, V/sub T/'s, available. First, we show a cache leakage optimization technique that examines the tradeoff between access time and subthreshold leakage power by assigning distinct V/sub T/'s to each of the four main cache components-address bus drivers, data bus drivers, decoders, and static random access memory (SRAM) cell arrays with sense amplifiers. Second, we show optimization techniques to reduce the leakage power of L1 and L2 on-chip caches without affecting the average memory access time. The key results are: 1) two additional high V/sub T/'s are enough to minimize leakage in a single cache-3 V/sub T/'s if we include a nominal low V/sub T/ for microprocessor core logic; 2) if L1 size is fixed, increasing L2 size can result in much lower leakage without reducing average memory access time; 3) if L2 size is fixed, reducing L1 size may result in lower leakage without loss of the average memory access time for the SPEC2K benchmarks; and 4) smaller L1 and larger L2 caches than are typical in today's processors result in significant leakage and dynamic power reduction without affecting the average memory access time.  相似文献   

16.
The development of proxy caching is essential in the area of video‐on‐demand (VoD) to meet users' expectations. VoD requires high bandwidth and creates high traffic due to the nature of media. Many researchers have developed proxy caching models to reduce bandwidth consumption and traffic. Proxy caching keeps part of a media object to meet the viewing expectations of users without delay and provides interactive playback. If the caching is done continuously, the entire cache space will be exhausted at one stage. Hence, the proxy server must apply cache replacement policies to replace existing objects and allocate the cache space for the incoming objects. Researchers have developed many cache replacement policies by considering several parameters, such as recency, access frequency, cost of retrieval, and size of the object. In this paper, the Weighted‐Rank Cache replacement Policy (WRCP) is proposed. This policy uses such parameters as access frequency, aging, and mean access gap ratio and such functions as size and cost of retrieval. The WRCP applies our previously developed proxy caching model, Hot‐Point Proxy, at four levels of replacement, depending on the cache requirement. Simulation results show that the WRCP outperforms our earlier model, the Dual Cache Replacement Policy.  相似文献   

17.
王珂  江凌云  董唱 《通信技术》2020,(3):678-683
缓存替换技术是内容中心网络的研究内容之一。相对于海量的内容数据,缓存空间总是有限的,良好的缓存替换策略可以提高缓存收益。考虑到内容在将来被请求的概率越大,预期访问时间距离当前时刻越近,其留存价值就越大,提出了一种基于内容预期价值的替换策略。该方案通过考虑内容流行度和预期访问时间到当前时刻的时间距离,构建内容预期价值函数,并据此将价值最小的内容替换出去。仿真实验证明,该策略相对于传统的缓存替换策略,可以有效提高缓存命中率、降低请求跳数,提高网络性能。  相似文献   

18.
Cache performance tuning tools are conducive to develop program with good locality and fully use cache to decrease the influence caused by speed gap between processor and memory. This paper introduces the design and implementation of a cache performance tuning tool named CTuning, which employs a source level instrumentation method to gather program data access information, and uses a limited reuse distance model to analyze cache behavior. Experiments on 183.equake improve average performance more than 6% an...  相似文献   

19.
This paper presents a new data cache design, cache-processor coupling, which tightly binds an on-chip data cache with a microprocessor. Parallel architectures and high-speed circuit techniques are developed for speeding address handling process associated with accessing the data cache. The address handling time has been reduced by 51% by these architectures and circuit techniques. On the other hand, newly proposed instructions increase data cache bandwidth by eight times. Excessive power consumption due to the wide-bandwidth data transfer is carefully avoided by newly developed circuit techniques, which reduce dissipation power per bit to 1/26. Simulation study of the proposed architecture and circuit techniques yields a 1.8 ns delay each for address handling, cache access, and register access for a 16 kilobyte direct mapped cache with a 0.4 μm CMOS design rule  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号