期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于控制流的混合指令预取 总被引：2，自引：0，他引：2

沈立王志英鲁建壮戴葵《电子学报》2003,31(8):1141-1144

取指令能力的高低对微处理器的性能有很大影响.指令预取技术能够有效地降低指令Cache的访问失效率,提高微处理器的取指令能力,进而提高微处理器的性能.本文提出了一种基于程序控制流的混合指令预取机制,它采用顺序预取和非顺序预取相结合的方式将指令提前读入指令Cache.模拟结果显示,该方法能够有效地提高指令Cache访问的命中率,并具有实现简单,无效预取率低等特点. 相似文献

2.

多核系统中共享Cache的冒泡替换算法

林晓敏桂婷乔福明胡同森《微电子学与计算机》2011,28(4):118-121

在多核环境下,对共享L2 Cache的优化显得尤为重要,因为当被访问的数据块不在L2 Cache中时(发生L2缺失),CPU需要花费几百个周期访问主存的代价是相当大的.在设计Cache时,替换算法是考虑的一个重要因素,替换算法的好坏直接影响Cache的性能和计算机的整体性能.虽然LRU替换算法已经被广泛应用在片上Cache中,但是也存在着一些不足:当Cache容量小于程序工作集时,容易产生冲突缺失;且LRU替换算法不考虑数据块被访问的频率.文中把冒泡替换算法应用到多核共享Cache中,同时考虑数据块被访问的频率和最近访问的信息.通过分析实验数据,与LRU替换算法相比,采用冒泡替换算法可以使MPKI(Misses per Kilo instructions)和L2 Cache命中率均有所改善. 相似文献

3.

一种面向CMP的可变相联度混合Cache结构

下载免费PDF全文

晏沛湘杨先炬张民选《电子学报》2011,39(3):656-659

以V-Way Cache结构为原型,提出一种面向CMP的可变相联度混合Cache结构CMP-VH.CMP-VH将最后一级片上Cache划分成一种优化的私有/共享结构,Tag私有,数据部分私有部分共享.采用基于数据块的重用信息替换策略,提供显式和隐式两种机制在核间对共享数据进行容量划分.并行程序负载SPLASH-2的模拟... 相似文献

4.

分簇处理器中分簇投机的L0 Cache设计

杨兵毛志刚陈晓尹捷明《微电子学与计算机》2010,27(7)

处理器分簇技术是进一步提高超标量处理器性能的一种有效手段,实现了更大指令窗口和发射宽度的同时对Cache系统提出了严峻要求,需要一种访存延迟更小、扩展性更强的Cache结构.采用分簇投机的LO Cache结构,处理器在访存时投机访问各簇内简单快速的LO Cache,较好地隐藏了下级Cache的访问延迟.仿真结果显示在8簇的分簇处理器中,采用4kB,2路组相连的分簇L0 Cache后处理器性能平均提升5.6%,在部分测试程序中达到20%以上. 相似文献

5.

双核处理器性能最优的共享Cache划分 总被引：3，自引：2，他引：1

所光杨学军《微电子学与计算机》2008,25(9)

文中使用模拟器模拟的方法,测试IPC-CP对多道程序的吞吐率、加权加速比和公平性的影响.实验结果表明:以IPC最优为目标的Cache划分在三个评估指标中都优于以失效率最优为目标的Cache划分.其中,IPC-CP的吞吐率最高比失效率最优的Cache划分高出54%,平均高出27%. 相似文献

6.

针对SMS4密码算法的Cache计时攻击

赵新杰王韬郑媛媛《通信学报》2010,31(6):89-98

分别提出并讨论了针对SMS4加密前4轮和最后4轮的访问驱动Cache计时分析方法,设计间谍进程在不干扰SMS4加密前提下采集加密前4轮和最后4轮查表不可能访问Cache组集合信息并转化为索引值,然后结合明文或密文对密钥的不可能值进行排除分析,最终恢复SMS4初始密钥.实验结果表明多进程共享Cache存储器空间方式和SMS4查找表结构决定其易遭受Cache计时攻击威胁,前4轮和最后4轮攻击均在80个样本左右恢复128bit SMS4完整密钥,应采取一定的措施防御该类攻击. 相似文献

7.

多核实时线程间干扰分析及WCET估值

下载免费PDF全文

陈芳园张冬松王志英《电子学报》2012,40(7):1372-1378

在共享Cache的多核处理器中,线程在共享Cache中的指令可能被其他并行线程的指令替换,从而导致了线程间在共享Cache上的干扰.多核结构下WCET估值需要考虑并行线程间在共享Cache上的干扰.针对当前典型的共享Cache和共享总线的多核结构,本文提出了一种迭代的WCET估值分析方法.考虑共享总线对共享Cache访问的时序影响,基于该时序分析线程间在共享Cache上的干扰,得到较精确的WCET估值.理论分析证明了该方法的有效性,实验结果表明本文的分析方法较之当前的两种方法分别可以提高21%和14%的精确度. 相似文献

8.

多核中Cache管理策略分析

文敏华张彬《数字通信世界》2016,(3)

本文首先分析了多核系统中二级Cache私有和共享管理方式的优缺点.并在此基础上,分析了现有的基于私有和共享方式的优化策略,现有的优化策略均通过混合私有和共享的方式在Cache访问延迟和Cache命中率之间找到一种平衡. 相似文献

9.

一种数据Cache的设计和验证

屈凌翔袁潇王澧《电子与封装》2014,(5):28-32

Cache能够提高DSP处理器对外部存储器的存取速度,提高DSP的性能,设计高性能低功耗的Cache,对于提高DSP芯片的整体性能有着十分重大的意义。描述了DSP芯片中一种高性能低功耗的数据Cache。这种Cache可以通过增加具备重装功能的Line Buffer来减少处理器对Cache的访问频率,从而降低Cache功耗。通过FFT、AC3、FIR三种基准程序测试表明,Line Buffer可以降低35%的Cache访问频率,明显降低了数据Cache功耗。相似文献

10.

一种DSP指令Cache的功耗优化策略

下载免费PDF全文

单悦尔杨兵于宗光曹华锋《电子器件》2015,38(1)

高性能DSP器件对功耗指标要求越来越高,功耗主要来源于对存储空间的访问,因此提出了一种改进型Cache功耗优化策略,实现了对指令Cache的分阶段访问,同时兼顾了Cache的动态功耗和静态漏流功耗的优化,改进了传统的基于非分阶段访问的按需唤醒策略NPOWP(Non-Phased Cache with On-Demand Wakeup Prediction)显著影响处理器性能的缺点。设计应用于DSP设计的4路组相连昏睡指令Cache中,使用基于分阶段访问的按需唤醒策略POWP(Phased Cache with On-Demand Wakeup Prediction)策略平均可降低75.4%的指令Cache功耗,降低6.7%的处理器总功耗,性能损失仅为0.77%. 相似文献

11.

A Case Study: Power and Performance Improvement of a Chip Multiprocessor for Transaction Processing

《Very Large Scale Integration (VLSI) Systems, IEEE Transactions on》2005,13(7):865-868

Current high-end microprocessor designs focus on increasing instruction parallelism and clock frequency at the expense of power dissipation. This paper presents a case study of a different direction, a chip multiprocessor (CMP) with a smaller processor core than a baseline high-end 130-nm 64-bit SPARC server uniprocessor. We demonstrate that the size of the baseline processor core can be reduced by 2/3 using a combination of logical resource reduction and dense custom macros while still delivering about 70% of the TPC-C performance. Circuit speed is traded for power reduction by reducing the power supply from 1.0 to 0.8 V and increasing transistor channel lengths by 12.5% above the minimum. The resulting CMP with six reduced size cores and 4-MB L2 cache is estimated to run at 1.8 GHz while consuming less than 30% of the power compared to the scaled baseline dual-core processor running at 2.4 GHz. The proposed CMP is more than four times higher in TPC/W than the dual-core processor, facilitating the design of high-density servers. 相似文献

12.

面向非规则大数据分析应用的多核帮助线程预取方法

张建勋古志民胡潇涵蔡旻《通信学报》2014,35(8):17-146

大数据分析应用往往采用基于大型稀疏图的遍历算法,其主要特点是非规则数据密集访存。以频繁使用的具有大型稀疏图遍历特征的介度中心算法为例,提出一种基于帮助线程的多参数预取控制模型和参数优化方法,从而达到提高非规则数据密集程序性能的目的。在商用多核平台Q6600和I7上运用该方法后,介度中心算法在不同规模输入下平均性能加速比分别为1.20和1.11。实验结果表明,帮助线程预取能够有效提升该类非规则应用程序的性能。相似文献

13.

CMOS集成电路的电热耦合效应及其模拟研究 总被引：2，自引：0，他引：2

刘淼周润德贾松良《微电子学》2001,31(1):10-12

文章基于集成电路具体的封装结构提出了它的热学分析模型。针对均匀温度分布的集成电路,采用解耦法实现了电热耦合模拟软件Etsim,并研究分析了温度对集成电路性能和功耗的影响。相似文献

14.

基于DDS芯片AD9852的雷达回波模拟器设计

蒋智辰《电子科技》2014,27(3):70-72,76

基于直接数字频率合成技术DDS的原理,分析了影响DDS频率输出的核心因素。在此基础上仿真验证了相位累加器的位数对DDS频率输出的作用。介绍了一种DDS芯片AD9852并基于这种芯片提出了一种雷达回波模拟器的设计,并分析了DDS芯片的优缺点。该设计能够稳定地产生70 MHz载频的雷达回波,较好地模拟出所需回波。相似文献

15.

CMOS集成电路的自热效应和均匀温度分布的电热耦合模拟

刘森周润德贾松良《半导体技术》2000,(6):26-29

集成电路实际是由相互耦合的电学子系统和热学子系统共同组成。本文基于具体的封装结构提出集成电路的热学分析模型,分析了温度对集成电路性能和功耗的影响。并且针对均匀温度分布的集成电路,采用解耦法实现了电热耦合模拟软件ＥＴｓｉｍ。相似文献

16.

一种高效雷达信号模拟器

翟丽君穆贺强《现代电子技术》2012,35(12):126-129

为了给某些雷达信号处理算法的研究提供一种有效验证手段,设计此款雷达信号模拟器。系统基于DSP＋FPGA＋DDS架构：以DSP为核心,将AD9957作为基本目标信号产生器,在DSP的控制下FPGA产生基带数据提供给上变频芯片AD9957,完成中频模拟信号的产生。该模拟器创新地利用基于乘法器的迭代算法模拟多种类型雷达回波信号,特别适合产生大时宽信号。这种架构在产生多目标,和差信号方面比传统方法更节省硬件资源。结果表明,该系统集成度高,可扩展性强,数据产生方法高效。相似文献

17.

CaPPS: cache partitioning with partial sharing for multi-core embedded systems

Wei Zang Ann Gordon-Ross 《Design Automation for Embedded Systems》2016,20(1):65-92

As the number of cores in chip multi-processor systems increases, the contention over shared last-level cache (LLC) resources increases, thus making LLC optimization critical, especially for embedded systems with strict area/energy/power constraints. We propose cache partitioning with partial sharing (CaPPS), which reduces LLC contention using cache partitioning and improves utilization with sharing configuration. Sharing configuration enables the partitions to be privately allocated to a single core, partially shared with a subset of cores, or fully shared with all cores based on the co-executing applications’ requirements. CaPPS imposes low hardware overhead and affords an extensive design space to increase optimization potential. To facilitate fast design space exploration, we develop an analytical model to quickly estimate the miss rates of all CaPPS configurations using the applications’ isolated LLC access traces to predict runtime LLC contention. Experimental results demonstrate that the analytical model estimates cache miss rates with an average error of only 0.73 % and with an average speedup of \(3505\times \) as compared to a cycle-accurate simulator. Due to CaPPS’s extensive design space, CaPPS can reduce the average LLC miss rate by as much as 25 % as compared to baseline configurations and as much as 14–17 % as compared to prior works. 相似文献

18.

深亚微米隔离技术--浅沟槽隔离工艺 总被引：4，自引：0，他引：4

王新柱徐秋霞钱鹤申作成欧文《半导体学报》2002,23(3):323-329

研究了浅沟槽隔离(STI)工艺的各主要工艺步骤:沟槽的形成、沟槽顶角的圆滑、沟槽填充以及化学机械抛光平坦化.使用器件模拟软件Medici和Davinci分析了STI结构的隔离性能以及沟槽隔离MOSFET的Kink效应和反窄宽度效应. 相似文献

19.

Dummy fill effect on CMP planarity

周隽雄陈岚阮文彪李志刚沈伟翔叶甜春《半导体学报》2010,31(10)

With the use of a chemical-mechanical polishing(CMP)simulator verified by testing data from a foundry,the effect of dummy fill characteristics,such as fill size,fill density and fill shape,on CMP planarity is analyzed.The results indicate that dummy density has a significant impact on oxide erosion,and copper dishing is in proportion to dummy size.We also demonstrate that cross shape dummy fill can have the best dishing performance at the same density. 相似文献