期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

甘新标戴葵沈立王志英《计算机工程与科学》2009,31(2)

SDTA指令集体系结构是一种基于传输触发的VLIW体系结构。本文结合SDTA指令集结构的特点,经过循环展开和循环化简、强度消弱、过程集成、机器方言和指令归并等指令调度优化技术,高效实现了自然对数函数ln(x)。实验结果表明,在Neuron处理器上,ln(x)不但数据精度高,而且运行周期数只有gcc3.2.2数学库中自然对数函数运行周期数的33%左右。相似文献

2.

一种高能效的结构不对称指令缓存

刘骁高红光陈芳园丁亚军《计算机工程与科学》2017,39(3):443-450

在现代微处理器中,指令缓存的Tag读取、比较消耗了指令缓存较大比例的能耗。提出一种基于推断的低能耗指令缓存:不对称指令缓存。根据跳转指令比例低的特点,在该结构中区别处理跳转指令和顺序指令,使用和数据不完全对应的简化标记管理位。该结构采用了命中推断和变长指令取指两种创新技术,其中基于命中推断技术解决了指令缓存命中时Tag比较过多的问题;使用变长指令取指技术提高了顺序指令块的命中率。实验结果表明,对于选取的SPEC2006测试程序,不对称指令缓存结构较常规L1指令Cache取指能耗下降了40%~60%,比无标记指令缓存结构TH IC能耗降低了9%;取指ED2P方面,较常规L1指令Cache优化约50%,比TH IC结构优化约17%。相似文献

3.

在SystemC中用ISS构造处理器模型方法分析 总被引：1，自引：0，他引：1

邵作之曹晓龙刘莉娟《微处理机》2006,27(3):1-3

讨论了在SystemC环境下，通过封装独立的处理器指令集模拟器来构造具有时钟精度粒度的处理器模型方法。对封装过程中SystemC模块与指令集模拟器之间的信息传递与时钟同步、软件调试器集成、SystemC进程的选择、进程的结构等问题进行了讨论，并分别针对指令精确和周期精确两种类型的指令集模拟器提出了相应的解决方法。相似文献

4.

DSP指令集仿真器的设计与实现 总被引：2，自引：1，他引：2

陶峰峰付宇卓《计算机仿真》2005,22(9):225-228

指令集仿真器是进行芯片设计评估,系统软件设计开发以及计算机软硬件协同设计的不可或缺的工具.在DSP的硬件设计和后期算法开发中,指令集仿真器也同样是起着至关重要的作用.该文参考当前在指令集仿真领域比较先进的JIT-CCS和IS-CS仿真技术,吸取了各自的一些优点,提出了仿真策略,设计并实现了基于DSP3000的指令集仿真器HJS.为了兼顾仿真速度与精度的要求,HJS实现了指令精度和时钟周期精度两种级别的仿真.同时,在指令Cache和流水线的仿真上都做到了既尽可能与实际硬件相符,同时也兼顾执行效率.为评估DSP硬件设计、DSP算法的实现提供了很好的软件模拟平台. 相似文献

5.

面向特定应用的指令集自动扩展

下载免费PDF全文

吕雅帅沈立王志英戴葵《计算机工程与科学》2007,29(6):84-86

面向应用扩展指令集是面向特定应用处理器设计过程的一个重要环节,这一工作的自动实现对于缩短产品开发周期具有非常重要的意义。现有的技术未能实现该过程的完全自动化,而且在选择指令时并没有全面考虑指令对处理器面积和功耗的影响。本文设计并实现了一个面向特定应用的指令集自动扩展系统,该系统不仅可以根据应用特征自动扩展
新指令,而且可以自动完成编译器的修改。模拟结果显示,扩展的新指令能够在保持功耗、面积基本不变的前提下,带来4.7%～16.7%的性能提升。相似文献

6.

高速8位微处理器设计

《计算机应用与软件》2016,(1)

针对当前MCS51指令集的微处理器指令执行效率低问题,设计一款高速微处理器。其特点是:首先,采用快速乘除器和基4快速除法器,其计算速度是传统乘法器和除法器计算速度的48倍;其次,采用32位指令总线,能一次从ROM读取4个字节,覆盖所有指令长度,减少取指周期数;此外,使用五级流水线,能在单周期完成大多数指令;在Altera EP3C16 FPGA芯片上进行物理验证,根据Dhrystone 2.1性能测试,在相同的时钟频率下其综合性能是传统MCS51微处理器的12倍。实验结果表明,通过上面3种改进方法,微处理器指令执行效率得到极大提高。相似文献

7.

嵌入式系统源程序级软件能耗建模与分析

叶珊郭荣佐黄君《计算机应用研究》2017,34(10)

针对嵌入式系统能耗对各种嵌入式设备工作时长的影响,本文从系统指令级到源程序级的软件能耗考虑,首先通过分析设备源程序级语句的相关特征,基于源程序语句的指令能耗,提出一种针对源程序级的能耗模型,然后基于模型分析对五个经典算法的源程序中不同类别语句进行能耗优化,最后分别对五组经典算法优化前后的能耗比较。实验表明,本模型使得优化后的源程序能耗降低了9.46%-50.29%,达到了降低嵌入式系统软件能耗的目的。相似文献

8.

可重构指令集计算机综述

史莉雯 FAN Xiao-ya 《微处理机》2008,29(2)

简要介绍了可重构指令集计算机的体系结构、特征、以及发展状况,并在指令重构的基础上对目前可重构指令集计算机面临的问题作了一些讨论。相似文献

9.

VLIW处理器ISA建模与辅助软件优化技术

严迎建叶建森刘军伟徐劲松《计算机工程与设计》2009,30(11)

在基于VLIW结构的分组密码专用处理器设计过程中,研究了VLIW处理器的指令集体系结构建模技术.设计了一个指令精确的指令集模拟器,通过附加一个流水线相关及停顿统计模块,实现了周期精确的程序运行统计和流水线停顿统计.结合指令集模拟器、汇编器以及调试器,设计了一个面向VLIW处理器的辅助程序优化环境.利用模拟器和调试器来评估程序的指令级并行度以及资源占用情况,辅助程序开发者优化VLIW处理器程序,从而达到软硬件协作开发VLIW处理器指令级并行性的最终目的. 相似文献

10.

微处理器指令综合算法研究

郝勇李贵山《微处理机》1997,(1):46-48

指令是计算机软件与硬件的接口，指令集定义的好坏，直接影响到系统的整体性能，笔者给出一种自动生成指令集的方法，特别适用于流水线微处理器的指令的设计。相似文献

11.

基于旁路泄漏的微控制器指令分析研究

吴恒旭陈开颜邓高明邹程《小型微型计算机系统》2011,32(6)

微控制器芯片所有活动都会在其旁路泄漏信号上留下指纹信息,将逆向工程思想与旁路攻击方法结合,对芯片旁路指纹信息进行分析,判断微控制器所执行的未知指令.针对微控制器(AT89C52)指令集构建对应不同指令的旁路模板库,对未知指令进行模板分析,通过实验验证了指令恢复的可行性,扩展了旁路攻击的研究领域. 相似文献

12.

基于功耗泄漏的密码芯片指令分析

下载免费PDF全文

吴恒旭陈开颜邓高明邹程《计算机工程》2011,37(7):130-132,135

结合逆向工程思想和旁路攻击原理,利用密码芯片的旁路功耗泄漏信号对芯片指令进行建模攻击,选取指令功耗轨迹上的有效点建立指令旁路模板,并提出指令类划分方法.通过对AT89C52单片机上运行的单周期单字节指令进行分析,验证了旁路模板指令恢复的可行性. 相似文献

13.

VLIW处理器循环指令缓冲器设计与实现

李勇胡慧俐杨焕荣《计算机应用》2014,34(4):1005-1009

数字信号处理软件中循环程序在执行时间上占有很大比例,用指令缓冲器暂存循环代码可以减少程序存储器的访问次数,提高处理器性能。在VLIW处理器指令流水线中增加一个支持循环指令的缓冲器,该缓冲器能够缓存循环程序指令,并以软件流水的形式向功能部件派发循环程序指令。这样循环程序代码只需访存一次而执行多次,大大减少了访存次数。在循环指令运行期间,缓冲器发出信号使程序存储器进入睡眠状态可以降低处理器功耗。典型的应用程序测试表明,使用了循环缓冲后,取指流水线空闲率可达90%以上,处理器整体性能提高10%左右,而循环缓冲的硬件面积开销大约占取指流水线的9%。相似文献

14.

基于跳转轨迹的分支目标缓冲研究

熊振亚林正浩任浩琪《计算机科学》2017,44(3):195-201, 214

现代计算机体系结构受两个方面的困扰:性能和能耗。为降低嵌入式处理器日益增长的功耗,提出基于跳转轨迹的分支目标缓冲结构(TG-BTB)。与传统分支目标缓冲每次提取指令时需要查询分支目标缓冲不同,TG-BTB只在执行轨迹预测为跳转时才查询分支目标缓冲。该结构通过在程序执行过程中动态分析跳转轨迹行为,可以实现只在轨迹跳转时查询分支目标缓冲,从而降低功耗。在动态分析过程中首先提取记录两条跳转分支指令之间的指令间隔,然后将提取的指令间隔存储在TG-BTB中,最后根据存储在TG-BTB中的指令间隔决定是否需要查询BTB。基于基准测试向量进行模型验证和性能测试,实验结果表明TG-BTB降低了81%的BTB查询能耗。相似文献

15.

基于神经网络的机械加工工序能耗预测

宫运启《计算机工程与应用》2012,48(21):235-239

针对工序级能耗难以用数学方法精确估算的问题,提出了一个基于神经网络的机械加工工序能耗预测方法。给出了输入变量及输出变量的选取及其归一化处理方法,进行了隐含层节点数和传递函数的选取。以各切削用量组合及其对应能源消耗的历史数据作为神经网络训练的样本集,建立切削用量组合方案输入和能源消耗输出间的非线性关系,从而对新的切削用量参数组合进行能耗值的预测。以某企业导叶片的粗铣加工为例,验证了该能耗预测方法的有效性。相似文献

16.

An embedded implementation of the Common Language Infrastructure

Joseph C. Libby Kenneth B. Kent 《Journal of Systems Architecture》2009,55(2):114-126

The Common Language Infrastructure provides a unified instruction set which may be targeted by a variety of high level language compilers. This unified instruction set simplifies the construction of compilers and gives application designers the ability to choose the high level programming language that best suits the problem being solved. While the Common Language Infrastructure solves many problems related to design of applications and compilers, it is not without its own problems. The Common Language Infrastructure is based upon a virtual machine, much like the Java Virtual Machine. This requires that all instructions being executed on the Common Language Infrastructure be translated to native machine instructions before they can be executed on the host processor. This leads to degradation in performance. In order to overcome this problem it is proposed that an embedded processor capable of natively executing the CLI instruction set be developed. The objective of this work is the design and implementation, using VHDL and simulation, of an embedded processor capable of natively executing the CLI instruction set. This processor provides a platform easily targeted by software developers. 相似文献

17.

针对程序代码语句级能耗优化方法

黄天明钱德沛栾钟治《数据与计算发展前沿》2018,9(1):49-58

本文主要通过插桩技术对程序的指令进行分析,寻找到程序代码中低效冗余的数据存取语句,对这些语句进行改进,在运行结果不变的前提下,使得在运行程序过程中对于计算机相关部件的使用更加合理和高效,降低机器运行该程序的能耗,起到对程序代码能耗优化的作用。本研究通过Intel Pin^[1]工具对于程序代码指令的分析发现,常见程序中存在一种低效冗余的数据存取代码,该代码对于数据多次写入后才读。对这种代码改进前后使用根据计算机部件级硬件性能计数器相关读数建立的模型^[2]对于程序能耗进行测量,结果显示对程序能耗降低起到了明显作用,可以作为程序代码能耗优化的一种有效方法,特别是对于运行时间长能耗高的科学计算程序。相似文献

18.

Linked instruction caches for enhancing power efficiency of embedded systems

Chang-Jung Ku Ching-Wen Chen An Hsia Chun-Lin Chen 《Microprocessors and Microsystems》2014

The power consumed by memory systems accounts for 45% of the total power consumed by an embedded system, and the power consumed during a memory access is 10 times higher than during a cache access. Thus, increasing the cache hit rate can effectively reduce the power consumption of the memory system and improve system performance. In this study, we increased the cache hit rate and reduced the cache-access power consumption by developing a new cache architecture known as a single linked cache (SLC) that stores frequently executed instructions. SLC has the features of low power consumption and low access delay, similar to a direct mapping cache, and a high cache hit rate similar to a two way-set associative cache by adding a new link field. In addition, we developed another design known as a multiple linked caches (MLC) to further reduce the power consumption during each cache access and avoid unnecessary cache accesses when the requested data is absent from the cache. In MLC, the linked cache is split into several small linked caches that store frequently executed instructions to reduce the power consumption during each access. To avoid unnecessary cache accesses when a requested instruction is not in the linked caches, the addresses of the frequently executed blocks are recorded in the branch target buffer (BTB). By consulting the BTB, a processor can access the memory to obtain the requested instruction directly if the instruction is not in the cache. In the simulation results, our method performed better than selective compression, traditional cache, and filter cache in terms of the cache hit rate, power consumption, and execution time. 相似文献

19.

针对KASLR的Linux计时攻击方法

丛眸张平王宁《计算机工程》2021,47(8):177-182

针对开启内核地址空间布局随机化（KASLR）防护的Linux系统,提出一种基于CPU预取指令的Cache计时攻击方法。Intel CPU的预取指令在预取未映射到物理地址的数据时会发生Cache失效,导致消耗的CPU时钟周期比已映射到物理地址的数据要长。根据这一特点,通过rdtscp指令获取CPU时钟周期消耗,利用计时攻击绕过KASLR技术防护,从而准确获取内核地址映射的Offset。实验结果表明,该攻击方法能够绕过Linux操作系统的KASLR防护,获得准确的内核地址映射位置,并且避免引起大量Cache失效。相似文献