期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Increasing the Instruction Fetch Rate via Block-Structured Instruction Set Architectures

Eric Hao Po-Yung Chang Marius Evers Yale N. Patt 《International journal of parallel programming》1998,26(4):449-478

To exploit larger amounts of instruction level parallelism, processors are being built with wider issue widths and larger numbers of functional units. Instruction fetch rate must also be increased in order to effectively exploit the performance potential of such processors. Block-structured ISAs provide an effective means of increasing the instruction fetch rate. We define an optimization, called block enlargement, that can be applied to a block-structured ISA to increase the instruction fetch rate of a processor that implements that ISA. We have constructed a compiler that generates block-structured ISA code, and a simulator that models the execution of that code on a block-structured ISA processor. We show that for the SPECint95 benchmarks, the block-structured ISA improves the performance of an aggressive wide issue, dynamically scheduled processor by 15% while using simpler microarchitectural mechanisms to support wide issue and dynamic scheduling. 相似文献

2.

基于GCC的高性能DSP Matrix向量指令集扩展

辛乃军陈旭灿孙海燕阳柳罗杰淡孝强王霁《计算机工程与科学》2012,34(1):58-63

自动向量化技术是编译器提高程序并行性的优化方法。随着支持SIMD结构处理器的计算平台的广泛应用,自动向量化技术也成为编译器技术研究的热点。GCC编译器是一种开源、跨平台的编译器。本文基于GCC内部自动向量化算法,结合Matrix芯片的体系结构和指令集特点,完成了Matrix向量指令集在GCC后端扩展,实现了基本的自动向量化支持。测试结果表明,扩展后的编译器能够支持Matrix向量指令集,进行基本的自动向量化,同时支持以内建函数方式开发基于Matrix的并行程序。相似文献

3.

Emulating a Complex Instruction Set Computer with a Reduced Instruction Set Computer

Mcneley K.J. Milutinovic V.M. 《Micro, IEEE》1987,7(1):60-72

GaAs now allows up to 30K transistors per chip. With such a limitation, can you build a 32-bit CISC on a single GaAs chip? Yes, if you build a reduced instruction set computer and emulate the 32-bit CISC on it. 相似文献

4.

Variable Length Instruction Compression on Transport Triggered Architectures

Timo Viitanen Janne Helkala Heikki Kultala Pekka Jääskeläinen Jarmo Takala Tommi Zetterman Heikki Berg 《International journal of parallel programming》2018,46(6):1283-1303

The memories used for embedded microprocessor devices consume a large portion of the system’s power. The power dissipation of the instruction memory can be reduced by using code compression methods, which may require the use of variable length instruction formats in the processor. The power-efficient design of variable length instruction fetch and decode is challenging for static multiple-issue processors, which aim for low power consumption on embedded platforms. The memory-side power savings using compression are easily lost on inefficient fetch unit design. We propose an implementation for instruction template-based compression and two instruction fetch alternatives for variable length instruction encoding on transport triggered architecture, a static multiple-issue exposed data path architecture. With applications from the CHStone benchmark suite, the compression approach reaches an average compression ratio of 44% at best. We show that the variable length fetch designs reduce the number of memory accesses and often allow the use of a smaller memory component. The proposed compression scheme reduced the energy consumption of synthesized benchmark processors by 15% and area by 33% on average. 相似文献

5.

20世纪后半叶的意大利家具设计

吴佳钦《艺术与设计．数码设计》2007,(4)

本文初步介绍了20世纪后半叶意大利设计,着重介绍了在这50年的时间内意大利家具设计的发展、特点。说明了形成这种意大利家具设计独特魅力的原因。并且具体的从几件家具的分析入手,说明了其风格在设计造型中如何去表达和具体的体现手法。相似文献

6.

A Reduced High-Level-Language Instruction Set

Schulthess P.U. 《Micro, IEEE》1984,4(3):55-67

The Object Pascal Architecture provides 22 simple stack instructions which enable straightforward compilation of Pascal-like languages. 相似文献

7.

龙芯指令系统架构技术

胡伟武汪文祥吴瑞阳王焕东曾露徐成华高翔张福新《计算机研究与发展》2023,60(1):2-16

介绍了统筹考虑先进性和兼容性要求的龙芯指令系统架构——龙架构(LoongArch). LoongArch吸纳了近年来指令系统设计领域诸多先进的技术发展成果,易于高性能低功耗的实现和编译优化;融合了各种国际主流指令系统的主要功能特性,不仅能够确保现有龙芯电脑上应用二进制的无损迁移,而且能够实现多种国际主流指令系统的高效二进制翻译.LoongArch已经被实现于龙芯中科技术股份有限公司研制的3A5000四核CPU.SPEC CPU2006的实验结果表明,在相同微结构下,LoongArch性能比龙芯CPU原指令系统MIPS平均提升超过7%.在硬件辅助支持下,SPEC CPU2000程序从MIPS翻译到LoongArch可以实现无损翻译,其定点程序子集和浮点程序子集从x86翻译到LoongArch的效率分布达QEMU二进制翻译器的3.6倍和47.0倍.LoongArch有望消除指令系统之间的壁垒,使得不同指令集的软件能够融合到统一的LoongArch平台上,不加区别地高效运行.

相似文献

8.

A Unique Microprcessor Instruction Set

Fairclough D.A. 《Micro, IEEE》1982,2(2):8-18

New instruction sets have been based on traditather than on the application of scientific method. Here, the latter has yielded a simple, optimal, en-member instruction set. 相似文献

9.

一种高速灵活的指令仿真器 总被引：2，自引：0，他引：2

邢文峰姚庆栋史册高磊《计算机工程》2004,30(22):74-75,154

指令仿真器是一种用计算机软件来模拟程序在目标芯片上运行情况的工具。文章介绍了一种新的指令集仿真器的仿真方法,它基于静态编译仿真技术,但同时又具有解释型指令仿真器的灵活性和静态编译仿真器的高效性。相似文献

10.

面向Cache优化的向量指令集设计与测评

曾坤《计算机工程与科学》2009,31(Z1)

为微处理器扩展向量指令集是提升现代微处理器性能的一种可行手段,然而传统向量指令对存储系统的访问表现出较差的局部性,因此难以与现代微处理器设计中广泛使用的Cache很好的结合。本文以优化Cache性能为目标,对传统向量指令集进行改造,提出了COV(Cache Optimized Vector Instruction Set)向量指令集,并以OpenRISC1200为平台,对该指令集进行了实现与测评,获得了约四倍的性能加速比。相似文献

11.

面向多目标的指令集模拟技术

下载免费PDF全文

杨义彬蒋烈辉尹青何红旗宋彭涛《计算机工程》2009,35(23):284-284

针对传统指令集模拟器的目标依赖性,提出基于虚指令集的多目标指令集模拟技术。采用解释型模拟策略,利用虚指令集技术优化虚指令集构造,进一步设计出面向多目标的指令集模拟器。实验结果证明该技术具有快速、灵活、可重用等特性,该模拟器在后续工作和兼容性方面优于传统模拟器。相似文献

12.

Java指令集结构的研究 总被引：1，自引：0，他引：1

戴葵秦莹《计算机科学》2000,27(4):5-8

1 引言 Java是一种编程语言,用其编写的程序具有安全、模块化和可移植等特点。当前Java在Internet有广泛应用,在网站主页的HTML代码中嵌入Java类文件,可以增强界面的动画效果,这种类文件称为小程序(Applet),它是Java源程序的可执行代码。当浏览器访问包含小程序的主页时,相应的类文件从服务器传送到在客户机上运行的Java虚拟机(JVM)上,由JVM生成相应的类对象,并执行相应的方法。Netscape浏览器中就包含这种JVM。相似文献

13.

可重用的指令集模拟器的设计与优化技术

下载免费PDF全文

韩小琨蒋烈辉尹青陈亮周博《计算机工程》2008,34(7):61-63

指令集模拟器是进行体系结构设计与评估及软件逆向工程开发的有利工具。该文采用解释型模拟策略,阐述可重用的指令集模拟器的实现方法。在此基础上,提出一种基于虚拟指令集的模拟技术,使之能够应用于多款处理器,同时论述了几种提高模拟效率的优化技术。相似文献

14.

DSP指令集仿真器的设计与实现 总被引：2，自引：1，他引：2

陶峰峰付宇卓《计算机仿真》2005,22(9):225-228

指令集仿真器是进行芯片设计评估,系统软件设计开发以及计算机软硬件协同设计的不可或缺的工具.在DSP的硬件设计和后期算法开发中,指令集仿真器也同样是起着至关重要的作用.该文参考当前在指令集仿真领域比较先进的JIT-CCS和IS-CS仿真技术,吸取了各自的一些优点,提出了仿真策略,设计并实现了基于DSP3000的指令集仿真器HJS.为了兼顾仿真速度与精度的要求,HJS实现了指令精度和时钟周期精度两种级别的仿真.同时,在指令Cache和流水线的仿真上都做到了既尽可能与实际硬件相符,同时也兼顾执行效率.为评估DSP硬件设计、DSP算法的实现提供了很好的软件模拟平台. 相似文献

15.

WCET可预测的Java指令集硬件实现

下载免费PDF全文

杨帆高振华柴志雷《计算机工程》2012,38(1):14-18

为能以硬件方式直接执行CISC结构的Java字节码,设计并实现适用于32位嵌入式实时Java平台的JPOR-32指令集。分析Java虚拟机规范中各Java字节码的功能和实现原理,设定执行每条指令时信号和数据在Java处理器数据通路上的变化,采用微指令方式执行复杂指令,简单指令直接执行,从而使JPOR-32的指令集具有RISC特性。实验结果验证了指令集的正确性及其最坏情况执行时间(WCET)的可预测性。相似文献

16.

面向特定应用的指令集自动扩展

下载免费PDF全文

吕雅帅沈立王志英戴葵《计算机工程与科学》2007,29(6):84-86

面向应用扩展指令集是面向特定应用处理器设计过程的一个重要环节,这一工作的自动实现对于缩短产品开发周期具有非常重要的意义。现有的技术未能实现该过程的完全自动化,而且在选择指令时并没有全面考虑指令对处理器面积和功耗的影响。本文设计并实现了一个面向特定应用的指令集自动扩展系统,该系统不仅可以根据应用特征自动扩展
新指令,而且可以自动完成编译器的修改。模拟结果显示,扩展的新指令能够在保持功耗、面积基本不变的前提下,带来4.7%～16.7%的性能提升。相似文献

17.

Encoding the Java Virtual Machine's Instruction Set

Michael Eichberg Andreas Sewe 《Electronic Notes in Theoretical Computer Science》2011,264(4):35-50

相似文献

18.

可重构指令集计算机综述

史莉雯 FAN Xiao-ya 《微处理机》2008,29(2)

简要介绍了可重构指令集计算机的体系结构、特征、以及发展状况,并在指令重构的基础上对目前可重构指令集计算机面临的问题作了一些讨论。相似文献

19.

Short Note: On Instruction Set Encoding

Baecker H. D. 《Computer Journal》1984,27(3):283

相似文献

20.

一种神经网络指令集扩展与代码映射机制

娄文启王超宫磊周学海《软件学报》2020,31(10):3074-3086

近年来,卷积神经网络(CNN)在图像识别和分类领域的高精度表现使其在机器学习领域受到了广泛关注.然而CNN的计算与访存密集特性给需要支持各种负载的通用处理器带来了巨大压力.因此,涌现了大量CNN专用硬件加速器.它们虽然提高了效率但却缺乏灵活性.基于新兴的RISC-V架构设计了包含10条矩阵指令的专用指令集RV-CNN.通过抽象典型CNN中的计算为指令,该指令集可灵活支持CNN推理过程并具有比通用ISA更高的代码密度.在此基础上,提出了代码至指令的映射机制.通过在XilinxZC702上使用该指令集构建不同网络模型后发现,相比于x86处理器,RV-CNN平均具有141倍的能效和8.91倍的代码密度;相比于GPU,平均具有1.25倍的能效和1.95倍的代码密度.另外,相比于以往的CNN加速器,该设计在支持典型CNN模型的同时仍具有不错的能效. 相似文献