期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

一种基于寄存器压力的VLIW DSP分簇算法 总被引：1，自引：0，他引：1

雷一鸣洪一徐云姜海涛《计算机应用》2010,30(1):274-276

寄存器是程序运行时最宝贵的资源之一,软件流水在对VLIW DSP指令调度的同时,会显著增加寄存器的压力,从而导致寄存器溢出,软件流水中止。在以往的研究中,软件流水之前的指令分簇会更多地考虑指令并行性,往往会把寄存器的压力交给寄存器分配阶段,当物理寄存器不够分配时会造成寄存器溢出。通过考察指令运行时的寄存器压力情况对指令进行分簇,这样可根据各个簇的寄存器压力的动态信息减少寄存器的溢出,提高指令运行效率。相似文献

2.

VelociTI结构浮点DSPs的流水线异常处理方法

下载免费PDF全文

胡正伟仲顺安陈禾《计算机工程》2007,33(23):28-30

在采用基于VelociTI结构浮点DSPs流水线模式设计具有自主知识产权的数字信号处理器中，为了正确有效地实现对流水线异常的控制，提出了一种该结构流水线发生异常时的处理方法。对引起流水线异常的情况进行了合理的分类，存储器阻塞、多执行包和多周期NOP指令采用通过控制流水线寄存器的时钟信号实现控制。采用控制指令的执行条件实现了中断引起的流水线队列中部分指令的废除。对提出的方法采用VHDL语言建模设计，仿真结果验证了其正确性。相似文献

3.

一种高性能分簇式超标量微处理器结构

甘初晖杨兵喻明艳《微处理机》2008,29(6)

随着超标量微处理器指令发射宽度的增大,流水线中各个部件的硬件复杂度以及连线长度迅速增加,特别是当工艺线宽越来越小时,连线延迟成为阻碍处理器性能提高的瓶颈。我们提出了一种分簇式超标量处理器结构,在维持发射宽度不变的前提下能够有效降低硬件复杂度,缩短连线长度,减小延迟时间。通过对该分簇的处理器进行模拟并估算它们的物理寄存器组的延迟和面积,我们发现,对于2×4分簇结构,在寄存器组面积减少12%的同时,处理器性能至少可获得16%的提升。相似文献

4.

超标量处理器乱序提交机制的研究与设计

李昭刘有耀焦继业潘树朋《计算机工程》2021,47(4):180-186

针对超标量处理器中长周期执行指令延迟退休及持续译码导致的重排序缓存（ROB）阻塞问题,提出一种指令乱序提交机制。通过设计容量可配置的多缓存指令提交结构,实现存储器操作指令和ALU类型指令的分类退休,根据超标量处理器架构及性能需求对目标缓存和存储缓存容量进行参数化配置降低流水线阻塞风险,同时利用指令目的寄存器编码提交模式加快指令提交速率。实验结果表明,该机制提高了单次指令提交数量,基于该机制的超标量处理器相比传统基于ROB顺序提交机制的超标量处理器在减少硬件开销的情况下平均IPC指数提升46%,相比基于值预测、乱序退休和组提交的超标量处理器平均IPC指数增益为19%,综合性能更优。相似文献

5.

分簇结构超长指令字DSP编译器的设计与实现 总被引：5，自引：0，他引：5

胡定磊陈书明刘春林《小型微型计算机系统》2006,27(2):348-353

超长指令字（VLIW）是高端DSP普遍采用的体系结构。VLIW DSP在硬件上没有调度和冲突判决的机制，其性能的发挥完全依靠编译嚣的优化效果．基于可重定向编译基础设施IMPACT，为分簇VLIW DSP YHFT—D4设计与实现了优化编译器．其中着重讨论了可重定向信息的定义、代码注释、SIMD指令的支持、分簇寄存器分配以度指令级并行开发和资源冲突解决等内容．实验结果表明该编译器可以达到较好的优化效果．相似文献

6.

一种基于VLIW结构的高性能变长指令发射机制

杨惠陈书明《计算机研究与发展》2013,50(10)

指令压缩技术能够克服传统超长指令字(very long instruction word,VLIW)结构的指令高速缓冲(cache)中长指令字密度低的缺陷,使长指令字中的各条指令能紧密地排列在高速缓冲行(cache line)中,但可能导致长指令字分置于两个cache line,使其不能同时参与取指与发射,从而成为处理器的性能瓶颈.受到分置cache line的影响,传统提升循环效率的软件流水方法性能下降.高性能变长指令发射窗的机制能够解决分离指令字带来的取指发射问题,为取指流水线提供高效连续的指令流,特别地,该机制缓存循环的一次迭代,硬件支持循环的软件流水,有效地增强VLIW结构的数字信号处理器(digital signal processor,DSP)的性能.通过搭建时钟精确的处理器仿真模型,并基于DSP/IMG库上进行仿真,结果显示,采用两级指令发射窗机制,平均性能提高约21.89％. 相似文献

7.

多寄存器组网络处理器上的寄存器分配技术 总被引：1，自引：0，他引：1

张军超连瑞琦张兆庆《计算机学报》2006,29(1):66-72

针对传统的图着色寄存器分配算法不能直接处理网络处理器的操作问题，提出了一种多寄存器组网络处理上的寄存器分配技术．在依次分析了一个符号寄存器可能位于哪些寄存器组？如果没有候选组，该如何解决这种冲突？如果有多个候选组，该选用哪个组等问题的基础上，通过将这些方法与图着色寄存器分配算法相融合，在IXP上实现了这种多寄存器组的寄存器分配，提高了它的可编程性．这种方法也可运用到其它具有类似寄存器结构的处理器上．相似文献

8.

VelociTI结构浮点DSPs寄存器堆读写的流水线设计

下载免费PDF全文

胡正伟仲顺安陈禾《计算机工程》2007,33(21):237-239

研究了VelociTI结构浮点数字信号处理器寄存器堆的流水线读写原理并提出了一种设计方法。该方法对单操作数双精度浮点指令采用2个32位数据通路用1个流水线周期读取源操作数，双操作数双精度浮点指令采用锁定译码单元，利用若干流水线周期读取源操作数。采用写控制向量的方法实现了流水线多个周期执行写操作。该方法正确实现了基于IEEE754标准的双精度浮点数据在寄存器堆与功能单元之间的32位数据通路上的传输，仿真结果验证了其正确性。相似文献

9.

基于MIPS架构的RISC微处理器RM7000A

李杰贺占庄《单片机与嵌入式系统应用》2004,(2):39-42

概要介绍基于MIPS指令集的RM7000A微处理器的大容量片内缓存、超标量流水线、指令双发射、大量寄存器组等主要特性,并对其两种应用方案进行探讨。相似文献

10.

基于ARM的除法运算优化策略

叶凯杨文淑包启亮《单片机与嵌入式系统应用》2006,(3):78-80

与传统的4／8位单片机相比，ARM的性能和处理能力是遥遥领先的。但与之相应，ARM的系统设计复杂度和难度，较之传统的设计方法也大大提升了，同时也大大拓展了针对ARM芯片特性进行优化的空间，例如针对指令流水线的优化、针对寄存器分配进行的优化等。相似文献

11.

一种基于数据相关性的乱序处理器验证方法

宁永波李谦李强张琦滨《数字社区&智能家居》2011,(4)

乱序执行是现代微处理器设计中普遍采用的提高流水线性能的方法,但乱序执行并乱序退出的全乱序结构在超标量处理器中应用并不普遍,这种全乱序的结构对基于参考模型的处理器正确性验证提出了巨大的挑战。主要介绍了从处理器的程序行为是否正确的最终标准——程序员可见的结构变量按程序行为进行顺序变化的角度对全乱序结构的处理器验证提出了一种全新的解决方法。相似文献

12.

一种基于活跃周期的低端口数低能耗寄存器堆设计

赵雨来李险峰佟冬孙含欣陈杰程旭《计算机学报》2008,31(2):299-308

多端口寄存器堆有助于挖掘指令级和线程级并行性,但同时带来面积、能耗和访问时间的压力.文章面向超标量和SMT处理器,给出了一种方法,即通过增加一个小的活跃值堆(Active Value File,AVF)选择性地保存处于活跃周期(从产生到最后一次使用之间)的物理寄存器值.AVF结构可分担主寄存器堆的访问压力并降低端口数目,实现简单且具有写过滤的特点.在获得较大幅度能耗降低的同时不影响时钟频率且IPC损失较小. 相似文献

13.

基于ARM920T内核的FFT算法的高效实现 总被引：2，自引：0，他引：2

下载免费PDF全文

李宏佳魏权利《计算机工程与应用》2008,44(3):114-116

随着ARM体系结构的发展,ARM处理器已经可以胜任许多DSP应用。为了充分挖掘ARM处理器数字信号处理能力,结合ARM内核设计特点设计了基4-FFT算法的高效ARM程序。代码设计中,对寄存器分配和指令调度作了精细地控制,提出了ARM汇编中浮点数的定点格式存储和计算方法,充分利用桶形移位器和5级流水线,避免了流水线互锁问题。实验结果表明优化后的程序指令周期总数减少并且运算精度很高。这些优化方法对ARM程序优化具有实际指导意义。相似文献

14.

An Energy-Efficient Processor Architecture for Embedded Systems 总被引：1，自引：0，他引：1

Balfour James Dally William Black-Schaffer David Parikh Vishal Park JongSoo 《Computer Architecture Letters》2008,7(1):29-32

We present an efficient programmable architecture for compute-intensive embedded applications. The processor architecture uses instruction registers to reduce the cost of delivering instructions, and a hierarchical and distributed data register organization to deliver data. Instruction registers capture instruction reuse and locality in inexpensive storage structures that are located near to the functional units. The data register organization captures reuse and locality in different levels of the hierarchy to reduce the cost of delivering data. Exposed communication resources eliminate pipeline registers and control logic, and allow the compiler to schedule efficient instruction and data movement. The architecture keeps a significant fraction of instruction and data bandwidth local to the functional units, which reduces the cost of supplying instructions and data to large numbers of functional units. This architecture achieves an energy efficiency that is 23× greater than an embedded RISC processor. 相似文献

15.

Memory Renaming: Fast, Early and Accurate Processing of Memory Communication

Gary S. Tyson Todd M. Austin 《International journal of parallel programming》1999,27(5):357-380

As processors continue to exploit more instruction level parallelism, greater demands are placed on the performance of the memory system. In this paper, we introduce a novel modification of the processor pipeline called memory renaming . Memory renaming applies register access techniques to load and store instructions to speed the processing of memory traffic. The approach works by accurately predicting memory communication early in the pipeline and then re - mapping the communication to fast physical registers. This work extends previous studies of data value and dependence speculation. When memory renaming is added to the processor pipeline, renaming can be applied to 30-50 % of all memory references, translating to an overall improvement in execution time of up to 14 % for current pipeline configurations. As store forward delay times grow larger, renaming support can lead to performance improvements of as much as 42 %. Furthermore, this improvement is seen across all memory segments—including the heap segment which has often been difficult to manage efficiently. 相似文献

16.

一种时钟级处理器模拟器的快速开发方法

下载免费PDF全文

杨伟陈明宇许建卫《计算机工程与应用》2010,46(6):63-66

基于功能级处理器模拟器,采用时序制导的方法,提出了一种时钟级处理器模拟器的快速开发方法。该方法对指令的模拟引入流水线,依靠流水线的时序推动功能模块的运行,如ALU、Co-processor、MMU、TLB等。给出了RISC/MIPS流水线的设计方法,并进一步阐述了如何将流水线和处理器功能级模拟单元的耦合起来,构成时钟级模拟的整体框架。基于此框架,开发了ClkSim模拟器。经过SPEC CPU 2000的对比测试,ClkSim拥有较高的模拟性能和精度。相似文献

17.

龙芯2号处理器设计和性能分析 总被引：16，自引：4，他引：16

胡伟武张福新李祖松《计算机研究与发展》2006,43(6):959-966

介绍龙芯2号处理器设计及其性能测试结果．龙芯2号采用四发射超标量超流水结构。片内一级指令和数据高速缓存各64KB，片外二级高速缓存最多可达8MB．为了充分发挥流水线的效率，龙芯2号实现了先进的转移猜测、寄存器重命名、动态调度等乱序执行技术以及非阻塞的Cache访问和load Speculation等动态存储访问机制．龙芯2号处理器采用0．18gm的CMOS工艺实现，在正常电压下的最高工作频率为500MHz，500MHz时的实测功耗为3～5W．龙芯2号单精度峰值浮点运算速度为20亿a／秒，双精度浮点运算速度为10亿a／秒，SPECCPU2000的实测性能是龙芯1号的8～10倍，综合性能已经达到PentiumⅢ的水平．目前芯片样机能流畅运行完整的64位中文Linux操作系统，全功能的Mozilla浏览器、多媒体播放器和OpenOffice办公套件，可以满足绝大多数桌面应用的要求．相似文献

18.

用虚拟寄存器技术开发Java处理器的指令级并行性

王显著李三立黄震春《计算机学报》1998,21(12):1112-1118

本文讨论了开发Ｊａｖａ处理器的指令级并行性的策略，提出采用虚拟寄存器技术的Ｊａｖａ处理器（ＶＲＪＰ）结构，并给出了判断相关性和管理虚拟寄存器的方法。分析和实验表明，ＶＲＪＰ能够有效地开发Ｊａｖａ的指令级并行性，提高Ｊａｖａ程序的执行效率。在ＶＲＪＰ中，大多数虚拟寄存器都不需要对应的物理寄存器，大大降低了物理寄存器的访问频率。相似文献

19.

Implementing a 1GHz Four-Issue Out-of-Order Execution Microprocessor in a Standard Cell ASIC Methodology 总被引：3，自引：0，他引：3

下载免费PDF全文

Wei-Wu Hu Ji-Ye Zhao Shi-Qiang Zhong Xu Yang Elio Guidetti and Chris Wu 《计算机科学技术学报》2007,22(1):1-0

This paper introduces the microarchitecture and physical implementation of the Godson-2E processor, which is a four-issue superscalar RISC processor that supports the 64-bit MIPS instruction set. The adoption of the aggressive out-of-order execution and memory hierarchy techniques help Godson-2E to achieve high performance. The Godson-2E processor has been physically designed in a 7-metal 90nm CMOS process using the cell-based methodology with some bitsliced manual placement and a number of crafted cells and macros. The processor can be run at 1GHz and achieves a SPEC CPU2000 rate higher than 500. 相似文献