首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 734 毫秒
1.
基于DVS机制的低能耗微处理器系统设计方法研究   总被引:3,自引:0,他引:3  
能耗已经成为微处理器设计的最大挑战之一。微处理器的能耗在便携设备中占有重要的比例。DVS(Dynamic Voltage Scaling)机制可以在设备运行过程中,通过降低处理器的工作电压来降低它的能耗。同时,还需降低处理器的速度。电压调度程序通过分析应用的约束和需求来给定适当的工作电压。文章论述了速度和输入电压可变的微处理器系统设计方法。在处理器低速工作时,降低工作电压可以大幅度降低它的能耗。这将使应用系统能快速地根据负荷的变化调节处理器的性能。  相似文献   

2.
由于当前嵌入式设计对处理器的快速处理能力和低功耗等方面的要求越来越高,因此高端嵌入式处理器得到了更多的重视和应用。ARM是一种RISC结构微处理器,与其他类型的处理器相比,具有低成本、低功耗、高性能等优点,所以在嵌入式领域的应用中处于领先地位。嵌入式系统离不开嵌入式应用程序,嵌入式应用程序开发的最终目的,是要将程序运行于独立的目标系统。基于ARM的嵌入式开发同样也是先使用开发工具在宿主机上开发程序,然后再将程序移植到目标硬件环境中运行;但随着嵌入式系统复杂度的增加,代码从开发环境到实际运行环境的移植工作变得越来越困难,往往会出现开发环境下运行正常的代码移植到目标硬件上无法工作的情况。本文针对上述问题,讲述在ADS1.2开发环境下使用ARM标准C库函数的应用程序上电执行过程,以及嵌入式系统脱离宿主机实现系统独立运行的方法。  相似文献   

3.
性能验证及评估是通用处理器设计实现过程中最重要且必须实施的关键步骤之一.高效的通用处理器原型系统性能评估方法不仅可以帮助处理器设计人员在处理器设计阶段尽早地定位性能设计缺陷,而且还可以在设计流片前验证处理器能否达到性能设计预期.然而,对处理器原型系统进行完整的性能测试需要运行较长的时间,这样巨大的时间开销导致设计人员无法及时进行性能设计分析,进而导致处理器原型系统的性能评估成为整个项目的瓶颈.提出了一种快速精确的通用处理器原型系统性能评估方法Proto-Perf.Proto-Perf性能评估方法使用动态程序分析方法和基本块聚合技术抽取测试程序的特征程序片段进行测试,显著地缩短了性能测试时间.实验结果表明,相比于完整运行SPEC CPU2006 REF数据规模测试程序获得的性能数据,使用Proto-Perf测试得到的性能数据的绝对误差平均达到1.53%,其中最高达到7.86%.并且,对于实验中的每个程序,使用Proto-Perf方法进行测试的时间都明显缩短.  相似文献   

4.
尺子     
今日的微处理器和 PC 运行的程序和处理的数据越来越多,每片处理器在处理各种应用程序的时候性能都不可能完全相同。测试程序就是专门用来评估处理器和系统在运行整数、多媒体和浮点等应用程序时的性能,测试程序本身应该具备检查处理器或系统各项性能的能力。目前在 Internet 上的一些站点,已经发布了Pentium Ⅲ处理器的初步评测,结论是相对Pentium Ⅱ处理器没有太多的改善。英特尔公司的意见是:只有使用奔腾Ⅲ处理器、硬件的驱动程  相似文献   

5.
反汇编结果的代码结构分析在程序解读、可执行程序编辑、软件维护、程序理解以及编译器设计中有重要的作用与意义.本文提出了一种对主流微处理器二进制代码逆向还原到汇编级代码后进行结构分析的算法,给出了该算法的形式化描述和结构分析结果的记录方法,并且根据该算法在二进制代码辅助分析系统中的应用情况,给出了实验数据.试验数据表明,该算法在多款处理器目标代码的分析过程中都有较高的结构分析准确度和执行效率.  相似文献   

6.
提出了一种对主流微处理器汇编级代码在汇编级进行模块分析的算法,给出了该算法的形式化描述和模块分析结果的记录方法,根据该算法在汇编级代码辅助分析系统中的应用情况取得了实验数据。实验表明,该算法在多款处理器目标代码的分析过程中都有较高的模块分析速度与准确度。  相似文献   

7.
随着现代多流出体系结构的出现,处理器对指令读取的要求越来越高,因此,如何提高指令Cache的性能,最大限度地发挥处理器性能成了人们所关心的一个焦点.代码重排是一种通过软件来实现改变代码的排列次序的方法,它将彼此之间控制转移比较频繁的代码放置在一起,从而提高指令Cache的命中率,是指令Cache优化的一种常用的方法.对运用程序的动态运行信息(profile)来指导代码放置的3种方法进行了研究,分析了它们的特点、算法和性能,并对以后的研究做出了一定的展望.  相似文献   

8.
在高性能处理器开发中,准确而快速的性能估算是设计决策和参数选择的基础.现有工作通过采样算法和RTL的体系结构检查点加速了处理器RTL仿真,使得在数天内测算复杂高性能处理器的SPECCPU等基准测试的性能成为可能.但是数天的迭代周期仍然过长,性能测算周期仍然有进一步缩短的空间.在处理器RTL仿真过程中,预热过程的时间占比很大. HyWarm框架的提出是为了加速性能测算过程中的预热过程. HyWarm通过微结构模拟器分析负载预热需求,为每个负载定制预热方案.对于缓存预热需求较大的负载,HyWarm通过总线协议进行RTL缓存的功能预热;对于RTL全细节仿真,HyWarm利用CPU分簇和LJF调度缩短最大完成时间. HyWarm相较于现有最好的RTL采样仿真方法,在与基准方法准确率相似的前提下,将仿真完成时间缩短了53%.  相似文献   

9.
抽象机通常用在软件程序编译器中.提出了一个基于硬件抽象机的处理器设计方法,使用该方法设计了一个Java微处理器,并且利用硬件抽象机增强了处理器的指令级并行能力,提高了微处理器性能.描述了用于Java处理器的硬件抽象机设计方法,阐述了它的实现基本原理,给出了 Java处理器的逻辑设计.通过软件仿真,证明了采用硬件抽象机的Java处理器可以获得从78%到173%的指令级并行增强,处理器性能提高平均31%.说明了提出的方法可以用于嵌入式微处理器的设计,提高系统性能.  相似文献   

10.
众核处理器设计在芯片面积上受到了巨大挑战,如何将有限的芯片面积投入到运算能力中,是众核处理器体系结构研究的热点。聚焦众核处理器的指令缓存结构设计,研究通过在多核核心之间共享一级指令缓存,以获取指令系统及处理器流水线性能的提升。给出了共享指令缓存的结构设计,对该结构进行了节拍级精确的性能模拟,并通过RTL级代码的综合得到了面积开销和时序指标。测试结果表明,共享指令缓存可以降低11%~27%的缓存脱靶率,提升4%~7%的流水线性能。  相似文献   

11.
“申威-1 号”高性能微处理器的功能验证   总被引:3,自引:0,他引:3  
黄永勤  朱英  巨鹏锦  吴志勇  陈诚 《软件学报》2009,20(4):1077-1086
微处理器设计日趋复杂,如何对微处理器设计进行有效而充分的验证,成为芯片流片成功的关键因素之一.在介绍微处理器功能验证的一般理论和方法的基础上,介绍了“申威-1 号”高性能微处理器的功能验证所采用的验证策略及各种验证方法.RTL(register transfer level)级验证是功能验证的重点,模拟验证是“申威-1 号”RTL 级验证的主要验证手段.详细介绍了如何综合采用多种验证技术来解决RTL 级模拟验证的几个关键问题:高质量测试激励生成、模拟结果正确性的快速判断以及验证覆盖率目标的实现.最后对各种验证方法所取得的验证效果进行了分析.  相似文献   

12.
基于遗传算法提出了溢出代码和访存压力敏感的机器学习来调试寄存器分配的权值函数。不同于以往采用目标程序的运行时间作为适应值,通过静态分析寄存器分配产生的溢出代码和基本块中的访存压力来构建适应值,以减少学习时间。这些分析被限定在热点函数中,在保证适应值精度的同时进一步加快了学习速度。实验表明,快速学习仅需要考虑热点函数的编译时间,整个CPU2000CINT测试集在5 h内即可学习完毕。大部分CPU2000CINT测试例子的性能得到了提高。其中perlbmk的性能提升最高可达到7.2%。  相似文献   

13.
近年来,能效数据库系统成为数据库领域的一个研究议题.CPU动态电压频率调节(DVFS)是一种有效的动态功率节能技术.探寻PostgreSQL数据库在ACPI不同调节器下查询操作的性能、能耗、功率之间潜在联系,发现动态功耗管理与数据库系统的能效关系,通过运行TPC-H测试基准生成的数据库与相应22个查询,总结出调节器对数据库查询处理各种操作的影响.实验结果表明,DVFS可以对DBMS进行动态功耗管理是有效的,查询处理的不同操作具有各自特性,利用这些特性来设计效率更高的调节器是颇有前途的.  相似文献   

14.
何军  张晓东  郭勇 《计算机工程》2012,38(21):253-256
针对国产处理器地址代换旁路缓冲(TLB)性能不足的问题,通过对现有的虚实地址代换流程进行分析,提出设置独立第三级页表基址虚实映射缓存,对数据TLB结构进行优化的方法,减少低级页表虚实映射关系对高级页表虚实映射关系的挤占淘汰。SPEC CPU2000测试结果表明,近一半的课题能减少60%以上数据TLB的DM次数,少数课题甚至能减少90%以上,有效减少数据TLB缺失率。  相似文献   

15.
16.
SPEC CPU2000: measuring CPU performance in the New Millennium   总被引:1,自引:0,他引:1  
Henning  J.L. 《Computer》2000,33(7):28-35
As computers and software have become more powerful, it seems almost human nature to want the biggest and fastest toy you can afford. But how do you know if your toy is tops? Even if your application never does any I/O, it's not just the speed of the CPU that dictates performance. Cache, main memory, and compilers also play a role. Software applications also have differing performance requirements. So whom do you trust to provide this information? The Standard Performance Evaluation Corporation (SPEC) is a nonprofit consortium whose members include hardware vendors, software vendors, universities, customers, and consultants. SPEC's mission is to develop technically credible and objective component- and system-level benchmarks for multiple operating systems and environments, including high-performance numeric computing, Web servers, and graphical subsystems. On 30 June 2000, SPEC retired the CPU95 benchmark suite. Its replacement is CPU2000, a new CPU benchmark suite with 19 applications that have never before been in a SPEC CPU suite. The article discusses how SPEC developed this benchmark suite and what the benchmarks do  相似文献   

17.
基于剖视的优化技术根据程序先前运行时收集的剖视信息来指导编译优化。文章给出了一种在GCC中基于值剖视的代码特例化实现方法。NPB和SPEC CPU2000基准程序测试结果表明,该代码特例化方法能够有效提高程序性能,同时引入的开销较小。  相似文献   

18.
Quantum Monte Carlo (QMC) is among the most accurate methods for solving the time independent Schrödinger equation. Unfortunately, the method is very expensive and requires a vast array of computing resources in order to obtain results of a reasonable convergence level. On the other hand, the method is not only easily parallelizable across CPU clusters, but as we report here, it also has a high degree of data parallelism. This facilitates the use of recent technological advances in Graphical Processing Units (GPUs), a powerful type of processor well known to computer gamers. In this paper we report on an end-to-end QMC application with core elements of the algorithm running on a GPU. With individual kernels achieving as much as 30× speed up, the overall application performs at up to 6× faster relative to an optimized CPU implementation, yet requires only a modest increase in hardware cost. This demonstrates the speedup improvements possible for QMC in running on advanced hardware, thus exploring a path toward providing QMC level accuracy as a more standard tool. The major current challenge in running codes of this type on the GPU arises from the lack of fully compliant IEEE floating point implementations. To achieve better accuracy we propose the use of the Kahan summation formula in matrix multiplications. While this drops overall performance, we demonstrate that the proposed new algorithm can match CPU single precision.  相似文献   

19.
杜明芳 《计算机工程》2007,33(16):234-236
论述了在Linux操作系统下开发基于ARM7TDMI内核S3C44B0X微处理器的智能门禁控制器以太网通信接口技术。设计了以以太网控制器芯片RTL8019AS为核心的接口硬件电路,说明了嵌入式系统应用软件开发、编译流程,开发了运行于uCLinux操作系统的服务器端程序和运行于Windows操作系统的客户端程序,实现了基于TCP/IP协议的双向通信。测试表明,系统通信正常,可以通过以太网进行远程数据传输。  相似文献   

20.
针对高性能处理器龙芯2F的逻辑验证和性能测试,本文设计和实现了一套硬件验证平台环境,既能验证处理器流片前的逻辑功能,也能测试处理器流片后的性能指标。实验结果表明,本文设计的硬件验证平台能够有效验证龙芯2F处理器的各项功能和性能指标。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号