共查询到20条相似文献,搜索用时 140 毫秒
1.
2.
所谓指令级并行性又称细拉度并行,主要是相对粗拉度并行而言的,后者是指存在于程序(主要是进程或线程间)的并行性。顾名思义,指令级并行是指存在于指令一级即指令间的并行性主要是指 相似文献
3.
4.
同时多线程(SMT)能在同一时钟周期执行不同线程的指令,同时开发了指令级并行(ILP)和线程级并行(TLP)。显式并行指令计算(EPIC)关注于编译器和硬件的相互协作。在本文中,我们设计和实现了一套并行环境,其中包括并行编译器OpenUH和基于IA-64的同时多线程体系结构EDSMT,并通过NAS并行测试程序作出了性能评测。 相似文献
5.
基于汇编代码的指令调度器的设计与实现 总被引:1,自引:0,他引:1
随着嵌入式处理器在各个领域的广泛应用,嵌入式软件的复杂度越来越高.充分发掘嵌入式处理器的性能,需要高级编译优化技术的支持.指令调度是编译器发掘程序指令级并行性的关键技术之一.设计并实现了一个基于汇编代码的指令调度器.实验结果表明,在TECC嵌入式编译器中集成指令调度器后可显著提高程序的性能. 相似文献
6.
细粒度多线程是一种典型的线程级并行性开发技术,通过每周期的线程切换来实现高吞吐率执行.设计并实现了一种细粒度多线程处理器中的前瞻性数据加载机制,该机制预测LOAD操作在数据cache命中,不立即进行线程切换,而是继续执行后续指令,并通过数据旁路解决相关性问题.实验结果表明前瞻性数据加载能明显提高访存性能,在一种配置下,... 相似文献
7.
抽象机通常用在软件程序编译器中.提出了一个基于硬件抽象机的处理器设计方法,使用该方法设计了一个Java微处理器,并且利用硬件抽象机增强了处理器的指令级并行能力,提高了微处理器性能.描述了用于Java处理器的硬件抽象机设计方法,阐述了它的实现基本原理,给出了 Java处理器的逻辑设计.通过软件仿真,证明了采用硬件抽象机的Java处理器可以获得从78%到173%的指令级并行增强,处理器性能提高平均31%.说明了提出的方法可以用于嵌入式微处理器的设计,提高系统性能. 相似文献
8.
9.
10.
在当前嵌入式系统应用中,性能问题一直是人们关注的重点.大多数嵌入式Linux应用往往运行在用户态,系统运行时需要经常在内核态和用户态之间反复切换,降低了关键业务的执行效率.以往的研究较少从内核态下的线程库出发来考虑性能优化的实现方法,影响了嵌入式系统的整体性能.对此,本文提出一种适用于嵌入式Linux系统的内核级线程库(LKTL),并且分析了实现的关键技术.LKTL提供了线程管理、信号量同步、内存的动态分配和回收、日志管理以及基本的GNU C库的功能,不但大大提高了应用程序的运行效率,还方便了应用程序的开发和移植.实验表明LKTL能够显著优化嵌入式Linux系统的整体性能. 相似文献
11.
该文介绍了线程集成,一种在通用单片微处理器或微控制器上低耗并行执行的新方法,后级编译技术有效地插入多个控制线程,并提供细粒度的多个线程而不用上下文切换的方法,这样允许用软件完成实时的功能来代替专用外围硬件。该文研究了在主线程中集成实时客户线程时的代码转移,生成的集成线程能满足所有的实时性,线程集成的概念和代码转移被应用到实际中来检验这种方法的可行性。 相似文献
12.
航天器等安全关键系统是典型的嵌入式系统,具有多任务并发、中断频发等特点,操作系统是其最基础的软件,构建一个正确的操作系统是保障航天器系统高可信运行的关键.异常管理作为操作系统最底层的功能负责引导系统控制流的突变来响应处理器状态中的某些变化,异常管理的正确性是整个操作系统正确性的基础.本文提出了一种基于Hoare-logic的验证框架,用于证明面向SPARC处理器架构操作系统异常管理的正确性,特别针对多任务并发和中断频发实时操作系统异常嵌套与异常中发生任务切换的情况,将异常管理划分为五个阶段进行全面的形式化建模,并且在Coq证明定理辅助工具中实现了此框架.基于该框架验证了我国北斗三号在轨实际应用的航天器嵌入式实时操作系统SpaceOS异常管理功能的正确性. 相似文献
13.
针对远程通信服务器需要并行处理多级别数据报文的特点,结合Java NIO、数据批处理、数据库连接池、锁机制等技术,提出一种高并发UDP通信服务器模型。详细设计了数据报接收、处理、发送以及数据采集、入库等一系列过程,并在其中引入一种优先级动态切换的多队列线程池机制。根据负载情况的不同, 该多队列线程池的性能比传统线程池的性能提高了15.1%~21.58%。在沈阳蓝光集团实际应用中的效果表明,该服务器模型运行稳定,能满足大规模多优先级任务的底层通信,具有很好的通用性。 相似文献
14.
15.
针对Modem发送短信在实时性、并发性及完整性等性能上存在的缺陷,提出基于多代理、多优先级队列的短信实时并发算法。该算法采用多代理、多优先级队列、线程池等技术手段保证短信控制的实时性、并发性及数据完整性,在算法中使用优先级,使某些信息能够优先发送。通过改造排队论模型和实验对算法进行验证,并将该算法应用于SMAS系统,系统运行结果表明,该算法大幅提高了其发送和接收短信的速度与效率,实现了短信实时性和并发性的目标,优化了SMAS系统的整体性能。 相似文献
16.
17.
18.
19.
Simultaneous multithreading (SMT) processors can exploit thread‐level parallelism and at the same time exploit instruction‐level parallelism for multiple‐issue, dynamically scheduled processors. As they have been widely used in embedded systems, reducing their highest temperature has become very important. According to our observation, the register file is always one of the hottest parts of an embedded system. Thus, we present a smart scheduling that can cool an SMT processor effectively by controlling the temperatures of its register files without causing significant performance loss. The proposed approach is fourfold, thus allowing an operating system to dynamically adjust the running workloads based on the temperature threshold and the real‐time constraint. Our experiment was performed on the M‐Sim and HotSpot simulators to evaluate the power of functional units and the temperature impact for SMT processors. In contrast with the round‐robin scheduling, the proposed approach can reduce thermal emergency time by 16.1 and 9.38% of the integer register file and the floating point register file, respectively. Moreover, the proposed approach only degrades performance by 8.8%, which is better than the 22.1% of the throttling approach. Copyright © 2011 John Wiley & Sons, Ltd. 相似文献
20.
Ian Bell Nabil Hasasneh Chris Jesshope 《International journal of parallel programming》2006,34(4):343-381
Chip multiprocessors (CMPs) hold great promise for achieving scalability in future systems. Microthreaded CMPs add a means of exploiting legacy code in such systems. Using this model, compilers generate parametric concurrency from sequential source code, which can be used to optimise a range of operational parameters such as power and performance over many orders of magnitude, given a scalable implementation. This paper shows scalability in performance, power and most importantly, in silicon implementation, the main contribution of this paper. The microthread model requires dynamic register allocation and a hardware scheduler, which must support hundreds of microthreads per processor. The scheduler must support thread creation, context switching and thread rescheduling on every machine cycle to fully support this model, which is a significant challenge. Scalable implementations of such support structures are given and the feasibility of large-scale CMPs is investigated by giving detailed area estimate of these structures. 相似文献