首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
为挖掘可重构处理器的内在并行性,需要编译器通过分析程序的并行性来决定可重构处理器硬件最好的执行模式。为此,提出一种基于可重构处理器的并行优化算法。将有向无环图的并行计算部分映射到可重构处理器上,对任务实现3个不同层次的并行性(指令级并行、循环级并行、线程级并行)。测试结果表明,该算法使得可重构处理器在处理任务时比未用并行优化算法的性能提升1.2倍左右。  相似文献   

2.
所谓指令级并行性又称细拉度并行,主要是相对粗拉度并行而言的,后者是指存在于程序(主要是进程或线程间)的并行性。顾名思义,指令级并行是指存在于指令一级即指令间的并行性主要是指  相似文献   

3.
同时多线程操作通过在桢的时钟周期内从不同的线程中发送指令的方法而利用了指令级并行性和线程级并行性  相似文献   

4.
同时多线程(SMT)能在同一时钟周期执行不同线程的指令,同时开发了指令级并行(ILP)和线程级并行(TLP)。显式并行指令计算(EPIC)关注于编译器和硬件的相互协作。在本文中,我们设计和实现了一套并行环境,其中包括并行编译器OpenUH和基于IA-64的同时多线程体系结构EDSMT,并通过NAS并行测试程序作出了性能评测。  相似文献   

5.
基于汇编代码的指令调度器的设计与实现   总被引:1,自引:0,他引:1  
随着嵌入式处理器在各个领域的广泛应用,嵌入式软件的复杂度越来越高.充分发掘嵌入式处理器的性能,需要高级编译优化技术的支持.指令调度是编译器发掘程序指令级并行性的关键技术之一.设计并实现了一个基于汇编代码的指令调度器.实验结果表明,在TECC嵌入式编译器中集成指令调度器后可显著提高程序的性能.  相似文献   

6.
细粒度多线程是一种典型的线程级并行性开发技术,通过每周期的线程切换来实现高吞吐率执行.设计并实现了一种细粒度多线程处理器中的前瞻性数据加载机制,该机制预测LOAD操作在数据cache命中,不立即进行线程切换,而是继续执行后续指令,并通过数据旁路解决相关性问题.实验结果表明前瞻性数据加载能明显提高访存性能,在一种配置下,...  相似文献   

7.
抽象机通常用在软件程序编译器中.提出了一个基于硬件抽象机的处理器设计方法,使用该方法设计了一个Java微处理器,并且利用硬件抽象机增强了处理器的指令级并行能力,提高了微处理器性能.描述了用于Java处理器的硬件抽象机设计方法,阐述了它的实现基本原理,给出了 Java处理器的逻辑设计.通过软件仿真,证明了采用硬件抽象机的Java处理器可以获得从78%到173%的指令级并行增强,处理器性能提高平均31%.说明了提出的方法可以用于嵌入式微处理器的设计,提高系统性能.  相似文献   

8.
同时多线程能在同一时钟周期执行不同线程的指令,并且指令级并行和线程级并行。显式并行指令计算关注于编译器和硬件的相互协作。寄存器文件的设计在高性能处理器设计中十分重要,寄存器栈和寄存器栈引擎是提高其性能的重要手段。该文设计和实现一套并行环境,其中包括并行编译器OpenUH和基于IA-64的同时多线程体系结构EDSMT,实验表明,该并行架构适用于大多数并行应用,针对NAS的并行测试程序,该架构相对于SMTSIM平均有12.48%的性能提升。  相似文献   

9.
网络带宽的快速增长使得网络的瓶颈由带宽逐渐变成了节点设备。网络处理器则通过良好的体系结构设计和专门针对网络处理优化的部件,为上层提供了一个良好的可编程环境。系统级模拟是在制造芯片前设计现代网络处理器的有效方法。本文基于专用的网络处理器测试基准和处理器模拟器设计了适合于网络处理的同时多线程结构,它结合了指令级并行和线程级并行的优点,经过测试获得了高性能。同时分析了线程个数对系统性能和处理器面积的影响,并根据综合评价函数选择了优化的线程数为6。  相似文献   

10.
在当前嵌入式系统应用中,性能问题一直是人们关注的重点.大多数嵌入式Linux应用往往运行在用户态,系统运行时需要经常在内核态和用户态之间反复切换,降低了关键业务的执行效率.以往的研究较少从内核态下的线程库出发来考虑性能优化的实现方法,影响了嵌入式系统的整体性能.对此,本文提出一种适用于嵌入式Linux系统的内核级线程库(LKTL),并且分析了实现的关键技术.LKTL提供了线程管理、信号量同步、内存的动态分配和回收、日志管理以及基本的GNU C库的功能,不但大大提高了应用程序的运行效率,还方便了应用程序的开发和移植.实验表明LKTL能够显著优化嵌入式Linux系统的整体性能.  相似文献   

11.
该文介绍了线程集成,一种在通用单片微处理器或微控制器上低耗并行执行的新方法,后级编译技术有效地插入多个控制线程,并提供细粒度的多个线程而不用上下文切换的方法,这样允许用软件完成实时的功能来代替专用外围硬件。该文研究了在主线程中集成实时客户线程时的代码转移,生成的集成线程能满足所有的实时性,线程集成的概念和代码转移被应用到实际中来检验这种方法的可行性。  相似文献   

12.
马智  乔磊  杨孟飞  李少峰 《软件学报》2021,32(6):1631-1646
航天器等安全关键系统是典型的嵌入式系统,具有多任务并发、中断频发等特点,操作系统是其最基础的软件,构建一个正确的操作系统是保障航天器系统高可信运行的关键.异常管理作为操作系统最底层的功能负责引导系统控制流的突变来响应处理器状态中的某些变化,异常管理的正确性是整个操作系统正确性的基础.本文提出了一种基于Hoare-logic的验证框架,用于证明面向SPARC处理器架构操作系统异常管理的正确性,特别针对多任务并发和中断频发实时操作系统异常嵌套与异常中发生任务切换的情况,将异常管理划分为五个阶段进行全面的形式化建模,并且在Coq证明定理辅助工具中实现了此框架.基于该框架验证了我国北斗三号在轨实际应用的航天器嵌入式实时操作系统SpaceOS异常管理功能的正确性.  相似文献   

13.
针对远程通信服务器需要并行处理多级别数据报文的特点,结合Java NIO、数据批处理、数据库连接池、锁机制等技术,提出一种高并发UDP通信服务器模型。详细设计了数据报接收、处理、发送以及数据采集、入库等一系列过程,并在其中引入一种优先级动态切换的多队列线程池机制。根据负载情况的不同, 该多队列线程池的性能比传统线程池的性能提高了15.1%~21.58%。在沈阳蓝光集团实际应用中的效果表明,该服务器模型运行稳定,能满足大规模多优先级任务的底层通信,具有很好的通用性。  相似文献   

14.
SMA:前瞻性多线程体系结构   总被引:4,自引:1,他引:3  
肖刚  周兴铭  徐明  邓鹍 《计算机学报》1999,22(6):582-590
提出了一种新的ILP处理器体系结构-前瞻性多线程体系的结构,简称SMA.它结合了前瞻性执行机制和多线程执行机制,以整个线程为长步进行前瞻性执行,多个线程并行执行并且共享处理器硬件资源,这样,处理器既通过组合每个线程的指令窗口形成一个大的动态指令窗口,开发出程序中更大的ILP,又利用多线程执行机制屏蔽各种长延迟操作,达到较高的资源利用率;介绍了SMA执行模型,并讨论了SMA处理器的实现和其中的关键技  相似文献   

15.
崔慎智  陈志泊 《计算机工程》2011,37(3):278-280,283
针对Modem发送短信在实时性、并发性及完整性等性能上存在的缺陷,提出基于多代理、多优先级队列的短信实时并发算法。该算法采用多代理、多优先级队列、线程池等技术手段保证短信控制的实时性、并发性及数据完整性,在算法中使用优先级,使某些信息能够优先发送。通过改造排队论模型和实验对算法进行验证,并将该算法应用于SMAS系统,系统运行结果表明,该算法大幅提高了其发送和接收短信的速度与效率,实现了短信实时性和并发性的目标,优化了SMAS系统的整体性能。  相似文献   

16.
针对有色PetriN(CPN)在并行、并发、资源共享描述上的适用性,将其引入到嵌入式实时操作系统(RTOS)建模中,解决了RTOS任务调度模型中的CPU独占表述、优先级排序、抢占时间处理和周期任务实现问题。对一个优先级抢占式任务调度实例建立CPN模型,结果表明该模型能有效反映RTOS系统的动态特性,准确定量模拟出RTOS系统的效率、切换频率指标。  相似文献   

17.
基于线程的并发控制技术研究与应用   总被引:9,自引:1,他引:8       下载免费PDF全文
李刚  金蓓弘 《计算机工程》2007,33(14):43-45
高效的并发控制策略可以提高系统的并行处理能力、改善交互响应时间。该文讨论了并发编程的复杂性,分析了4种基于线程的并发结构。目前,基于线程的并发控制技术已成功地应用到了分布事务监控器OnceTX中。  相似文献   

18.
应用中的嵌入式Linux实时优化   总被引:2,自引:1,他引:1       下载免费PDF全文
以Linux2.6为对象,在分析了国内外有关提高Linux实时性的几种方法的基础上,对任务切换、优先级调度算法以及中断服务程序提出了改进方式。引入了“在实时系统中,只有当进程的临界区能在下一个实时任务开始之前结束才被允许进入”的任务切换机制,实现了优先级置顶的方法以避免发生优先级倒置的现象,并用内核线程代替中断服务程序。上述方法可用在嵌入式领域和对实时性有较高要求的Linux应用中。  相似文献   

19.
Simultaneous multithreading (SMT) processors can exploit thread‐level parallelism and at the same time exploit instruction‐level parallelism for multiple‐issue, dynamically scheduled processors. As they have been widely used in embedded systems, reducing their highest temperature has become very important. According to our observation, the register file is always one of the hottest parts of an embedded system. Thus, we present a smart scheduling that can cool an SMT processor effectively by controlling the temperatures of its register files without causing significant performance loss. The proposed approach is fourfold, thus allowing an operating system to dynamically adjust the running workloads based on the temperature threshold and the real‐time constraint. Our experiment was performed on the M‐Sim and HotSpot simulators to evaluate the power of functional units and the temperature impact for SMT processors. In contrast with the round‐robin scheduling, the proposed approach can reduce thermal emergency time by 16.1 and 9.38% of the integer register file and the floating point register file, respectively. Moreover, the proposed approach only degrades performance by 8.8%, which is better than the 22.1% of the throttling approach. Copyright © 2011 John Wiley & Sons, Ltd.  相似文献   

20.
Chip multiprocessors (CMPs) hold great promise for achieving scalability in future systems. Microthreaded CMPs add a means of exploiting legacy code in such systems. Using this model, compilers generate parametric concurrency from sequential source code, which can be used to optimise a range of operational parameters such as power and performance over many orders of magnitude, given a scalable implementation. This paper shows scalability in performance, power and most importantly, in silicon implementation, the main contribution of this paper. The microthread model requires dynamic register allocation and a hardware scheduler, which must support hundreds of microthreads per processor. The scheduler must support thread creation, context switching and thread rescheduling on every machine cycle to fully support this model, which is a significant challenge. Scalable implementations of such support structures are given and the feasibility of large-scale CMPs is investigated by giving detailed area estimate of these structures.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号