期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

徐卫志宋风龙刘志勇范东睿余磊张帅《计算机学报》2010,33(10)

同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制和基于满空标志位的细粒度同步机制;提出了粗粒度同步机制的评估标准和评估方法,并设计了量化评估程序.以片上同构众核处理器Godson-T模拟器和AMD Opteron商业片上多核处理器为平台,评估比较了提出的硬件支持的同步机制与基于原语的同步机制的性能.结果表明,硬件支持可以使得片上众核处理器的同步机制性能明显提高;在传统基于原语的同步机制中,大部分性能损失是由于负载不平衡和同步点的串行化操作而造成的等待时间. 相似文献

2.

基于多核网络处理器的高效流管理技术研究

王明贞赵国鸿唐勇《小型微型计算机系统》2012,33(12):2591-2594

流管理功能在多种网络设备中具有基础性作用.随着报文流规模的增加,大规模流管理系统中流表添加、查询和删除的效率往往迅速下降,成为影响系统整体性能的瓶颈.针对该问题,提出一种在多核网络处理器上实现的采用两级hash表和冲突链表机制的流管理方法,一级hash表模拟专用硬件存储器,二级hash表模拟软件存储结构,当一级流表出现冲突时采用二级流表处理冲突,当二级流表出现冲突时采用冲突链表处理冲突.并基于多核网络处理器进行了模型开发与实验.实验证明,该模型具有易于实现,执行效率高的优点. 相似文献

3.

曙光5000高性能计算机Barrier网络的设计 总被引：1，自引：0，他引：1

曹政王达伟刘新春孙凝晖《计算机学报》2008,31(10)

为优化Barrier操作的性能,提高大规模并行计算应用在曙光5000系统中的执行效率,文中提出了一种基于硬件的Barrier加速设计.该设计是采用树形Barrier算法,通过增强曙光5000互联网络交换芯片的功能,实现低延迟、可扩展、高可靠和可管理的Barrier网络.该网络支持并发16个Barrier操作,可在Fat-Tree拓扑环境下实现较低的Barrier操作延迟.相比已有实现,是更适合Fat-Tree拓扑的设计方案.理想情况下,1024个节点的同步操作在1.7μs内完成.根据Barrier操作归约和分发过程的特点,分别采用请求应答和超时催促两种机制,为Barrier操作的可靠性提供保障.以该设计实现的Barrier网络原型系统已通过FPGA验证. 相似文献

4.

面向众核系统的层次化栅栏同步机制

臧照虎李晨王耀华陈小文郭阳《计算机工程与科学》2022,44(11):1901-1908

同步操作在保证多核处理器线程的数据一致性和正确性等方面起着重要作用。随着处理器内核数量的不断增加,同步操作的开销也越来越大。栅栏同步是并行应用中多核同步的重要方法之一。软件同步方法通常需要数千个周期才能完成多个内核之间的同步,这种高延迟和串行化同步会导致多核程序性能的显著下降。相比于软件栅栏同步方法,硬件栅栏能够实现较低的同步延迟,然而传统集中式硬件栅栏的可扩展性有限,难以适应众核处理器系统的同步需求。面向众核处理器提出了一种层次化硬件栅栏机制——HSync,它由本地栅栏单元和全局栅栏单元组成,二者协调配合,以实现低硬件开销的快速同步。实验结果表明,与传统的集中式硬件栅栏相比,层次化硬件栅栏机制将众核处理器系统性能提高了1.13倍,同时网络流量减少了74%。相似文献

5.

基于流特征的数据中心非对称流负载均衡方法

陈中卿李丹丹闪德胜钱叶魁谢坤黄小红丛群《软件学报》2023,34(8):3924-3937

数据中心边界广泛部署的地址转换技术产生的非对称流为负载均衡系统的设计带来了挑战.为了解决软件负载均衡系统不能充分发挥多核处理器和网卡硬件能力的问题,提出一种基于流特征的非对称流负载均衡方法.首先,分析网卡的数据包散列机制,提出数据包调度算法,将数据包调度至预期的CPU核;然后,基于会话报文序列的时间与空间特征,构建大象流识别算法;最后,基于识别结果,提出负载均衡方法.实验结果表明,非对称流负载均衡方法可以正确处理非对称流的负载均衡,平均吞吐率提升约14.5%. 相似文献

6.

一种有效的同时多线程处理器取指控制机制 总被引：1，自引：0，他引：1

何立强刘志勇《计算机学报》2006,29(4):535-543

同时多线程处理器通过每时钟周期从多个运行的线程取指令执行,极大地提高了处理器的性能.分支预测器的预测精度和取指策略的效率是影响同时多线程处理器性能的关键.通过将一个基于值的分支预测器和一个基于线程推进速度的取指策略相结合,提出一种新的取指控制机制.该结构的硬件开销较小,实现复杂度较低.实验结果表明,该取指控制机制有效地提高了处理器的性能,其相对于传统取指控制机制的性能加速比为28%且该加速比也高于目前基于流缓冲区和基于分支分类器的取指控制机制. 相似文献

7.

网络处理器的分析与研究 总被引：54，自引：0，他引：54

谭章熹林闯任丰源周文江《软件学报》2003,14(2):253-267

目前,网络在提高链路速率的同时出现了大量的新协议及新服务,而传统的网络设备一般采用专用硬件芯片或者基于纯粹的软件方案,很难兼顾性能与灵活性两方面的要求.为此,一种并行可编程的网络处理器被引入到路由器(交换机)的处理层面.它基于ASIP技术对网络程序处理进行了优化,同时还兼有硬件和软件两种方案的特点.网络处理器的出现将经典的"存储-转发"结构变为"存储-处理-转发",这为复杂的QoS控制和负载处理提供了可能.从网络处理器本身及其应用两个角度出发,介绍了相关的研究工作,分析了系统特点和面临的挑战,并展望其未来的发展方向. 相似文献

8.

Linux同步机制研究

陈友贵王兆平《数字社区&智能家居》2010,(4):886-888

在现代操作系统里,同一时间可能有多个内核执行流在执行,因此内核需要一些同步机制来同步各执行单元对共享数据的访问。尤其是在多处理器系统上,更需要一些同步机制来同步不同处理器上的执行单元对共享的数据的访问。同步通常是为了达到多线程协同的目的而设计的一种机制。在Linux内核中有相应的技术实现,包括原子操作、信号量、读写信号量、自旋锁和等待队列。相似文献

9.

一种专用指令集安全处理器的架构设计与VLSI实现 总被引：1，自引：0，他引：1

韩林韩军曾晓洋陆荣华赵佳《小型微型计算机系统》2009,30(4)

提出一种专用指令集安全处理器的架构设计和VLSI实现方法,取得了高效的密码运算能力及良好的硬件结构和指令集可扩展性.通过分析对称密码算法和散列算法特点,本文基于低成本RISC结构,提出并行查找表与特殊算术逻辑单元相结合的架构设计方法,并以包含密码学专用指令的指令集与其对应,使密码算法程序代码密度紧凑、执行效率高.本设计可执行SMS4、AES、SHA-1等算法,并提出一种安全存储方法,提高安全处理器系统的抗攻击能力. 相似文献

10.

专用数据处理器综述

刘忠沛吕高锋王继昌杨翔瑞《计算机工程与科学》2023,(2):215-227

随着网络传输带宽的增加，数据中心复杂的基础设施操作占用着越来越多的计算资源，影响业务处理性能。专用数据处理器(DPU)是新近发展起来的一种专用处理器，提出背景就是应对数据中心的数据量和复杂性的指数级增长带来的性能瓶颈。DPU的出现是异构计算的一个阶段性标志，要解决的核心问题是针对基础设施降低整体系统的总体拥有成本，提升整个计算系统的效率，即将“中央处理器处理效率低下、图形处理器处理不了”的负载卸载到DPU。首先介绍了DPU的发展背景，基于网络处理模型分析了DPU的硬件架构，并与智能网卡及网络处理器进行了对比；之后介绍了DPU的编程模型，目前业界的DPU产品与应用；最后总结并展望了DPU未来的研究发展方向。相似文献

11.

流处理器MASA-I在FPGA上的实现

杨乾明伍楠何义荀长庆张春元《计算机工程与科学》2008,30(3):114-118

流处理器与传统微处理器相比具有更高的性能和效率,已广泛应用于图像处理、媒体处理等领域。本文基于Altera EP2S180 FPGA芯片设计并实现了一款32位异构多核流处理器MASA-I,并对其硬件开销及性能进行了评估。结果表明,基于流处理的异构多核系统能够在FPGA上较好地实现,满足了流应用的需求。相似文献

12.

基于硬件锁的多线程同步设计和实现

李春江唐滔杨灿群《计算机科学》2013,40(9):35-37,60

硬件锁用简单的取数指令实现“取并加一”或“取并减一”的原子操作.首先介绍了通用多核多线程FT处理器实现的硬件锁机制,并和软件锁机制进行了比较,之后介绍了使用硬件锁机制实现多线程同步的方法,然后在GNUOpenMP运行库中设计并实现了利用硬件锁的多线程同步机制,最后采用典型OpenMP测试程序对使用硬件锁和使用软件锁的同步操作性能进行了评估和分析. 相似文献

13.

基于硬件多线程机制的网络处理器微引擎设计

刘思远任敏华谷航平《微型电脑应用》2022,(2):106-108

网络处理器(NP)是一种专门处理网络应用数据包的处理器,和特殊应用集成电路(ASIC)相比,网络处理器有着更加灵活的特点,其可以通过编程来实现不同的网络应用.随着网络技术的发展,网络处理器的使用场景也变得越来越广泛,对微引擎(ME)的性能和执行效率也有了更高的要求.为此设计了一种硬件8线程微引擎,利用专用的硬件线程切换... 相似文献

14.

SpMT WaveCache:开发数据流计算机中的推测多线程 总被引：1，自引：0，他引：1

裴颂文吴百锋《计算机学报》2009,32(7)

推测多线程技术(Speculative Multithreading,SpMT)是通过推测地执行多个线程来开发线程级并行性,提高超标量处理器性能.通过增加额外的硬件单元,比如线程同步单元(Thread Synchronization Unit,TSU)、线程上下文表(Thread Context Table,TCT)和线程内存历史表(Thread Memory History,TMH),扩展了事务性内存系统,提高了基于波标量指令集系统结构(WaveScalar ISA)实现的WaveCache模拟器的性能.同时,还提出了一种新的两级线程级事务提交机制.最后,采用了6个来自SPEC、Media和Mibench测试程序集的真实测试程序.评估了推测多线程WaveCache(SpMT WaveCaehe)的性能.实验表明,SpMT WaveCache比超标量系统结构提高了2～3倍的性能,是一种有效的开发动态数据流计算机性能的方法. 相似文献

15.

配置流驱动计算体系结构指导下的ASIP设计 总被引：1，自引：0，他引：1

李勇王志英赵学秘岳虹《计算机研究与发展》2007,44(4):714-721

为了兼顾嵌入式处理器设计中的灵活性与高效性,提出配置流驱动计算体系结构.在体系结构设计中将软/硬件界面下移,使功能单元之间的互连网络对编译器可见,并由编译器来完成传输路由,从而支持复杂但更为高效的互连网络.在该体系结构指导下,提出一种支持段式可重构互连网络的专用指令集处理器(ASIP)设计方法.该方法应用到密码领域的3类ASIP设计中表明,与简单总线互连相比,在不影响性能的前提下,可平均节约53%的互连功耗和38.7%的总线数量,从而达到减少总线数量、降低互连功耗的目的. 相似文献

16.

在双端口SRAM中实现同步硬件原语

姚丽娜胡建国《微计算机信息》2008,24(11):273-274

在多处理器并行环境中,必须通过同步机制保证系统的一致性.硬件实现同步原语能大大减小系统开销,提高同步可靠性.本文介绍了如何在双端口SRAM中实现同步硬件原语,可在处理器不支持同步硬件原语的条件下提供可靠的同步机制. 相似文献

17.

混合体系结构中有状态硬件加速器的优化

马宜科常晓涛范东睿刘志勇《计算机学报》2011,34(7):1314-1322

在诸多计算领域中,硬件加速器可以代替通用处理器上执行的软件完成专用功能,达到提高性能和降低功耗的目的.网络应用中,许多硬件加速器是无状态的,这就需要一个网络流的全部数据包到达后才能被处理.有状态加速器则可以确保每个数据包到达后即可被处理,因而具有更好的性能和灵活性.由于网络流的并发性,有状态加速器需要维护众多并发网络流... 相似文献

18.

ECC专用指令处理器软硬件协同设计

徐劲松王志新严迎建《计算机工程与设计》2012,33(3):916-920

提出了一种专用指令处理器的软硬件协同设计方法,该方法可以在设计的早期阶段对处理器进行系统探索和验证.根据椭圆曲线密码算法的特点,并按照专用指令处理器的设计原则,以椭圆曲线密码运算基本操作及运算存储特性为基础,设计了超长指令字ECC专用指令处理器的指令集结构模型.根据处理器的指令集结构模型,以指令模拟器为基础,搭建了处理器的软硬件协同验证平台,从系统设计、RTL描述和FPGA硬件原型3个不同层次对处理器进行了验证. 相似文献

19.

低代价锁步EDDI:处理器瞬时故障检测机制 总被引：1，自引：0，他引：1

王超傅忠传陈红松崔刚《计算机学报》2012,35(12)

随着ULSI工艺步入深亚微米时代,处理器内部组合逻辑的瞬时故障敏感性迅速提高,文中在设计初期将硬件寄存器纠检错能力和系统软件检错能力纳入考虑,兼顾处理器内组合逻辑、时序逻辑两类部件,设计应用级“低代价锁步EDDI(Error Detection by Duplicated Instructions)”机制.创新如下:(1)提出基于概率论的故障漏检率量化估计方法,为纠检错与性能折中进行指导.以往的应用级检错机制在设计过程中并没有考虑到下层操作系统的检错能力,这会造成可靠性估计不足而带来性能损失.文中依照指令流经的部件将故障划分为不同子类,并将操作系统纳入考虑,提出基于概率论的故障漏检率量化估计方法,理论估计与故障注入结果拟合良好.(2)低代价锁步EDDI机制,结合硬件纠检错能力,兼顾处理器内组合逻辑和时序逻辑两类部件,大幅降低了性能代价.提出独特的低代价锁步指令复制规则,并通过编译链前端的寄存器分配,大幅减少了寄存器预留数,有效缓解了寄存器压力,降低了访存代价,提高了寄存器的性能.寄存器预留也保证了本机制无需修改编译器传参规则,无需重新编译系统库,提高了通用性.(3)采用单比特故障模型,基于SPARC体系结构,选取处理器中代表性部件:解码(Decoder Unit)单元、地址生成(Address GEN Unit)单元、算逻单元(ALU)进行故障注入,对低代价锁步EDDI实现代价进行详细评测.与全复制EDDI相比,低代价锁步EDDI仅以故障漏检率SDC(Silent Data Corruption)平均升高0.8％的代价,换取了动态执行指令数平均减少36.1％,执行时间平均降低35.2％的性能优势. 相似文献

20.

基于异构感知静态调度与动态迁移的异构多核调度机制

张苗张德贤《计算机应用》2011,31(7):1808-1810

异构多核处理器体系结构可以有效减少功效开销,是处理器发展的趋势,负载不平衡问题会造成处理器执行的不稳定。提出一种基于异构感知的静态调度和动态线程迁移相结合的异构多核调度机制,解决了不同核之间的负载平衡问题,提高了吞吐量。仿真实验通过将此调度机制与静态调度策略（SS）比较,表明该机制提高了异构多核处理器的性能并保证了执行过程的稳定性。相似文献