期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

K-ary N-cube网络中的维度气泡流控与无死锁完全自适应路由 总被引：1，自引：0，他引：1

肖灿文张民选过锋《计算机学报》2006,29(5):801-807

利用虚跨步切换技术中消息的依存关系只与相邻缓冲区队列相关的特点,设计了一种称为维度气泡流控（DBFC）的新型流控策略.该流控策略建立在虚跨步（VCT）切换和信约流控机制之上,通过分析端口信约值和路由信息实现点点间的流控.在无边带k-ary n -cube网络中,如果采用DBFC流控策略,即使网络中存在环相关,设计的自适应维度气泡路由（ADBR）算法仍可实现无死锁的最短距离的路由.对于以上结论,文中提供了详细的证明.最后,通过修改模拟工具RSIM的网络模拟器--NETSIM的代码,实现了DBFC流控策略和ADBR算法.模拟结果显示,ADBR算法在性能上比常用的维序路由优越,在报文延迟上有近17.5%的降低. 相似文献

2.

面向E级计算的高性能处理器核心运算架构研究进展

吴铁彬过锋王谛《计算机工程与科学》2023,(5):761-771

高性能计算(HPC)已经进入后E级时代。作为超算系统核心器件，高性能处理器通过核心运算架构为HPC提供超强算力。核心运算架构的研究进展代表了高性能处理器体系结构的发展方向。以面向E级计算的先进高性能处理器为目标，从运算资源组织结构、数据和指令级并行方式、领域专用加速结构、支持数据类型和算力等方面对核心运算架构研究进展进行分析和探讨，并展望了高性能处理器核心运算架构的发展趋势。超宽向量SIMD和SIMT、领域专用加速结构加速矩阵运算、支持多种低精度运算以加速HPC和AI融合，将是未来高性能处理器核心运算架构研究和发展的主要方向。相似文献

3.

ArchSim: A System-Level Parallel Simulation Platform for the Architecture Design of High Performance Computer 总被引：2，自引：0，他引：2

下载免费PDF全文

Yong-Qin Huang 《计算机科学技术学报》2009,24(5):901-912

High performance computer (HPC) is a complex huge system, of which the architecture design meets increasing difficulties and risks. Traditional methods, such as theoretical analysis, component-level simulation and sequential simulation, are not applicable to system-level simulations of HPC systems. Even the parallel simulation using large-scale parallel machines also have many difficulties in scalability, reliability, generality, as well as efficiency. According to the current needs of HPC architecture design, this paper proposes a system-level parallel simulation platform: ArchSim. We first introduce the architecture of ArchSim simulation platform which is composed of a global server (GS), local server agents (LSA) and entities. Secondly, we emphasize some key techniques of ArchSim, including the synchronization protocol, the communication mechanism and the distributed checkpointing/restart mechanism. We then make a synthesized test of some main performance indices of ArchSim with the phold benchmark and analyze the extra overhead generated by ArchSim. Finally, based on ArchSim, we construct a parallel event-driven interconnection network simulator and a system-level simulator for a small scale HPC system with 256 processors. The results of the performance test and HPC system simulations demonstrate that ArchSim can achieve high speedup ratio and high scalability on parallel host machine and support system-level simulations for the architecture design of HPC systems. 相似文献

4.

片上多核的软件指令缓存技术研究

过锋李宏亮谢向辉黄永勤《计算机工程与科学》2009,31(Z1)

半导体工艺的进步使片上可以集成更多的处理核心,对于消耗较多面积和功耗的存储单元,如何有效地减小面积、降低功耗是片上多核研究的一个重要方向。软件指令缓存技术是降低指令存储复杂性,以及降低功耗的有效方式,本文深入对比了硬件Cache结构和软件指令缓存结构,并且详细分析了两款典型的软件指令缓存结构,总结了其特点和需要解决的关键问题,为片上多核的指令存储设计提供了参考。相似文献

5.

面向高性能计算的众核处理器结构级高能效技术 总被引：1，自引：0，他引：1

郑方张昆邬贵明高红光唐勇吕晖过锋李宏亮谢向辉《计算机学报》2014,37(10)

随着半导体技术的进步,众核处理器已经广泛应用于高性能计算领域.而要构建未来高性能计算系统,处理器必须突破严峻的"能耗墙"挑战.文中以一款自主众核处理器DFMC原型为基础,首先对其在典型负载下的能耗分布进行了分析,结合该处理器的具体结构,提出了基于指令窗口的指令缓冲、操作数锁存两种结构级能效优化技术,探索了能效优先的浮点部件设计方法.实验表明,通过上述技术可以降低处理器取指和译码能耗约50%、寄存器文件能耗11.2%和浮点部件能耗17.6%,最终全芯片降低能耗约14.7%.在该文所述实验环境下,作者还进行了DFMC原型的双精度矩阵乘(DGEMM)性能功耗比测试,并与NVIDIA公司的Kepler K20GPU进行了对比. 相似文献

6.

一种高性能超长点数浮点FFT加速器设计

王谛石嵩吴铁彬刘亮谭弘兵郝子宇过锋李宏亮《计算机研究与发展》2021,58(6):1192-1203

快速傅里叶变换(fast Fourier transform,FFT)在数字信号处理中占据核心地位.随着高性能超长点数FFT需求的增长,数字信号处理器(digital signal processor,DSP)的计算能力越来越难以满足需求,集成FFT加速器成为重要的发展趋势.为了支持超长点数FFT,将2维分解算法推广到多维,提出一种可集成于DSP的高性能超长点数FFT加速器结构.该结构通过基于素数个存储体的无冲突体编址方法实现了 3维转置运算;通过递推算法实现了高效铰链因子生成;使用单精度浮点二项融合点积运算和融合加-减运算,对FFT运算电路进行了精细化设计.实现了对4G点数单精度浮点FFT计算的支持.综合结果表明:FFT加速器运行频率能够达到1GHz以上,性能达到640Gflop/s.在支持的点数和性能方面都较已有研究成果取得大幅提升. 相似文献

7.

IBOI:一种复杂性有效的基于指令块的乱序发射策略

过锋李宏亮谢向辉黄永勤《小型微型计算机系统》2011,32(7)

顺序流水线结构由于逻辑简单,复杂性小,被广泛应用于嵌入式系统,以及片上多核和众核处理器.但是顺序流水线的指令发射速率受制于访存等长延迟事件,性能往往很低.本文在顺序流水线的基础上提出了一种基于指令块的乱序发射策略,只以少量的复杂性获得较好的性能功耗比.实验结果表明,本文提出的乱序发射策略相比顺序发射是一种复杂性有效的改进. 相似文献

8.

Cooperative Computing Techniques for a Deeply Fused and Heterogeneous Many-Core Processor Architecture

下载免费PDF全文

郑方李宏亮吕晖过锋许晓红谢向辉《计算机科学技术学报》2015,(1)

Due to advances in semiconductor techniques, many-core processors have been widely used in high performance computing. However, many applications still cannot be carried out e?ciently due to the memory... 相似文献

9.

环网中的维度气泡流控与自适应路由算法

肖灿文张民选过锋《计算机研究与发展》2007,44(9):1510-1517

介绍了一个称为环网维度气泡流控(TDBFC)的新型流控策略和称为环网维度气泡路由(TADBR)算法的新型自适应路由算法.在Bubble流控和DBFC流控的基础上设计了适合于环网的维度气泡流控.在环网中,如果采用TDBFC流控策略,设计的TADBR自适应路由算法可实现无死锁的最短距离的路由.对于以上结论,提供了详细的证明.最后,介绍了自行设计的模拟工具RingNetSim,该模拟器实现了TDBFC流控策略和TADBR算法.在RingNetSim上分析了TADBR算法的性能,结果显示环网维度气泡路由算法拥有较好的性能. 相似文献

10.

二维环网中基于自适应维度气泡路由的组播算法 总被引：1，自引：1，他引：0

肖灿文张民选过锋《计算机研究与发展》2010,47(2)

介绍了一种称为二维环网维度气泡组播路由(2DTDBMR)的新型算法.基于在一套网络中,采用相同的路由策略支持报文的单播操作和组播操作的思想,在二维环网中,基于TADBR自适应路由,设计实现了2DTDBMR组播算法.该组播算法在路由器中实现了多目标路由以及报文复制,而且算法是无死锁的.通过对二维环网中报文所有可能的路由情况进行分析发现当采用2DTDBMR组播算法时,报文最终都可以到达目标点.最后,在自行设计的模拟工具RingNetSim上实现了2DTDBMR组播算法.在RingNetSim上分析了2DTDBMR算法的性能,结果显示环网维度气泡组播算法的性能优异. 相似文献