期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

郝子宇李宏亮谢向辉钱磊张昆《计算机工程与科学》2009,31(11):4-8

模拟技术是进行计算机体系结构设计的重要方法。循环语句形成了SCMD的程序结构,使得少量源代码产生大量的Trace和超长的运行时间。本文从源程序的这一特征出发,构建基于循环缩减的Trace简化和模拟加速方法——Rasbora。Rasbora在程序源代码中添加指令,有选择地记录循环过程中的Trace内容,从而有效地简化Trace;并且在模拟过程中,识别循环体表现的相似性,用少量的循环体模拟近似代替所有循环的运行。经过测试表明,Rasbora方法可以有效地减少Trace量,缩减模拟时间,同时保证了一定精度的要求。相似文献

2.

BFS算法与众核处理器的适应性研究

叶楠郝子宇郑方谢向辉《计算机研究与发展》2015,52(5)

以图计算为代表的数据密集型应用获得越来越广泛的关注,而传统的高性能计算机处理这类应用的效率较低.面向未来高性能计算机体系结构要有效支持数据密集型计算,深入研究以广度优先搜索(breadth-first search,BFS)算法为代表的图计算的典型特征,设计实现轻量级启发式切换BFS算法,该算法通过基本搜索方式的自动切换,避免冗余内存访问,提高搜索效率;针对BFS算法的离散随机数据访问特征以及众核处理器执行机制,建立面向BFS算法的众核处理器体系结构分析模型;全面、深入研究了BFS算法在典型众核处理器上的运行特征和性能变化趋势.测试结果表明:Cache命中率、内存带宽、流水线利用效率等相关参数均处于较低水平,无法完全满足BFS算法的需求,因此需要能够支持大量离散随机访问和简单执行机制的新型众核处理器体系结构. 相似文献

3.

ArchSim: A System-Level Parallel Simulation Platform for the Architecture Design of High Performance Computer 总被引：2，自引：0，他引：2

下载免费PDF全文

Yong-Qin Huang 《计算机科学技术学报》2009,24(5):901-912

High performance computer (HPC) is a complex huge system, of which the architecture design meets increasing difficulties and risks. Traditional methods, such as theoretical analysis, component-level simulation and sequential simulation, are not applicable to system-level simulations of HPC systems. Even the parallel simulation using large-scale parallel machines also have many difficulties in scalability, reliability, generality, as well as efficiency. According to the current needs of HPC architecture design, this paper proposes a system-level parallel simulation platform: ArchSim. We first introduce the architecture of ArchSim simulation platform which is composed of a global server (GS), local server agents (LSA) and entities. Secondly, we emphasize some key techniques of ArchSim, including the synchronization protocol, the communication mechanism and the distributed checkpointing/restart mechanism. We then make a synthesized test of some main performance indices of ArchSim with the phold benchmark and analyze the extra overhead generated by ArchSim. Finally, based on ArchSim, we construct a parallel event-driven interconnection network simulator and a system-level simulator for a small scale HPC system with 256 processors. The results of the performance test and HPC system simulations demonstrate that ArchSim can achieve high speedup ratio and high scalability on parallel host machine and support system-level simulations for the architecture design of HPC systems. 相似文献

4.

表面活性剂在半导体硅材料加工技术中的应用 总被引：8，自引：0，他引：8

刘玉岭檀柏梅赵之雯郝子宇《河北工业大学学报》2004,33(2):72-76

表面活性剂以其特有的降低表面张力特性、分散悬浮及润湿渗透作用在微电子工业中应用越来越广泛,尤其是在硅材料的切片、磨片、抛光及清洗工艺中的应用已成为减少损伤、缺陷和污染的必不可少的辅助材料．本文主要对表面活性剂的作用机理及对硅表面性能的影响进行分析讨论．相似文献

5.

一种高性能超长点数浮点FFT加速器设计

王谛石嵩吴铁彬刘亮谭弘兵郝子宇过锋李宏亮《计算机研究与发展》2021,58(6):1192-1203

快速傅里叶变换(fast Fourier transform,FFT)在数字信号处理中占据核心地位.随着高性能超长点数FFT需求的增长,数字信号处理器(digital signal processor,DSP)的计算能力越来越难以满足需求,集成FFT加速器成为重要的发展趋势.为了支持超长点数FFT,将2维分解算法推广到多维,提出一种可集成于DSP的高性能超长点数FFT加速器结构.该结构通过基于素数个存储体的无冲突体编址方法实现了 3维转置运算;通过递推算法实现了高效铰链因子生成;使用单精度浮点二项融合点积运算和融合加-减运算,对FFT运算电路进行了精细化设计.实现了对4G点数单精度浮点FFT计算的支持.综合结果表明:FFT加速器运行频率能够达到1GHz以上,性能达到640Gflop/s.在支持的点数和性能方面都较已有研究成果取得大幅提升. 相似文献

6.

图计算中基于一致性约束条件的迭代模型研究

孙茹君张鲁飞郝子宇陈左宁《计算机研究与发展》2019,56(2)

相似文献

7.

MPI非阻塞广播算法及性能研究

严忻恺郝子宇吴东谢向辉《计算机工程与科学》2013,35(9):20

MPI的3.0版新增了非阻塞集合通信.非阻塞集合通信兼顾非阻塞和集合通信的特点,与阻塞集合通信相比具有更低的同步开销,能够实现更多的计算通信重叠,带来性能提升.以广播为例详细介绍了广播通信的不同算法实现,比较了非阻塞与阻塞广播底层控制管理方法并进行了实验分析,提出了实现改进方法. 相似文献

8.

3D-MMA:基于3D集成电路的矩阵乘加速结构

王吉军郝子宇李宏亮《计算机工程与科学》2019,41(12):2110-2118

脉动阵列结构规整、吞吐量大,适合矩阵乘算法,广泛用于设计高性能卷积、矩阵乘加速结构。在深亚微米工艺下,通过增大阵列规模来提升芯片计算性能,会导致频率下降、功耗剧增等问题。因此,结合3D集成电路技术,提出了一种将平面脉动阵列结构映射到3D集成电路上的双精度浮点矩阵乘加速结构3D-MMA。首先,设计了针对该结构的分块映射调度算法,提升矩阵乘计算效率;其次,提出了基于3D-MMA的加速系统,构建了3D-MMA的性能模型,并对其设计空间进行探索;最后,评估了该结构实现代价,并同已有先进加速器进行对比分析。实验结果表明,访存带宽为160GB/s时,采用4层16×16脉动阵列的堆叠结构时,3D-MMA计算峰值性能达3TFLOPS,效率达99%,且实现代价小于二维实现。在相同工艺下,同线性阵列加速器及K40GPU相比,3D-MMA的性能是后者的1.36及1.92倍,而面积远小于后者。探索了3D集成电路在高性能矩阵乘加速器设计中的优势,对未来进一步提升高性能计算平台性能具有一定的参考价值。相似文献

9.

零级指令缓存研究综述

张昆郝子宇郑方谢向辉《计算机工程与科学》2017,39(3):405-412

高效能是处理器设计的重要指标。由于指令部件在处理器芯片中开始占据越来越多的芯片面积,消耗了较多的芯片功耗,研究人员提出了零级指令缓存设计。零级指令缓存容量小、访问耗能低,与流水线紧密耦合、取指命中时可以门控流水线部分逻辑。因此,零级指令缓存可以有效提高流水线指令部件的能效比。综述了现有的零级指令缓存的不同结构、各结构的发展与应用情况;展望了零级指令缓存设计的未来研究思路。相似文献