排序方式: 共有9条查询结果,搜索用时 15 毫秒
1
1.
模拟技术是进行计算机体系结构设计的重要方法。循环语句形成了SCMD的程序结构,使得少量源代码产生大量的Trace和超长的运行时间。本文从源程序的这一特征出发,构建基于循环缩减的Trace简化和模拟加速方法——Rasbora。Rasbora在程序源代码中添加指令,有选择地记录循环过程中的Trace内容,从而有效地简化Trace;并且在模拟过程中,识别循环体表现的相似性,用少量的循环体模拟近似代替所有循环的运行。经过测试表明,Rasbora方法可以有效地减少Trace量,缩减模拟时间,同时保证了一定精度的要求。 相似文献
2.
以图计算为代表的数据密集型应用获得越来越广泛的关注,而传统的高性能计算机处理这类应用的效率较低.面向未来高性能计算机体系结构要有效支持数据密集型计算,深入研究以广度优先搜索(breadth-first search, BFS)算法为代表的图计算的典型特征,设计实现轻量级启发式切换BFS算法,该算法通过基本搜索方式的自动切换,避免冗余内存访问,提高搜索效率;针对BFS算法的离散随机数据访问特征以及众核处理器执行机制,建立面向BFS算法的众核处理器体系结构分析模型;全面、深入研究了BFS算法在典型众核处理器上的运行特征和性能变化趋势.测试结果表明:Cache命中率、内存带宽、流水线利用效率等相关参数均处于较低水平,无法完全满足BFS算法的需求,因此需要能够支持大量离散随机访问和简单执行机制的新型众核处理器体系结构. 相似文献
3.
ArchSim: A System-Level Parallel Simulation Platform for the Architecture Design of High Performance Computer 总被引:2,自引:0,他引:2 下载免费PDF全文
Yong-Qin Huang 《计算机科学技术学报》2009,24(5):901-912
High performance computer (HPC) is a complex huge system, of which the architecture design meets increasing difficulties and
risks. Traditional methods, such as theoretical analysis, component-level simulation and sequential simulation, are not applicable
to system-level simulations of HPC systems. Even the parallel simulation using large-scale parallel machines also have many
difficulties in scalability, reliability, generality, as well as efficiency. According to the current needs of HPC architecture
design, this paper proposes a system-level parallel simulation platform: ArchSim. We first introduce the architecture of ArchSim
simulation platform which is composed of a global server (GS), local server agents (LSA) and entities. Secondly, we emphasize
some key techniques of ArchSim, including the synchronization protocol, the communication mechanism and the distributed checkpointing/restart
mechanism. We then make a synthesized test of some main performance indices of ArchSim with the phold benchmark and analyze
the extra overhead generated by ArchSim. Finally, based on ArchSim, we construct a parallel event-driven interconnection network
simulator and a system-level simulator for a small scale HPC system with 256 processors. The results of the performance test
and HPC system simulations demonstrate that ArchSim can achieve high speedup ratio and high scalability on parallel host machine
and support system-level simulations for the architecture design of HPC systems. 相似文献
4.
表面活性剂在半导体硅材料加工技术中的应用 总被引:8,自引:0,他引:8
表面活性剂以其特有的降低表面张力特性、分散悬浮及润湿渗透作用在微电子工业中应用越来越广泛,尤其是在硅材料的切片、磨片、抛光及清洗工艺中的应用已成为减少损伤、缺陷和污染的必不可少的辅助材料.本文主要对表面活性剂的作用机理及对硅表面性能的影响进行分析讨论. 相似文献
5.
快速傅里叶变换(fast Fourier transform, FFT)在数字信号处理中占据核心地位.随着高性能超长点数FFT需求的增长,数字信号处理器(digital signal processor, DSP)的计算能力越来越难以满足需求,集成FFT加速器成为重要的发展趋势.为了支持超长点数FFT,将2维分解算法推广到多维,提出一种可集成于DSP的高性能超长点数FFT加速器结构.该结构通过基于素数个存储体的无冲突体编址方法实现了3维转置运算;通过递推算法实现了高效铰链因子生成;使用单精度浮点二项融合点积运算和融合加-减运算,对FFT运算电路进行了精细化设计.实现了对4G点数单精度浮点FFT计算的支持.综合结果表明:FFT加速器运行频率能够达到1GHz以上,性能达到640Gflop/s.在支持的点数和性能方面都较已有研究成果取得大幅提升. 相似文献
6.
迭代计算是数值计算中有效的逼近方式,能够拟合多种计算模型.在大数据分析领域尤其是图计算中,迭代计算能够抽象描述大部分图算法,对结构化数据挖据和关联分析至关重要.随着数据规模的增长,很多精确算法的时空复杂度已经难以满足现实需求,迭代计算的算法越来越丰富.并行迭代是图计算的主要实现形式,已有的图并行策略大多数是同步模型,少量异步模型,对于一致性约束条件下的迭代研究较少.研究内容重点关注图计算模型中迭代执行技术,分析了同步迭代和异步迭代的适用性,以及不同一致性下的异步迭代方式,针对已有异步迭代方式的不足提出了自适应的弱一致异步执行模型,并进行了验证性实验.实验证明:该模型能有效提高部分图算法的执行效率,尤其是收敛速度和效果. 相似文献
7.
MPI的3.0版新增了非阻塞集合通信.非阻塞集合通信兼顾非阻塞和集合通信的特点,与阻塞集合通信相比具有更低的同步开销,能够实现更多的计算通信重叠,带来性能提升.以广播为例详细介绍了广播通信的不同算法实现,比较了非阻塞与阻塞广播底层控制管理方法并进行了实验分析,提出了实现改进方法. 相似文献
8.
脉动阵列结构规整、吞吐量大,适合矩阵乘算法,广泛用于设计高性能卷积、矩阵乘加速结构。在深亚微米工艺下,通过增大阵列规模来提升芯片计算性能,会导致频率下降、功耗剧增等问题。因此,结合3D集成电路技术,提出了一种将平面脉动阵列结构映射到3D集成电路上的双精度浮点矩阵乘加速结构3D-MMA。首先,设计了针对该结构的分块映射调度算法,提升矩阵乘计算效率;其次,提出了基于3D-MMA的加速系统,构建了3D-MMA的性能模型,并对其设计空间进行探索;最后,评估了该结构实现代价,并同已有先进加速器进行对比分析。实验结果表明,访存带宽为160GB/s时,采用4层16×16脉动阵列的堆叠结构时,3D-MMA计算峰值性能达3TFLOPS,效率达99%,且实现代价小于二维实现。在相同工艺下,同线性阵列加速器及K40GPU相比,3D-MMA的性能是后者的1.36及1.92倍,而面积远小于后者。探索了3D集成电路在高性能矩阵乘加速器设计中的优势,对未来进一步提升高性能计算平台性能具有一定的参考价值。 相似文献
9.
高效能是处理器设计的重要指标。由于指令部件在处理器芯片中开始占据越来越多的芯片面积,消耗了较多的芯片功耗,研究人员提出了零级指令缓存设计。零级指令缓存容量小、访问耗能低,与流水线紧密耦合、取指命中时可以门控流水线部分逻辑。因此,零级指令缓存可以有效提高流水线指令部件的能效比。综述了现有的零级指令缓存的不同结构、各结构的发展与应用情况;展望了零级指令缓存设计的未来研究思路。 相似文献
1