首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 359 毫秒
1.
大规模并行计算机系统并行性能模拟技术研究   总被引:2,自引:0,他引:2  
性能模拟技术是计算机系统性能评价的重要手段.介绍了面向大规模并行计算机系统以及消息传递应用程序的并行性能模拟技术,总结了相关的关键技术和国内外研究现状.对几个代表性的并行模拟器系统进行了详细介绍.结合并行计算机系统和应用的发展趋势,讨论了未来并行模拟器设计、实现面临的问题和可能的解决方案.  相似文献   

2.
SimHPC:一种基于执行驱动的大规模并行系统模拟器   总被引:1,自引:0,他引:1  
模拟实验方法对高性能计算机系统的性能评价和优化设计有着重要的意义,然而由于目标系统规模庞大,传统的体系结构模拟器难以满足模拟性能方面的要求.文中提出了一种专门用于高性能计算系统的模拟器——SimHPC,该模拟器采用执行驱动的全系统模拟方法,支持操作系统和应用程序的模拟运行.通过采用与目标系统同构的节点作为宿主节点以及并行模拟的方法,使得模拟性能相比传统的体系结构模拟器大幅提高,与现有的几种大规模并行系统模拟器相比,SimHPC在通用性和模拟性能方面也具有一定的优势.  相似文献   

3.
模拟器是计算机体系结构研究的重要工具.近年来并行计算机体系结构的发展给计算机模拟带来了巨大的挑战.一方面,随着体系结构朝着多核以及众核处理器发展,模拟的目标系统规模随着模拟核数以摩尔定律的速度增加而不断增大;另一方面,串行模拟的速度因为模拟器运行所在宿主机主频提速减缓而停滞不前.上述两方面的原因使得传统的串行模拟方式无法满足对新兴体系结构模拟规模和速度的需求.以众核处理器和众核集群这两种体系结构为例,并行模拟技术在并行计算机体系结构模拟中是必要而且可行的.对于众核处理器的模拟,使用并行离散事件模拟对其进行加速,在模拟精度不变的前提下,提高模拟速度10.9倍.对于众核集群的模拟,模拟的目标系统总规模达到1024核,并且支持MPI/Pthreads混合编程的运行环境.  相似文献   

4.
蒙特卡罗(MC)模拟广泛用于核工程和核安全计算中,但在较高置信度要求下计算量大、计算周期长,难以满足工程周期要求。通过分析串行算法,针对大型SMP服务器Oracle M9000的结构特点,采用Open MP技术对其进行了并行化和实验计算。结果表明,多线程并行技术适合蒙特卡罗模拟方法和M9000结构体系,能获得极高的加速性能,且并行结果与串行结果完全一致。这为满足工程计算的高置信度、短周期要求提供了解决方案。  相似文献   

5.
李李 《网友世界》2014,(21):10-10
本文的目标是在集群计算机系统中实现基于协同设计的并行I/O模拟器,主要思想是在原有并行I/O模拟器设计方法的基础上实现对模拟器的各种参数的优化选择,提高了原模拟器的各项性能,再在协同设计的理论指导下实现了设计人员知识无差别性,使原系统的功能得以增强。  相似文献   

6.
马春燕  吕炳旭  叶许姣  张雨 《软件学报》2023,34(7):3022-3042
随着多核处理器的普及应用,针对嵌入式遗留系统中串行代码的自动并行化方法是研究热点.其中,针对具有非完美嵌套结构、非仿射依赖关系特征的复杂嵌套循环的自动并行化方法存在技术挑战.提出了一种基于LLVMPass的复杂嵌套循环的自动并行化框架(CNLPF).首先,提出了一种复杂嵌套循环的表示模型,即循环结构树,并将嵌套循环的正则区域自动转换为循环结构树表示;然后,对循环结构树进行数据依赖分析,构建循环内和循环间的依赖关系;最后,基于OpenMP共享内存的编程模型生成并行的循环程序.针对SPEC2006数据集中包含近500个复杂嵌套循环的6个程序案例,分别对其进行复杂嵌套循环占比统计和并行性能加速测试.结果表明,提出的自动并行化框架可以处理LLVMPolly无法优化的复杂嵌套循环,增强了LLVM的并行编译优化能力,且该方法结合Polly的组合优化,比单独采用Polly优化的加速效果提升了9%-43%.  相似文献   

7.
该文提出了一个面向众核处理器的并行模拟器:PartitionSim.PartitionSim采用了一种新颖的方法——时序分割来加速众核结构模拟.时序分割的提出基于这样的观察:在众核结构中,有些模块之间频繁交互而有的模块之间没有交互.有鉴于此,该方法将目标结构分割成两部分:交互部分和非交互部分.当模拟交互部分时,主机线程...  相似文献   

8.
为了充分利用多核处理器的硬件资源和计算能力,提出了多核并行编程技术在中文分词程序中的优化方案.根据中文分词最大正向匹配算法的特点,由传统的串行程序,改为并行程序.利用多核并行编程模式的思想,设计了一个混合并行编程模式,通过Intel的性能分析工具,找出了该算法的热点和瓶颈,对其进行优化.实验结果表明,优化过后的执行时间较原来串行程序的执行时间缩短了50%~60%,同时提高了程序的加速性能,取得了良好的效果.  相似文献   

9.
为了缓解I/O瓶颈问题,可以从应用程序、可扩展算法、编译器和语言、运行时库、操作系统和体系结构六方面展开研究。其中,I/O体系结构是所有技术途径的关键支撑。当前并行I/O性能分析缺乏科学的理论模型为I/O体系结构设计提供理论依据。本文针对并行计算机系统的可扩展性问题,研究了I/O负载对并行计算机系统可扩展性的影响,建立了I/O受限的并行加速比性能模型,对目前大规模并行计算机系统中三种常用I/O体系结构的可扩展性进行了分析;以此为理论依据,提出了一种面向高性能计算的可扩展并行I/O系统结构。同时,还提出了几种有效降低I/O操作服务时间的策略,从而达到增强系统可扩展性的目的,为后续研究奠定了基础。  相似文献   

10.
随着计算机系统规模的不断增长,计算机系统结构的研究对于如何更有效地利用各个部件的性能显得尤为重要.但是在系统结构的研究中,由于研究对象规模过大,采用模拟器进行模拟测试是一种常用的方法.但是在使用全系统模拟器的时候,将整个系统进行模拟会造成实验效率的降低和模拟器程序的维护困难.因此,使用基于trace输入的模拟器成为了一种提高模拟器效率的常用方法,但是由于trace不能良好地表现计算机系统某些部分的运行特性,难以避免地存在一定的模拟误差.对此,提出了一种基于trace精度改进的内存系统模拟器优化方法,通过增加trace中包含的内容、提高trace的精度并在内存系统模拟器中实现相应的支持机制,从而在不影响模拟器运行效率的情况下提高内存系统模拟器的运行精度.  相似文献   

11.
P+P:同步时序电路的并行码和并行故障模拟器   总被引:3,自引:0,他引:3  
开发的一个新的快速故障模拟器P+P。该模拟器使用了并行码与并行故障模拟算法,实现了同步时序电路故障模拟的两路并行性,采用了全局故障分组,锥形操作,电路级化及改进的组号ID等技术。P+P已在SUN SPARC-2工作站上实现,运行了大部分的ISCAS Benchmark同步时序电路。最后给出了实验结果。  相似文献   

12.
提出了一种基于 PVM软件的并行和分布式模拟算法 ,用于解决由于 VHDL本身的复杂性和电子电路的超规模化而造成的模拟器开发难度及运行时间、空间上的问题 ,可以极大地提高模拟速度  相似文献   

13.
为解决当前群体行为模型因规模扩大而导致计算量剧增的问题,采用并行离散事件方法构建了大规模群体行为模型,利用YH-SUPE仿真引擎实现了群体行为模型的并行计算。重点介绍了模型中仿真对象和仿真对象信息交互的设计方法,并对该模型在不同数量的节点和仿真实体的环境下进行了测试。实验结果表明,将并行计算引入群体行为建模之中,可以显著提高仿真个体的数量,更加有效地支持了群体模型的实时运行。  相似文献   

14.
一种层次的、混合并行离散事件仿真算法   总被引:5,自引:0,他引:5  
并行仿真算法是并行离散事件仿真中心的核心问题,对于具体的应用系统,采用不同的并行仿真算法将导致其仿真性能大的差异,提出了一种针对于分布环境中特定应用系统仿真的层次的,混合并行离散事件仿真算法,测试和应用表明,和通常的保守机制或者乐观机制相比,能够较大地提高仿真效率,并且具有良好的可扩展性,首先给出了在通信开销不可忽略的环境下,保守机制和乐观机制的性能测试结果和两者适用情况的分析,然后根据测试结果和具体应用系统的特点,提出了层次的,混合并行离散事件仿真算法,给出了LP级和组级算法算,最后对算法进行了测试和性能分析。  相似文献   

15.
We examine two schemes for parametric parallel simulation on SIMD supercomputers. In SIMD machines, the parallel processors execute a common instruction stream using local data-under the control of a front-end processor. In contrast to most parallel simulation approaches-which simulate a single system using multiple processors-we simulate distinct parametric variants at each processor. We extract some of the common computation embedded in these simulations and perform it on the front-end, leaving the rest to the parallel processors.The first simulation approach, which we call time synchronous, is essentially Vakili's standard clock. This approach generates a uniformized event process on the front-end processor which is thinned at each back-end processor based on local state information. The second scheme, which we call event synchronous, generates a standard Poisson process on the front-end, which is time-scaled and marked on the back-end processors.We develop a framawork for comparing these methods based on their simulated event rate (number of simulated events per real time unit). We show that the time synchronous method can be tuned to optimize the event rate for a given family of systems and we solve this optimal standard clock problem for several test cases. Finally we describe implementation issues peculiar to the SIMD architecture. Our focus is primarily on the M/M/1/K queue, but the methods extend to more general Jackson networks.  相似文献   

16.
In this paper we use the event synchronization scheme to develop a new method for parallel simulation of many discrete event dynamic systems simultaneously. Though a few parallel simulation methods have been developed during the last several years, such as the well-known Standard Clock method, most of them are largely limited to Markovian systems. The main advantage of our method is its applicability to non-Markovian systems. For Markovian systems a comparison study on efficiency between our method and the Standard Clock method is done on Connection Machine CM-5. CM-5 is a parallel machine with both SIMD (Single Instruction, Multiple Data) and MIMD (Multiple Instruction Multiple Data) architectures. The simulation results show that if event rates of Markovian systems do not differ by much then both methods are compatible but the Standard Clock method performs better in most cases. For Markovian systems with very different event rates, our method often yields better results. Most importantly, our simulation results also show that our method works as efficiently for non-Markovian systems as for Markovian systems.  相似文献   

17.
18.
本文介绍了一种面向并行模拟的Verilog代码分割器VCPPS。VCPPS通过图形化的方式进行人机交互,并采取用户启发式的方法指导分割。文章介绍了VCPPS设计与实现中的一些关键技术,通过分析可以看出,VCPPS可以正确地完成繁琐的Verilog代码分割工作,为并行Verilog模拟提供支持。  相似文献   

19.
陈军  莫则尧 《计算机学报》2007,30(9):1559-1566
在实现多物理并行数值耦合模拟中,需要处理多个物理过程之间网格、并行区域分解的差异.针对该同题,该文基于三维流体力学与激光传播耦合的并行数值模拟,提出了一种实用的并行耦合方法:引入辅助状态将本地插值与通信相分离;构建并行耦合图并定义主导属性,以确定过程间传输的最小数据集合;提供并行数据重分配算法来完成通信.并行数值结果表明:该方法是有效的,在64台处理机上使整体程序获得50.07的加速比.  相似文献   

20.
模拟退火算法是一种能应用到求最小值问题或连续更新的学习过程(随机或决定性的)。在此过程中,每一步更新过程的长度都与相应的参数成正比,这些参数扮演着温度的角色。标准模拟退火算法仅进行串行优化,其效率很难提高。因此,考虑引入多种群群体优化机制构造并行算法,并对接受准则进行讨论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号