首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 57 毫秒
1.
为了便于用户快速、直观地了解到机群系统中并行应用程序的性能情况,将Linux计算机群与Windows控制显示平台相结合,提出了一种基于事件的异构平台并行程序性能可视化方法.该方法以MPI作为底层编程环境,在高层使用MPE技术,依据动态性能检测方式获取程序执行过程信息;设计C#语言及Jumpshot日志图形化分析集成工具实现并行程序性能可视化.实验结果表明,该方法可准确,直观地反映程序性能信息,有助于程序员简便、有效地对并行程序进行量化分析,对提高机群系统的可用性、改善程序性能及效率等方面具有较高的实用价值.  相似文献   

2.
本文以并行3LFORTRAN源程序为分析对象.阐述了并行程序运行可视化技术中的关键环节──有关并行程序运行时性能数据的采集系统的设计思路及实现方案,并通过一实例进行了说明.  相似文献   

3.
本文对并行程序性能分析作了更为深入的研究,提出了一些比较新颖的方法,使分析结果更加接近实际多机系统,具体地说,本文对并行程序的确定性能分析作了改进,引进了随机分析方法,这是目前一种比较先进的并行程序分析方法,从单机上模拟实现的结果可以发现,这种分析方法使得分析精度有了相当的改进。  相似文献   

4.
基于系统抽样的并行程序性能特征分析方法及其实现   总被引:1,自引:0,他引:1  
程序性能特征分析是理解程序行为的基础,对识别程序性能瓶颈、了解软硬件资源利用状况具有重要作用.特别在大规模并行系统的性能评价中,受时间和空间的约束无法分析完整应用性能特征.一个有效的方法是通过抽样的方法分析应用程序部分代码的性能特征,以此代表完整应用的性能特征.分析了Profiler程序负载来源,提出了基于抽样的程序性能特征分析方法,并基于该方法实现了性能特征分析器SamplePro.与其他方法比较,基于系统抽样的程序性能特征方法在最小样本容量下得到最优的分析结果,仅需抽样分析1%~3%的程序指令就能实现小于3%的分析误差.  相似文献   

5.
VP^4:基于机群的pvm并行程序性能可视化工具   总被引:1,自引:0,他引:1  
本文研究并实现了一个通用的 pvm并行程序性能可视化软件工具 VP^4.针对工作站机群的特点 ,它采用多层次性能数据采集方法和基于事件的采取策略 ,这样可以在尽量减少“侵入影响”的前提下 ,采集并汇总全部性能数据 .对汇总的性能数据进行处理后 ,VP^4利用图形与动画生成各种易于使用的可视化性能视图 .通过实验表明 ,本软件工具可以有效地帮助用户发现性能瓶颈 ,辅助用户开发高性能的并行程序 .  相似文献   

6.
本文介绍了一个通用的pvm并行程序性能可视化软件工具VP~4。针对工作站机群的特点,它采用多层次性能数据采集方法和基于事件的采取策略,这样可以在尽量减少“侵入影响”的前提下,采集并汇总全部性能数据。VP~4对汇总的性能数据进行处理后,利用图形与动画生成各种易于使用的可视化性能视图。通过实验表明,本软件工具可以有效的帮助用户发现性能瓶颈,辅助用户开发高性能的并行程序。  相似文献   

7.
介绍了一种异构环境下的并行调试及性能分析工具ParaVT的设计方法和实现.通过对并行程序源代码的分析处理,利用自动插桩模板插入用于调试和性能分析的用户代码,从而对并行程序进行断点调试和性能参数收集,达到进一步优化程序设计的目的.  相似文献   

8.
Petri网是使用很广泛的用于复杂系统描述的工具。PRM网是一种特殊的Petri网,主要用于并行程序的性能评价和预测,使用PRM网进行预测,通常使用的是程序模拟的方法。本文首先对PRM网作了简要的介绍并做出适当的修正,然后基于修正后的PRM网提出了一种基于计算的性能预测方法。该方法主要可以分成三个步骤:首先根据P网建立一个状态跃迁列表,然后根据资源映射图建立执行图,最后计算执行图中最长路径的长度。对于不同的资源映射图,只需要重做后两步,就可以预测出其运行时间,相对于模拟来说,这种方法要便捷得多。  相似文献   

9.
并行程序性能分析工具的一种主要设计思想是采用源程序们随法,而其中性能监测库是这类并行程序性能分析工具的重要组成部分,提出了玫种基于事件的并行程序性能监测库的实现技术,并给出了一个基于SVM系统的性能分析工具的性能监测库的实现方法。  相似文献   

10.
张延园  刘敏 《微机发展》1997,7(5):17-19
在并行程序的开发过程中,常常会出现负载不平衡、通讯开销过大、同步等待等一些导致计算机系统性能降低的因素。为了克服这些问题,及时对并行程序进行性能分析是十分重要的.在[1]、[2]、[3]中虽然对并行程序的性能分析作了一些研究,但都没有实现对并行程序的全局住分析,作者在对并行程序的运行状态进行分析的基础上,研究和开发了一个住能分析系统,它能自动地提取描述程序运行过程的真实数据,依据这些数据描述并行程序的各种性能指标,并对影响并行程序运行性能的原因作出直观的图形表述。  相似文献   

11.
针对OpenCL(open computing language)编译时期的特有模式, 提出了一种新的针对异构计算平台的编译期优化方法。该方法根据设备端和主机端的各自特点, 将设备端的一些冗余操作提到主机端或者新的设备端kernel中去执行, 以达到降低存储器读写的目的。这种方法充分利用了异构计算平台的特点, 较传统优化方法相对灵活。大多数情况下能有效提高OpenCL的运行速度, 测试用例中在应用原有编译器优化的基础上最快提高了270%。  相似文献   

12.
随着混合异构平台的发展,出现了类型不一的加速设备,如何在混合异构平台中充分利用这些不同类型的设备,以及如何在多个计算设备之间部署深度学习模型,而且训练大型和复杂模型的重要性不断提高.数据并行(DP)是应用最广泛的并行化策略,但是如果数据并行训练中的设备数量不断增加,设备之间的通信开销就会成为瓶颈.此外,每个步骤因设备性...  相似文献   

13.
结合信息可视化与机器学习技术,提出一种基于多元数据平行坐标图表示的贝叶斯可视化分类方法。该方法基于类条件概率密度估计对平行坐标图表示进行优化,最后对变换后的各变量值加权求和,用贝叶斯法则分类。这种方法通过平行坐标来使不可见的数据和算法变得可见,从而易于利用专家领域知识,分类结果容易理解,特别适合应用到疾病诊断等医学领域的模式识别问题。  相似文献   

14.
In order to exploit the efficient computing power of many integrated cores on heterogeneous cluster, a multi-level and multi-granularity collaborative parallel computing method is proposed for finite element structural mechanical analysis. Computing tasks are divided into three levels: inter-node parallelism, inter-device parallelism and inter-core parallelism. Through mapping decomposablecomput- ing jobs to different hardware layers of heterogeneous MIC system, the proposed method not only effectively resolves the load balancing problem between CPU and MIC devices, but also significantly reduces the communication overheads of the system. Different engineering simulation case experiments for large scale parallel computing were conducted on “Tianhe 2” supercomputer. Up to 39000 CPU+MIC cores were employed and the finite element size of the analysis was more than 100 million units. Test results show that the proposed method can achieve good speedup and parallel computing efficiency in large scale parallel computing of finite element structural analysis. The optimized adaptation of finite element structural analysis and heterogeneous MIC computing platform is realized, which can provide reference for parallel porting and performance optimization of similar applications.  相似文献   

15.
16.
In the heterogeneous wireless networks, it has been proved that the joint spectrum and power allocation can achieve network diversity gains for parallel multi-radio access in theory. This article aims to develop an effective and practical algorithm of joint subearrier, code, and power allocation for parallel multi- radio access of the downlink in heterogeneous wireless networks (e.g., CDMA and OFDMA). Firstly, we propose a unified framework to formulate the subcarrier, code, and power allocation as an optimization problem. Secondly, we propose a resource element (subcarrier and code) scheme based on the threshold type. Simulation results show that the proposed scheme outperforms the existing algorithm for considered wireless scenarios.  相似文献   

17.
Several large real‐world applications have been developed for distributed and parallel architectures. We examine two different program development approaches. First, the usage of a high‐level programming paradigm which reduces the time to create a parallel program dramatically but sometimes at the cost of a reduced performance; a source‐to‐source compiler, has been employed to automatically compile programs—written in a high‐level programming paradigm—into message passing codes. Second, a manual program development by using a low‐level programming paradigm—such as message passing—enables the programmer to fully exploit a given architecture at the cost of a time‐consuming and error‐prone effort. Performance tools play a central role in supporting the performance‐oriented development of applications for distributed and parallel architectures. SCALA—a portable instrumentation, measurement, and post‐execution performance analysis system for distributed and parallel programs—has been used to analyze and to guide the application development, by selectively instrumenting and measuring the code versions, by comparing performance information of several program executions, by computing a variety of important performance metrics, by detecting performance bottlenecks, and by relating performance information back to the input program. We show several experiments of SCALA when applied to real‐world applications. These experiments are conducted for a NEC Cenju‐4 distributed‐memory machine and a cluster of heterogeneous workstations and networks. Copyright © 2001 John Wiley & Sons, Ltd.  相似文献   

18.
刘瑜  袁宏春  梁正 《计算机应用》2008,28(2):279-282
在多系统异构局域网中,由于不同操作环境的消息传递接口(MPI)程序缺乏互操作性,使得并行时域有限差分运算(FDTD)难以充分利用局域网内的计算资源。对此,提出利用应用层服务消息块(SMB)协议实现异构FDTD计算,并通过内存文件存取、内存映射数组以及引入冗余计算等方法来缓解与克服SMB通信延迟对并行性能的影响。数值模拟实例验证了新方法的可行性与正确性,所得加速比、并行效率等性能指标参数与常规同构MPI消息传递方法基本相当。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号