期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

方建滨徐传福车永刚翁玉芬王正华《计算机工程与科学》2009,31(Z1)

LP到PP的高效映射是加速并行性能模拟的关键技术之一。针对交互规则的并行应用程序,设计映射生成方法A2-LP3M从Trace中提取LP间的交互模式,以宿主机物理进程间通信最小化为目标,兼顾计算负载平衡,从循环块映射中选取合适的映射方式。实验表明,相对于常规映射方法,A2-LP3M减少并行模拟时间最多可达16.2%。相似文献

2.

Trace生成对大规模并行性能模拟的影响及其改进策略

徐传福王荣车永刚王正华《计算机工程与科学》2012,34(3):67-73

Trace生成是trace驱动体系结构模拟中不可或缺的步骤。Trace不仅需要占用大量存储空间,其生成过程还可能对目标应用程序的模拟执行产生一定程度的干扰,导致性能数据误差。Trace驱动并行性能模拟器由于其设计实现特点和所运行的宿主并行平台的多样性,使得trace生成的影响具有其独特性。本文选取典型并行模拟器BigSim和若干具有不同计算通信比的目标并行程序,在三个支持不同traceI/O方式的宿主机平台上设计实验评估了trace生成对并行性能模拟的影响,结果表明trace生成对模拟效率和精度均有较大的影响,并分析了这种影响与并行模拟器实现和宿主机平台I/O方式的关系,进而讨论了几种可行的改进方案,对trace驱动并行模拟器设计、实现和使用具有一定的指导意义。相似文献

3.

一种Trace驱动的多核SMP集群并行性能模拟方法

翁玉芬徐传福车永刚方建滨王正华《计算机工程与科学》2009,31(Z1)

基于新型多核SMP集群的层次化性能模型,本文在BigSim并行性能模拟器基础上实现了一个Trace驱动的多核SMP集群并行性能模拟器Sim-MSC。在一个InfiniBand多核SMP集群的宿主机平台上采用jacobi3D程序进行了测试,结果表明Sim-MSC能够模拟MPI消息传递并行应用程序在多核SMP集群上的执行特征,精确预测系统和应用性能。相似文献

4.

并行网络蠕虫模拟中任务优化划分的研究 总被引：1，自引：0，他引：1

王晓锋方滨兴云晓春张宏莉《计算机学报》2006,29(8):1367-1374

为提高并行网络蠕虫模拟的性能，需要对蠕虫模拟任务进行合理的划分．鉴于基于图划分工具的任务划分方法存在的不足，提出了并行网络蠕虫模拟任务的优化划分方法：以并行网络蠕虫模拟运行时间估计模型作为优化目标函数，采用改进的模拟退火算法实现对蠕虫模拟任务的划分．在PDNS上进行的Slammer蠕虫传播模拟实验表明，该优化划分方法较基于图划分工具的方法提高模拟性能20％以上．相似文献

5.

一种云平台中优化的虚拟机部署机制

下载免费PDF全文

温少君陈俊杰郭涛《计算机工程》2012,38(11):17-19

传统虚拟机部署机制通常单一地依据宿主机当前的CPU状况来选择目标宿主机,从而引起负载不均衡。针对该问题,提出一种云平台中优化的虚拟机部署机制。建立宿主机自动选择模型,给出基于个性需求的宿主机自动选择策略,对宿主机后续负载状况进行预测,估算虚拟机的资源消耗。实验结果表明,该机制能在满足用户需求的基础上提高系统性能。相似文献

6.

基于混合精度算法的改进HPL软件包

下载免费PDF全文

王磊张云泉刘芳芳张先轶《计算机工程》2010,36(19):47-49

利用求解线性方程组的混合精度算法,对HPL软件包进行改进。从性能与加速比、迭代时间与迭代次数以及误差分析3个方面,在四路AMD Opteron870双核处理器平台上,对原HPL与改进的HPL软件包进行对比测试。实验结果表明,改进的HPL软件包在保证双精度浮点精度要求的前提下,计算性能大约提高1倍,并具有良好的可扩展性。相似文献

7.

众核处理器和众核集群的并行模拟

吕慧伟程元白露陈明宇范东睿孙凝晖《计算机研究与发展》2013,50(5)

模拟器是计算机体系结构研究的重要工具.近年来并行计算机体系结构的发展给计算机模拟带来了巨大的挑战.一方面,随着体系结构朝着多核以及众核处理器发展,模拟的目标系统规模随着模拟核数以摩尔定律的速度增加而不断增大;另一方面,串行模拟的速度因为模拟器运行所在宿主机主频提速减缓而停滞不前.上述两方面的原因使得传统的串行模拟方式无法满足对新兴体系结构模拟规模和速度的需求.以众核处理器和众核集群这两种体系结构为例,并行模拟技术在并行计算机体系结构模拟中是必要而且可行的.对于众核处理器的模拟,使用并行离散事件模拟对其进行加速,在模拟精度不变的前提下,提高模拟速度10.9倍.对于众核集群的模拟,模拟的目标系统总规模达到1024核,并且支持MPI/Pthreads混合编程的运行环境. 相似文献

8.

HPL测试性能仿真与预测 总被引：1，自引：0，他引：1

张文力陈明宇樊建平《计算机研究与发展》2006,43(3):557-562

HPL是大规模并行系统广泛采用的Linpack测试软件包．在HPL程序算法分析和实践测试的基础上，发掘了理论确定矩阵分块大小NB的规律，突破了长期以来对尝试性实验的依赖．进而将算法复杂性的估算提升到测试程序执行时间的精度，并建立HPL测试仿真模型，对执行时间进行更细致的评估．同时，在大量真实测试验证的基础上，利用该模型对各种系统性能提高因素将带给Linpack测试的益处进行预见，期望为体系的改进方向提供参考．相似文献

9.

基于遗传算法的并行网络模拟拓扑划分

下载免费PDF全文

王晓锋毛力《计算机工程》2011,37(23):83-85

要提高并行网络模拟性能,需对网络模拟拓扑进行有效划分。为此,提出一种并行网络模拟拓扑的优化划分方法。分析影响并行网络模拟性能因素,给出并行网络模拟性能估计模型,以该模型为评价函数,采用遗传算法寻找优化划分,实现并行网络模拟拓扑的优化划分。在PDNS上的实验结果表明,与传统划分方法相比,该优化划分方法的并行模拟性能平均提高13.3%。相似文献

10.

SM4算法在粗粒度阵列平台的并行化映射

《电子技术应用》2017,(4)

粗粒度可重构密码阵列提供了大量并行的密码硬件资源,是针对多种分组密码算法硬件快速实现而设计的加速平台。该平台以提升性能和资源效率为目标对SM4算法进行了映射。在直接映射方案的基础上,使用合并操作和任务并行的思路提出了3种改进方案。实验结果表明,改进方案不同程度地发挥了阵列运算资源优势,吞吐率和资源使用效率有了大幅度提升。相似文献

11.

An energy-aware online task mapping algorithm in NoC-based system 总被引：1，自引：1，他引：0

Bin Xie Tianzhou Chen Wei Hu Xingsheng Tang Dazhou Wang 《The Journal of supercomputing》2013,64(3):1021-1037

With the development of the semiconductor technology, more processors can be integrated onto a single chip. Network-on-Chip is an efficient communication solution for many-core system. However, enhancing performance with lower energy consumption is still a challenge. One critical issue is mapping applications to NoC. This work proposed an online mapping method, which optimizes task mapping algorithm to reduce communication energy consumption. The communication status of applications at runtime is analyzed first. Then, the algorithm computes the mapping placement dynamically and implements the real-time mapping online. Experimental results based on simulation show that the algorithm proposed in this article can achieve more than 20% communication energy saving compared with first fit mapping and nearest neighbor mapping. The migration cost caused by the remapping process is also considered, and can be calculated at the runtime to estimate the effect of remapping. 相似文献

12.

光电干扰武器系统C3I可执行建模的研究

下载免费PDF全文

陈长喜郭立红于涌唐雪松《计算机工程》2007,33(3):27-28

UML已经成为面向对象分析与设计建模事实上的标准。基于UML的C3I系统模型的设计结果是对系统的静态表述，而C3I系统的本质是动态的。着色Petri网(CPN)具有强大的描述能力及严密的数学基础和多种分析手段，并且是可以仿真运行的。提出了从UML产品映射到可用于逻辑、行为和性能方面体系结构评价的CPN可执行模型的方法，对光电干扰武器系统C3I进行了UML建模的一般描述，阐述了光电干扰武器系统C3I从UML产品映射到CPN建立可执行模型的过程。通过对可执行模型CPN的仿真可对光电干扰武器系统C3I进行完整准确的评价。相似文献

13.

An optimized hybrid algorithm in term of energy and performance for mapping real time workloads on 2d based on-chip networks

Sarzamin Khan Sheraz Anjum Usman Ali Gulzari Farruh Ishmanov Maurizio Palesi Muhammad Khalil Afzal 《Applied Intelligence》2018,48(12):4792-4804

In this paper, we propose an optimized, search based near-optimal mapping heuristic, named as ONMAP for mapping real time embedded application workloads on 2D based on-chip interconnection network platforms. ONMAP exploits NMAP, a well-known and fast nearest neighbor heuristic algorithm by using the modular exact optimization method. The proposed hybrid algorithm minimizes the on-chip inter-processor communication energy consumption and optimizes the interconnection network performance parameters. The algorithm inherits the constructive search based heuristic nature of the NMAP algorithm, as well as the property of exact optimization for mapping embedded applications on the target communication architecture. To verify the efficiency and effectiveness of the algorithm, we have compared the proposed algorithm with NMAP and random mapping algorithm under similar simulation environments and traffic conditions. The mapping results of the exemplary real world applications such as VOPD, PIP, MPEG4, MWD, MMS and WiFi-80211arx indicate that ONMAP algorithm is more efficient than its competitors for most of the performance parameters of the on-chip network designs. The algorithm successfully optimized the energy consumption, up to 20 % and 26% in comparison to NMAP and random algorithms, respectively. Similarly, the cost is optimized up to 10% and 60% as compared to NMAP and random mapping algorithms, respectively. 相似文献

14.

移动P2P网络双向匿名通信机制设计

下载免费PDF全文

杨志兴汤红波王晓雷杨森《计算机工程》2012,38(11):120-123

无线链路不稳定和恶意节点不合作等因素会影响移动P2P网络匿名机制的实现。为解决该问题,通过改进移动P2P网络结构,提出一种可以随网络状况自适应变化的NCS-Crowds匿名算法,综合运用假名映射和掩饰流等匿名技术,设计系统架构演进架构下的双向匿名通信机制。理论分析和仿真结果证明,该机制能够根据网络状况在转发成功率和开销代价之间取得较好的折中,实现双向匿名通信。相似文献

15.

MPI+TBB混合并行编程模型在分子动力学中的应用

白明泽赵文辉豆育升孙世新温迪《计算机应用研究》2012,29(5):1772-1774

为了提高分子动力学模拟在对称多处理(SMP)集群上的计算速度,在分子动力学并行方法中引入MPI+TBB的混合并行编程模型。基于该模型,在分子动力学软件LAMMPS中设计并实现混合并行算法,在节点间采用MPI及空间分解技术实施进程级并行,节点内采用TBB及临界区技术实施线程级并行。在SMP集群中的测试表明,该方法在体系较大以及节点数较多时可以明显减少通信时间,使加速比在纯MPI模型上提高45%。结果表明,MPI+TBB混合并行编程模型可促进分子动力学并行模拟且效率明显提升。相似文献

16.

Optimal processor mapping for linear-complement communication onhypercubes

Yomin Hou Chien-Min Wang Chiu-Yu Ku Lih-Hsing Hsu 《Parallel and Distributed Systems, IEEE Transactions on》2001,12(5):514-527

In this paper, we address the problem of minimizing channel contention of linear-complement communication on wormhole-routed hypercubes. Our research reveals that, for traditional routing algorithms, the degree of channel contention of a linear-complement communication can be quite large. To solve this problem, we propose an alternative approach, which applies processor reordering mapping at compile time. In this compiler approach, processors are logically reordered according to the given communication(s) so that the new communication(s) can be efficiently realized on the hypercube network. It is proved that, for any linear-complement communication, there exists a reordering mapping such that the new communication has minimum channel contention. An O(n³) algorithm is proposed to find such a mapping for an n-dimensional hypercube. An algorithm based on dynamic programming is also proposed to find an optimal reordering mapping for a set of linear-complement communications. Several computer simulations have been conducted and the results clearly show the advantage of the proposed approach 相似文献

17.

基于概率的自适应跳频通信系统中的跳频图案产生方法

杨晓文申晓红姜喆赵瑞琴王海燕《数据采集与处理》2015,30(3):585-590

为了提高水声跳频通信系统的可靠性和保密性,提出了基于误码率映射和对伪随机数流的量化来产生跳频图案的方法,该方法将各个跳频频点的误码率映射为一个概率密度函数,由此得到量化向量,根据伪随机数发生器产生的满足特定统计规律的伪随机数流和特定的量化准则,对伪随机数流进行量化,生成跳频图案,进行跳频通信。构建基于概率的自适应跳频通信仿真系统,仿真结果表明基于概率的自适应跳频通信相对于传统的跳频通信或自适应跳频通信误码率更低,且保密性更强。相似文献

18.

POM:一个MPI程序的进程优化映射工具

卢兴敬商磊陈莉《计算机工程与科学》2009,31(Z1)

现代超级计算机具有越来越多的计算结点,同时结点内具有多个处理器核。由于互联带宽的差异,结点间与结点内构成两个通信性能不同的通信层次,后者的通信性能好于前者。但是,目前MPI程序的默认进程映射未考虑该通信层次差异,无法利用结点内较好的通信带宽,严重束缚了超级计算机的性能发挥。针对该问题,本文设计实现了能利用层次通信差异的MPI程序自动进程优化映射工具POM,提供了高效、低开销获取MPI程序通信信息的方法,最终通过优化通信在通信层次上的分布提高了程序的通信效率,从而提高了应用程序的性能。本文解决了硬件平台通信层次的抽象、MPI程序通信信息的低开销获取与映射方案的计算三个问题。首先,按照通信能力差异将超级计算机结构抽象为高速互联的不同计算结点与相同结点上的多个处理器核两层。其次,提出了将集合通信转化成点到点通信的简单实现方法。最后,利用无向加权边图来表示MPI程序的进程间通信关系,将MPI程序的进程映射问题转化为图划分问题。在曙光5000A和曙光4000A上的实验结果表明,利用POM工具能够显著提高MPI程序的性能。相似文献

19.

基于OMNEST的半实物仿真数据传输研究

赵明周安栋刘宏波《计算机与数字工程》2012,40(5):53-54,141

半实物仿真技术为通信的发展提供了重要的技术支撑。基于OMNEST仿真软件设计了一个半实物仿真网络模型,分析了模型中仿真网络和物理网络的地址映射,实现了仿真数据流和物理数据流的交互,并对端到端时延和误码率等数据传输性能指标进行统计分析。仿真结果表明,这种网络仿真模型可以将仿真网络和物理网络有效地结合起来。相似文献