期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《计算机应用与软件》2018,(1)

蒙特卡罗(MC)模拟广泛用于核工程和核安全计算中,但在较高置信度要求下计算量大、计算周期长,难以满足工程周期要求。通过分析串行算法,针对大型SMP服务器Oracle M9000的结构特点,采用Open MP技术对其进行了并行化和实验计算。结果表明,多线程并行技术适合蒙特卡罗模拟方法和M9000结构体系,能获得极高的加速性能,且并行结果与串行结果完全一致。这为满足工程计算的高置信度、短周期要求提供了解决方案。相似文献

2.

Xeon Phi平台上基于模板优化的3D-GVF场计算加速

齐金李宽杨灿群杜云飞《计算机工程与科学》2014,36(8):1435-1440

3D梯度向量流场（3D GVF field）广泛应用于多种3D图像分析算法中,其计算需要多次迭代,计算量大,如何提高其计算速度具有重要的研究意义。面向Intel Xeon Phi众核集成架构,首次进行了3D GVF场计算的加速优化。首先,挖掘3D图像像素点间存在的天然并行性,发挥众核架构优势,尝试线程级并行（多核）和数据级并行（SIMD）。其次,3D GVF场的计算过程是一种典型的3D 7点模板运算,结合Xeon Phi架构的L2 缓存规格,提出一种高效的数据分块策略,充分挖掘数据的时/空局部性,有效缓解模板计算引起的缓存缺失,提升了计算性能。实验结果表明,引入模板优化技术能显著提升3D GVF场的计算速度,在图像维度为5123时,所提方法在57核Xeon Phi平台上的性能相比在2.6GHz 8核16线程的Intel Xeon E5 2670 CPU上的性能,加速比可达2.77。相似文献

3.

面向科学计算可视化的两级并行数据读取加速方法

石刘肖丽曹立强莫则尧《计算机研究与发展》2017,54(4):844-854

为了匹配超级计算机的整体计算能力,超级计算机存储子系统通常具有良好的I/O性能可扩展性,表现为：应用获得存储子系统最佳性能时的I/O访问并发度,与超级计算机系统总计算核数(可达数万至数百万)通常处于同一数量级.然而,科学计算可视化应用通常使用的进程数(等于I/O访问并发度)相对较小(经验上常设为计算进程数的1%,典型值为数个至数百个),因此无法充分发挥超级计算机存储子系统的最佳I/O性能.提出了一种面向科学计算可视化的两级并行数据读取加速方法,在可视化进程内部引入多线程并行数据读取,通过进程间和进程内两级并行,增加超级计算机存储子系统的I/O访问并发度,提升可视化应用数据读取速率.测试结果表明:在不同的可视化进程规模下,两级并行比单级并行峰值数据读取速率提高33.5%~269.5%,均值数据读取速率提高26.6%~232.2%;随着科学计算应用种类以及应用规模的变化,两级并行数据读取可使可视化应用整体峰值运行速度加速19.5%~225.7%,均值运行速度加速15.8%~197.6%. 相似文献

4.

基于阵列处理器的SVDC算法并行设计与实现

蒋林黎瑞金曹非《计算机应用与软件》2023,(10):285-290

视点合成失真算法(Synthesized View Distortion Change, SVDC)作为三维高效视频编码(3D High Efficiency Video Coding, 3D-HEVC)中改善深度图编码效率的有效途径，已成为当下三维视频领域的研究前沿之一。基于阵列处理器，利用分布式共享存储结构设计并实现一种SVDC算法的并行映射方式，并根据访存特性提出失真值计算优化方案，以像素级误差平方和(Sum of Squared Differences, SSD)计算替代单元级SSD计算。实验表明，相比于HTM平台，算法的平均性能可以提升19.03%,所设计的失真值计算并行方案串/并加速比为2.36,使用像素级SSD计算后相比于优化前平均性能可以提升39.3%。相似文献

5.

CASC2D分布式水文模型异构并行算法研究

下载免费PDF全文

左翔赵杏杏丛小飞刘修恒《水利信息化》2023,(5):41-47

针对 CASC2D 模型精细化水文模拟时面临的计算耗时长、效率低等问题,在保持产汇流算法和流域拓扑结构的基础上,采用 CPU+GPU 的异构并行算法对 CASC2D 模型程序进行重新设计和优化,模型程序中的降雨、产流、坡面汇流和河道汇流过程均优化为并行计算,以提高 CASC2D 模型的计算效率。将优化后的 CASC2D 模型应用于前毛庄流域的洪水流量过程模拟,计算结果与原 CASC2D 模型保持一致。在栅格分辨率为 30 m,计算步长为 3 s 时,与原 CPU 串行计算方法相比,并行加速比达到 34 倍以上,并且栅格单元数据精度越高,加速比提升越明显。异构并行算法可在不降低模拟精度的条件下显著提升 CASC2D 模型的计算效率,满足实时水文预报的应用需求。相似文献

6.

基于MRT-LBM方法的大规模可扩展并行计算研究

刘智翔方勇宋安平徐磊王晓伟周丽萍张武《计算机研究与发展》2016,53(5):1156-1165

在大规模三维复杂流动的数值模拟中,针对具有良好数值稳定性的多弛豫时间模型格子Boltzmann方法(MRT-LBM),并结合大涡模拟湍流模型和曲面边界插值格式,分析了在D3Q19离散速度模型下的网格生成、流场信息初始化和迭代计算3部分的可并行性.采用MPI编程模型,从分布式集群的特点和计算量负载均衡的角度出发,分别提出了适合于大规模分布式集群的网格生成、流场信息初始化和迭代计算的并行算法.该并行算法也能有效适用于D3Q15和D3Q27离散速度模型.通过在国产神威蓝光超级计算机上的测试,分别针对求解问题总体计算规模固定和保持每个计算核中计算量一致的2种情况的并行性能分析,验证了该并行算法在十万计算核的量级下仍具有良好的加速比和可扩展性. 相似文献

7.

组网雷达估测降水系统并行化方案的设计与实现

吴石磊安虹李小强周伟刘谷魏学超《计算机科学》2012,39(3):271-275

国家气象局天气组网雷达定量估测降水系统不仅拥有较大的计算量,而且具有较大的数据吞吐量,同时对实时性要求较高。如果缩短其执行时间,无疑将会带来巨大的收益。鉴于这些特点,使用VTune Amplifer XE对串行程序进行了热点分析和并行性分析,得出程序中有较多线程级并行性,从而制定了相应的并行化方案;然后使用Win32多线程和OpenMP两种技术对该程序在Intel四核处理器平台上进行了并行化。程序主要由单站处理和组网处理两部分组成。由于计算资源的限制,并行后的单站处理程序只有大约10%的性能提升,而组网处理程序则可以达到近似线性的性能提升。通过调整计算负载,并行化版本的加速比可以达到5.5。最后,可以得出该并行化方法适用于计算密集且数据吞吐量较大的一类应用。相似文献

8.

三维粒子模拟并行化技术研究

陈再高王玥王建国张殿辉付梅艳乔海亮袁媛《计算机工程与科学》2009,31(11)

自行研制的三维并行全电磁PIC模拟软件UNIPIC-3D具有模拟高功率微波器件的能力。软件实现了并行的三维FDTD、粒子推进算法以及边界条件处理。软件通过读入输入文件进行规则与不规则两种区域划分方式,电磁场和粒子的并行化采用MPI机制,让粒子和电磁场的计算与通信同步,在高性能并行计算机上对软件的并行效率进行了测试。通过与2.5维UNIPIC软件的结果比较,验证了UNIPIC-3D软件并行模块的正确性。相似文献

9.

集成众核上快速独立成分分析降维并行算法

方民权张卫民周海芳《计算机研究与发展》2016,53(5):1136-1146

高光谱遥感影像快速独立成分分析(fast independent component analysis, FastICA)降维过程包含大规模矩阵计算及大量迭代计算.通过热点分析,面向集成众核(many integrated core, MIC)架构设计了协方差矩阵计算、白化处理和ICA迭代等热点并行方案,提出和实现一种M-FastICA并行降维算法,并构建算法性能模型;基于集成众核研究并行程序优化策略,针对各热点并行方案提出一系列优化策略,特别是创新性地提出一种下三角阵负载均衡方法,并量化测试其优化效果.实验结果显示M-FastICA算法最高可加速42倍,比24核CPU多线程并行快2.2倍;探讨了波段数与并行程序性能的关系;实验数据验证了算法性能模型的准确性. 相似文献

10.

双重并行环境下最短路径的研究

下载免费PDF全文

孙玉强李银银顾玉宛《计算机测量与控制》2017,25(3):195-196, 230

并行问题和最短路径问题已成为一个热点研究课题,传统的最短路径算法已不能满足数据爆炸式增长的处理需求,尤其当网络规模很大时,所需的计算时间和存储空间也大大的增加;MapReduce模型的出现,带来了一种新的解决方法来解决最短路径;GPU具有强大的并行计算能力和存储带宽,与CPU相比具有明显的优势;通过研究MapReduce模型和GPU执行过程的分析,指出单独基于MapReduce模型的最短路径并行方法存在的问题,降低了系统的性能;论文的创新点是结合MapReduce和GPU形成双并行模型,并行预处理数据,针对最短路径中的数据传输和同步开销,增加数据动态处理器;最后实验从并行算法的性能评价指标平均加速比进行比较,结果表明,双重并行环境下的最短路径的计算,提高了加速比。相似文献

11.

Parallel Monte Carlo Driver (PMCD)—a software package for Monte Carlo simulations in parallel

B. Mendes A. Pereira 《Computer Physics Communications》2003,151(1):89-95

Thanks to the dramatic decrease of computer costs and the no less dramatic increase in those same computer's capabilities and also thanks to the availability of specific free software and libraries that allow the set up of small parallel computation installations the scientific community is now in a position where parallel computation is within easy reach even to moderately budgeted research groups. The software package PMCD (Parallel Monte Carlo Driver) was developed to drive the Monte Carlo simulation of a wide range of user supplied models in parallel computation environments. The typical Monte Carlo simulation involves using a software implementation of a function to repeatedly generate function values. Typically these software implementations were developed for sequential runs. Our driver was developed to enable the run in parallel of the Monte Carlo simulation, with minimum changes to the original code that implements the function of interest to the researcher. In this communication we present the main goals and characteristics of our software, together with a simple study its expected performance. Monte Carlo simulations are informally classified as “embarrassingly parallel”, meaning that the gains in parallelizing a Monte Carlo run should be close to ideal, i.e. with speed ups close to linear. In this paper our simple study shows that without compromising the easiness of use and implementation, one can get performances very close to the ideal. 相似文献

12.

基于RMC的蒙特卡罗程序性能优化

徐海坤匡邓晖刘杰龚春叶《计算机工程与科学》2021,43(4):634-640

蒙特卡罗MC方法是核反应堆设计和分析中重要的粒子输运模拟方法.MC方法能够模拟复杂几何形状且计算结果精度高,缺点是需要耗费大量时间进行上亿规模粒子模拟.如何提高蒙特卡罗程序的性能成为大规模蒙特卡罗数值模拟的挑战.基于堆用蒙特卡罗分析程序RM C,先后开展了基于TCMalloc动态内存分配优化、OpenMP线程调度策略优... 相似文献

13.

Reduction of the self-forces in Monte Carlo simulations of semiconductor devices on unstructured meshes

M. Aldegunde Natalia Seoane K. Kalna 《Computer Physics Communications》2010,181(1):24-34

When using an unstructured mesh for device geometry, the ensemble Monte Carlo simulations of semiconductor devices may be affected by unwanted self-forces resulting from the particle-mesh coupling. We report on the progress in minimisation of the self-forces on arbitrary meshes by showing that they can be greatly reduced on a finite element mesh with proper interpolation functions. The developed methodology is included into a self-consistent finite element 3D Monte Carlo device simulator. Minimising of the self-forces using the proper interpolation functions is tested by simulating the electron transport in a 10 nm gate length, 6.1 nm body thick, double gate metal-oxide-semiconductor field-effect transistor (MOSFET). We demonstrate the reduction in the self-force and illustrate the practical distinction by showing I-V characteristics for the device. 相似文献

14.

自发荧光成像中光子传输蒙卡仿真的并行实现

杨薇杨鑫代晓倩王珊骆劼徐敏《计算机科学与探索》2009,3(2):198-209

在生物自发光成像领域,将基于蒙特卡罗方法的光子前向传输仿真进行并行化,提高了仿真的速度。首先介绍了所采用的一系列并行机制和串行加速算法,然后分别对并行仿真结果进行正确性验证和性能验证,并与软件MOSE、triMC3D的结果进行了对比,最后对该并行平台进行了总结和展望。相似文献

15.

基于网格的3D Monte Carlo 算法及协同计算研究

李晶雷咏梅《计算机应用与软件》2006,23(5):11-12

MonteCarlo算法在高分子研究领域占有相当重要的地位。本文在网格环境下实现了三维格点MonteCarlo算法在高分子链领域中的一个应用实例的并行化,研究了网格环境下的3D的MC算法协同计算,并且实现了该算法的协同演示。相似文献

16.

三维分子结构检索系统的柔性构象检索 总被引：1，自引：1，他引：1

陈海峰姚建华袁身刚荔建锋杨铄郑崇直范波涛《计算机与应用化学》1999,16(2):101-104,110

介绍ＭｏｎｔｅＣａｒｌｏ法和遗传算法两种柔性构象检索方法,并对４种药效团进行了柔性构象检索,经过对比发现遗传算法可以在比较合理的时间内得到较多的命中结构,比ＭｏｎｔｅＣａｒｌｏ法更适用于柔构象检索。相似文献

17.

Parallel simulation of electron-solid interactions for electron microscopy modeling

S. J. Plimpton J. R. Michael A. D. Romig Jr. 《The Journal of supercomputing》1992,6(2):139-151

A parallel implementation of a Monte Carlo algorithm for modeling the scattering of electrons in solids and the resulting X-ray production is described. Two important issues for accurate and fast parallel simulation are discussed-random number generation and load-balancing. Timing results for the parallel simulation are given which show even modest-sized parallel machines can be competitive with conventional vector supercomputers for Monte Carlo trajectory simulations. Examples of parallel calculations performed to analyze specimen composition data and to characterize electron microscope performance are briefly highlighted. 相似文献

18.

基于蒙特卡罗仿真的LDPC解码器功耗分析方法

下载免费PDF全文

赵耀韩泽耀付宇卓《计算机工程》2009,35(1):216-217

精确评估LDPC解码器在不同信噪比下的功耗需要在门级仿真大量的随机输入向量,以致耗费大量时间。通过对解码算法进行定点化的蒙特卡罗仿真可以方便地得到不同信噪比下的误码率和平均迭代次数。该文结合门级仿真与蒙特卡罗仿真,方便快速地得到LDPC解码器在不同信噪比下较为精确的功耗。通过对IEEE802．16e中一个LDPC码的实验,证明了该方法的可行性和有效性。相似文献

19.

基于Intranet的高性能金融仿真平台建立和使用

兰蓉郑守淇桂小林《小型微型计算机系统》2006,27(6):1108-1112

Monte Carlo仿真是实现金融证券定价及风险评估的主要方法．本文提出在Intranet上利用JAVA简单、快速建立并行Monte Carlo仿真平台的方法．SPMD编程模型用于程序设计，利用eager算法实现负载均衡、容错及适度并行．独立序列作为并行伪随机数生成技术从而保证并行仿真的可用性．股票期权定价及银行信用风险VaR实时计算作为应用，完成实际仿真系统设计及实验．获得理想运行结果．目前，该平台及应用系统可用于金融机构创新服务和风险管理中．相似文献

20.

Monte Carlo implementation of financial simulation on Cell/B.E. multi-core processor

Jonas Larsson 《Mathematics and computers in simulation》2010,81(3):578-587

The processor evolution has reached a critical moment in time where it will soon be impossible to increase the frequency much further. Processor designers such as Motorola, Intel and IBM have all realised that the only way to improve the FLOP/Watt ratio is to develop multi-core devices. One of the most current examples of multi-core processors is the new Sony/Toshiba/IBM Cell/B.E. multi-core processor. For the suitability to run in parallel, Monte Carlo methods are often considered embarrassingly parallel. This paper describes how a common Monte Carlo based financial simulation can be calculated in parallel using the Cell/B.E. multi-core processor. The measured performance with the achieved multi-core speed-up is also presented. With the recent availability of this increasingly available technology, financial simulations can now be performed in a fraction of the time it used to. This can also be achieved with a limited power and volume budget using commercially available technology. The main challenge with multi-core devices is clearly the programmability. The work presented here describes how this challenge could be dealt with.A basic MPI library has been developed to handle the partitioning and communication of data. The thread creation follows a POSIX thread creation model. MPI together with POSIX make the application portable in between various multi-processor systems and multi-core devices. The conclusions made indicate that a function offload MPI implementation on the Cell/B.E. multi-core processor can efficiently be used to speed-up the Monte Carlo solution of financial simulations. The conclusions made herein are also applicable to other situations where an algorithm can be easily parallelized. 相似文献