期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘青昆滕人达刘凤宫利东张建强《计算机工程与设计》2011,32(10):3395-3398

为了充分利用多核处理器资源,研究了一种用于分子动力学模拟中的多核并行技术。在多核处理器上利用OpenMP技术实现多线程创建与同步、动态设置子线程的调度运行方式以及负载均衡以减少子线程执行等待时间。通过对不同分子体系结构下的动力学模型测试,得出在不同子线程下并行计算的时间,并且得到了良好的性能加速比。实验结果表明,采用OpenMP并行技术可有效地提高电荷求解过程在分子动力学模拟运算中的时间效率,以及多核计算机资源的利用率。相似文献

2.

基于OpenMP的三维并行Delaunay网格生成算法及实现

张晓蒙陆忠华张鉴《计算机应用研究》2016,33(12)

针对大多数并行Delaunay网格生成算法无法充分利用多核共享内存结构的问题,在原有面向共享内存的二维并行算法基础上,根据三维问题的特点提出基于OpenMP的三维并行Delaunay网格生成算法。算法采用划分求解区域为方格的方法实现候选点集的划分和并行插点。使用OpenMP对算法进行实现,并利用多种实现技术避免线程间的同步等待,提升算法效率。实验结果表明,本文算法及所采用的实现技术可以在三维条件下快速生成大量网格单元,具有较高的并行效率,同时能够保证良好的网格质量。相似文献

3.

共享存储环境下非平衡动力学方程组并行计算

迟利华刘杰《计算机应用》2010,30(Z1)

OpenMP是现代多核机群系统采用的主要并行编程模型之一,在单CPU多核上可以获得良好的加速性能,但在整个机群系统上使用时,需要解决可扩展性差的问题.首先设计了求解非平衡动力学方程的并行算法.基于分布共享的多核机群系统,采用显式数据分布OpenMP并行计算方法,将数据进行分布式划分,分配到每个OpenMP线程,通过数据共享实现数据交换.计算结果表明显式OpenMP并行程序在保持可读性的同时,具有良好的可扩展性,在4核Xeon处理器构成的分布共享机群系统上,非平衡动力学方程组的数值并行计算可以扩展到1024个CPU核,具有明显的并行加速计算效果. 相似文献

4.

面向神威高性能多核处理器的并行编译优化方法

周雍浩徐金龙李斌钱宏聂凯《计算机工程》2022,48(9):130-138

在神威高性能多核服务器上,自动并行化编译系统为识别和申明程序中的并行性,产生的OpenMP程序没有经过充分的优化,其采用简单的fork-join模型,存在大量的并行循环嵌套,导致运行效率低。为提升自动并行化编译系统产生的OpenMP程序的运行效率,提出一种并行域重构优化技术。并行域重构技术通过合并程序中的并行域和扩展嵌套循环中的并行域范围,减少OpenMP程序的并行域数目,降低线程组频繁创建和合并等控制开销,将简单fork-join模型的OpenMP程序转换为性能更为高效的单程序多数据模型的OpenMP程序。实验结果表明,在新一代神威高性能多核服务器SW1621平台上,并行域重构技术在NPB3.3-OMP测试集和SPEC OMP2012测试集上的运行效率分别提高了10.77%和7.94%的,可有效提升自动并行化编译系统OpenMP程序的执行效率。相似文献

5.

大规模地形漫游系统关键技术的研究

温菊屏《计算机与数字工程》2009,37(1):47-50

针对海量的地形和纹理数据,设计合理的场景数据存储和有效的动态调度策略是大规模地形漫游系统的关键技术,该文对此进行总结和研究。结合清江漫游系统项目,通过对地形和纹理数据采用分块存储,使用动态调度策略,并引入多线程技术,实现绘制线程和数据调度线程的并行化,实现了大规模三维地形漫游系统显示的平滑和连续。相似文献

6.

声波数值模拟中的多核并行方法研究

曹丹平《计算机工程与应用》2012,48(36):9-13

波动方程数值模拟普遍存在计算量大的问题,如何根据波动方程有限差分方法的特点开展并行化方法研究是适应微机多核发展的必然趋势。结合波动方程数值模拟中的多层循环嵌套问题和OpenMP的特点,通过确定循环体并行顺序、减少串行环节、合并循环体、准确设置制导语句以及线程绑定优化等方法有助于实现微机多核的高效并行。针对波动方程特点的多核并行不仅有助于提高单机计算效率,对于提高计算机集群上常用的MPI+OpenMP混合并行效率也具有重要意义。相似文献

7.

模糊C均值聚类算法的并行化研究

张建强郑晓薇吴华平《微型机与应用》2010,29(23)

使用Intel Parallel Amplifier高性能工具,针对模糊C均值聚类算法在多核平台的性能问题,找出串行程序的热点和并发性,提出并行化设计方案.基于Intel并行库TBB(线程构建模块)和OpenMP运行时库函数,对多核平台下的串行程序进行循环并行化和任务分配的并行化设计. 相似文献

8.

基于多线程并行的大规模场景交互漫游研究 总被引：1，自引：0，他引：1

万定生余宇峰陈静《计算机工程与设计》2008,29(9):2275-2279

针对大规模三维场景的交互漫游,提出了一种基于多线程并行调度解决方案,并给出了相应的交互漫游算法.该方法使用离散层次细节技术结合视点相关的动态连续层次细节选择和过渡的批LOD技术.在预处理阶段,对大规模场景进行分层分块处理;在实时漫游阶段,采用多线程并行技术:绘制线程利用四又树层次进行可见性剔除和视点相关简化获取当前可绘地形,并将其提交给GPU进行绘制.预取线程通过预测视点的位置,从外存预取相关的几何数据并调入内存.将该方法应用于具体实例,取得了良好效果,证明了该并行方法的有效性. 相似文献

9.

基于多核CPU的并行程序在指控系统中的应用

范瑞娟黄斌刘新友《微型电脑应用》2008,24(12):48-49

简单介绍了多核处理器产生背景和原理,分析了多核处理器和基于多线程的并行程序设计在指控系统中的应用前景,介绍了并行应用的编程过程。最后在Microsoft Visual Studio.Net 2005环境下采用OpenMP编程实现了指控系统中一个算法的并行化,并根据多次运行给出该程序在不同线程数目下的平均耗时,验证和分析了基于多核CPU的并行程序的性能。相似文献

10.

OpenMP多核技术在颗粒流体力学方法GHM中的应用

魏朝磊闫民赵方《计算机工程与科学》2017,39(7):1234-1240

为了达到提高颗粒流体动力学方法 GHM计算效率的目标,分析了GHM模型的主要计算模块,抽取其中的可并行计算模块,基于多核计算机的硬件环境,应用OpenMP多线程并行计算模型,对采用数值积分方法求解颗粒运动方程的部分,实现求解过程的并行计算。最后通过多次实验验证程序的正确性及算法性能。实验结果表明,在Windows 7系统4核8线程处理器的计算机上,并行程序的并行加速比最高达到了2.5,说明OpenMP多核并行技术能较显著地提高GHM方法的计算性能。相似文献

11.

多层次并行体绘制算法的研究与应用 总被引：1，自引：0，他引：1

洪振刚罗省贤《计算机工程与科学》2009,31(Z1)

三维数据场的体绘制技术是科学可视化中一个重要的研究方向,本文在研究和总结体绘制的发展历程与关键技术的基础之上,着重研究了体绘制中的光线投射算法,结合多核处理器机群系统,提出并实现了一种基于多层次并行编程模型的并行光线投射体绘制算法,并成功地将该算法应用于三维城市浅层地质模型,取得了良好的可视化效果。分别对MPI环境和多层次并行编程MPI+OpenMP环境下的光线投射算法进行了不同计算规模的性能比较实验。实验和分析表明,多层次并行光线投射体绘制算法加快了体绘制的速度,MPI+OpenMP多层次并行模型性能高于纯MPI编程模型的性能。相似文献

12.

多群粒子输运问题在多核集群系统上的混合并行计算

迟利华刘杰龚春叶徐涵蒋杰胡庆丰《计算机工程与科学》2009,31(11)

本文分析了非结构网格多群粒子输运Sn方程求解的并行性,拟合多核机群系统的特点,设计了MPI/OpenMP混合程序,针对空间网格点采用区域分解划分,计算结点间基于消息传递MPI编程,每个MPI计算进程在计算过程中碰到关于能群的计算,就生成多个OpenMP线程,计算结点内针对能群进行多线程并行计算。数值测试结果表明,非结构网格上的粒子输运问题的混合并行计算能较好地匹配多核机群系统的硬件结构,具有良好的可扩展性,可以扩展到1024个CPU核。相似文献

13.

基于OpenMP的分子动力学并行算法的性能分析与优化

白明泽程丽豆育升孙世新《计算机应用》2012,32(1):163-166

为提高分子动力学模拟在共享内存式服务器上的计算速度,对基于OpenMP的分子动力学并行算法(Critical方法)进行了性能分析与优化。通过在多核服务器上的测试,以及加速比和并行效率的计算分析了Critical方法的并行性能,进而提出优化的三角形方法。所提方法中每个线程所计算的粒子数固定,且粒子数目呈阶梯状上升,使得各线程能够错时到达临界区。从而使程序在临界区的闲置时间比Critical方法减半,加速比明显提高。相似文献

14.

并行实时测控数据存储系统设计与实现

下载免费PDF全文

何锋曾文王秉钧《计算机工程与应用》2020,56(23):253-258

随着测控设备数量增加、数据码率的不断提高,传统的测控中心实时存储系统采用的串行化处理逻辑已经难以适应高负载的测控任务需要。采用SPMD（Single Program Multiple Data）思想,基于OpenMP和Qt设计并实现了一套并行实时测控数据存储系统框架。该系统通过引入M/M/1模型的排队系统,设计了一种适合并行实时测控数据存储系统的静态负载均衡算法,基于互斥锁完成了线程间的细粒度通信同步机制,借助于事件循环机制将Qt的信号与槽特性成功地嵌入OpenMP线程,保留了Qt图形界面良好的人机交互性能。实验结果表明该系统在高负载的情况下,相比串行测控数据存储系统而言具有更好的扩展性和实时性,能更好地利用现行单机多核系统的计算资源,获得更好的实时性能。相似文献

15.

OpenMDSP: Extending OpenMP to Program Multi-Core DSPs

下载免费PDF全文

何江舟陈文光陈光日郑纬民汤志忠叶寒栋《计算机科学技术学报》2014,29(2):316-331

Abstract Multi-core digital signal processors （DSPs） are widely used in wireless telecommunication, core network transcoding, industrial control, and audio/video processing technologies, among others. In comparison with general-purpose multi-processors, multi-core DSPs normally have a more complex memory hierarchy, such as on-chip core-local memory and non-cache-coherent shared memory. As a result, efficient multi-core DSP applications are very difficult to write. The current approach used to program multi-core DSPs is based on proprietary vendor software development kits （SDKs）, which only provide low-level, non-portable primitives. While it is acceptable to write coarse-grained task-level parallel code with these SDKs, writing fine-grained data parallel code with SDKs is a very tedious and error-prone approach. We believe that it is desirable to possess a high-level and portable parallel programming model for multi-core DSPs. In this paper, we propose OpenMDSP, an extension of OpenMP designed for multi-core DSPs. The goal of OpenMDSP is to fill the gap between the OpenMP memory model and the memory hierarchy of multi-core DSPs. We propose three classes of directives in OpenMDSP, including 1） data placement directives that allow programmers to control the placement of global variables conveniently, 2） distributed array directives that divide a whole array into sections and promote the sections into core-local memory to improve performance, and 3） stream access directives that promote big arrays into core-local memory section by section during parallel loop processing while hiding the latency of data movement by the direct memory access （DMA） of a DSP. We implement the compiler and runtime system for OpenMDSP on PreeScale MSC8156. The benchmarking results show that seven of nine benchmarks achieve a speedup of more than a factor of 5 when using six threads. 相似文献

16.

Interactive high-resolution isosurface ray casting on multicore processors

Wang Q JaJa J 《IEEE transactions on visualization and computer graphics》2008,14(3):603-614

We present a new method for the interactive rendering of isosurfaces using ray casting on multi-core processors. This method consists of a combination of an object-order traversal that coarsely identifies possible candidate 3D data blocks for each small set of contiguous pixels, and an isosurface ray casting strategy tailored for the resulting limited-size lists of candidate 3D data blocks. While static screen partitioning is widely used in the literature, our scheme performs dynamic allocation of groups of ray casting tasks to ensure almost equal loads among the different threads running on multi-cores while maintaining spatial locality. We also make careful use of memory management environment commonly present in multi-core processors. We test our system on a two-processor Clovertown platform, each consisting of a Quad-Core 1.86-GHz Intel Xeon Processor, for a number of widely different benchmarks. The detailed experimental results show that our system is efficient and scalable, and achieves high cache performance and excellent load balancing, resulting in an overall performance that is superior to any of the previous algorithms. In fact, we achieve an interactive isosurface rendering on a 1024(2) screen for all the datasets tested up to the maximum size of the main memory of our platform. 相似文献

17.

Performance Evaluation of Mixed-Mode OpenMP/MPI Implementations

J. Mark Bull James Enright Xu Guo Chris Maynard Fiona Reid 《International journal of parallel programming》2010,38(5-6):396-417

With the current prevalence of multi-core processors in HPC architectures mixed-mode programming, using both MPI and OpenMP in the same application, is seen as an important technique for achieving high levels of scalability. As there are few standard benchmarks written in this paradigm, it is difficult to assess the likely performance of such programs. To help address this, we examine the performance of mixed-mode OpenMP/MPI on a number of popular HPC architectures, using a synthetic benchmark suite and two large-scale applications. We find performance characteristics which differ significantly between implementations, and which highlight possible areas for improvement, especially when multiple OpenMP threads communicate simultaneously via MPI. 相似文献

18.

多核微机基于OpenMP的并行计算

蔡佳佳李名世郑锋《微机发展》2007,17(10):87-91

随着四核微机走向市场和八十核处理器在实验室研制成功,多核正引领软件研发发生基础性变化。开发人员需要在代码中添加线程来利用系统所提供的多个内核,从而提升PC应用软件的功能和性能。文中探讨在多核微机上进行并行计算的实现技术。介绍了共享存储系统并行编程接口OpenMP的模型、指令和库函数,以及Intel C 编译器9.1和Microsoft Visual Studio 2005等对OpenMP的支持;着重探讨了二维离散快速傅里叶变换并行算法的设计、实现与优化技术;展望了高性能并行计算软构件库的开发前景。相似文献