首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
从单机性能优化角度对一个高阶精度结构网格CFI)并行程序进行了优化。通过识别关键变量并对其进行 常量参数化优化,使编译器能够实现更高级别的针对性优化;根据程序数据结构特点及访问模式,设计了分级数据缓 存技术,使程序主要计算代码能够以更优的方式访问主要数据结构,提高了访存空间局部性;进行了各种循环变换,以 优化访存性能。在国家超算长沙中心“`Tianhe—lA',并行机上的测试结果表明,相对于采用Intel编译器最高优化级别 的版本,其对10。万网格点二维翼型算例,串行程序性能提高约22.2%-28.9%;对1. 12亿网格点三角翼算例,并行 程序性能提高约13.9%-20.2%。  相似文献   

2.
基于种群迭代搜索的智能优化算法在农业、交通、工业等很多领域都取得了广泛的应用.但是该类算法迭代寻优的特点使其求解效率通常较低,很难应用到大规模、高维或实时性要求较高的复杂优化问题中.随并行分布式技术的发展,国内外很多学者开始着手研究智能优化算法的并行化.本文首要介绍了并行智能优化算法的基本概念;其次从协同机制、并行模型以及硬件结构3个维度综述了几类常见的并行智能优化算法,详细分析阐述了它们优点及不足;最后对并行智能优化算法的未来研究进行了展望.  相似文献   

3.
近年来,卷积神经网络在许多领域中发挥着越来越重要的作用,然而功耗和速度是限制其应用的主要因素.为了克服其限制因素,设计一种基于FPGA平台的卷积神经网络并行加速器,以Ultra96-V2为实验开发平台,而且卷积神经网络计算IP核的设计实现采用了高级设计综合工具,使用Vivado开发工具完成了基于FPGA的卷积神经网络加...  相似文献   

4.
Halo-based Galaxy Group Finder (HGGF) 是一种有效的星系分组算法,它根据星系的空间位置、红移、质量等多种属性将星系分组,从而为星系组的形成与演化研究提供重要依据。但是,算法当前的OpenMP实现版本仅能利用单节点提供的资源,在大规模星系分组问题上的应用受到限制。一种优化思路是采用多机并行,使其可以利用更多资源来解决更大规模的星系分组问题,并缩短执行时间。因此,有必要对算法重新进行设计与实现。实现此目标的一大挑战是程序中存在大量半随机性远端内存访问,其在多机并行环境下会对性能造成重大影响。为克服这一难题,设计中提出了邻接星系链表思想,并采用Unified Parallel C (UPC)进行程序实现。对于核代码部分,使用4,8,16节点时,可分别取得2.25,2.78,5.07倍的加速比;同时,对单个节点的内存需求也显著减少。OpenMP版本在SGI UV 2000上的实验结果显示,受限于程序的访存特性与机器体系架构的特点,类似HGGF算法这种具有随机数据访问特征的程序,很难有效利用NUMA结构的共享内存系统中提供的大规模线程与内存资源来直接取得高加速比。在分布式内存集群上采用两级并行设计,以更好地利用局部性原理,可能是更好的解决方案。  相似文献   

5.
针对现代优化算法在处理相对复杂问题中所面临的求解时间复杂度较高的问题,引入基于GPU的并行处理解决方法。首先从宏观角度阐释了基于计算统一设备架构CUDA的并行编程模型,然后在GPU环境下给出了基于CUDA架构的5种典型现代优化算法(模拟退火算法、禁忌搜索算法、遗传算法、粒子群算法以及人工神经网络)的并行实现过程。通过对比分析在不同环境下测试的实验案例统计结果,指出基于GPU的单指令多线程并行优化策略的优势及其未来发展趋势。  相似文献   

6.
陈风  田雨波  杨敏 《计算机科学》2014,41(9):263-268
应用图形处理器(GPU)来加速粒子群优化(PSO)算法并行计算时,为突出其加速性能,经常有文献以恶化CPU端PSO算法性能为代价。为了科学比较GPU-PSO算法和CPU-PSO算法的性能,提出用"有效加速比"作为算法的性能指标。文中给出的评价方法不需要CPU和GPU端粒子数相同,将GPU并行算法与最优CPU串行算法的性能作比较,以加速收敛到目标精度为准则,在统一计算设备架构(CUDA)下对多个基准测试函数进行了数值仿真实验。结果表明,在GPU上大幅增加粒子数能够加速PSO算法收敛到目标精度,与CPU-PSO相比,获得了10倍以上的"有效加速比"。  相似文献   

7.
基于CUDA的并行粒子群优化算法的设计与实现   总被引:1,自引:0,他引:1  
针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题, 进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析, 结合目前被广泛使用的基于GPU的并行计算技术, 设计实现了一种并行PSO方法。本方法的执行基于统一计算架构(CUDA), 使用大量的GPU线程并行处理各个粒子的搜索过程来加速整个粒子群的收敛速度。程序充分使用CUDA自带的各种数学计算库, 从而保证了程序的稳定性和易写性。通过对多个基准优化测试函数的求解证明, 相对于基于CPU的串行计算方法, 在求解收敛性一致的前提下, 基于CUDA架构的并行PSO求解方法可以取得高达90倍的计算加速比。  相似文献   

8.
高性能计算(high performance computing, HPC)是推动科学技术发展的基础性领域之一,当前,作为超级计算机系统“下一个明珠”的E级高性能计算时代已经来临.面向E级高性能计算的加速器领域成为了全球高端芯片的竞技场.国际上,AMD、英伟达和英特尔公司已经占据这一领域多年.作为国内最早开始自主处理器设计的优势单位之一,国防科技大学一直以来都是高性能加速器领域强有力的竞争者.主要对国防科技大学自主设计的面向E级高性能计算的加速器芯片进行介绍,该芯片采用了CPU+GPDSP的异构融合架构,具备高性能、高效能和高可编程性的特点,有望成为新一代E级超算系统的核心计算芯片.  相似文献   

9.
随着算力需求的增长,各种国产异构计算设备不断出现,这些设备都有其专用的编程模型,开发者需要根据不同设备的架构特点在专用的编程模型上进行开发,导致开发出的代码在设备间不具有可移植性。近年来国外已经出现了支持多种计算设备的统一异构并行编程模型,但针对国产设备的异构编程模型的研究和实现还比较少。针对该问题,开发了一套性能可移植的异构编程模型ParM。该编程模型以C++库的形式提供,屏蔽了大量的底层实现细节,降低了并行编程难度。该编程框架目前支持的后端设备有x86 CPU、NVIDIA GPU、华为鲲鹏处理器和华为昇腾AI处理器,并且对各种后端设备进行了性能优化。在各种设备上的性能测试表明,ParM编程模型的性能可以达到原始代码的90%以上。  相似文献   

10.
董文永  李元香 《计算机学报》2002,25(11):1236-1242
由于仿真对象的复杂性,一些仿真模型很难用有效的解析函数来表达,同时演化算法不要求优化目标具有连续,可导等特点,因此,演化算法用于仿真优化具有很大的优越性,针对仿真优化这一领域提出了演化仿真优化的概念及其形式化语言描述,并给出了演化仿真优化的算法实现框架,演化仿真优化的模型评估需要大量的计算时间,根据仿真优化的特点,提出主/从模式,粗粒度孤岛仿真优化模型及它在PVM,DCOM下的实现,并给出了两个控制器优化设计的实验,仿真试验的结果表明:对于演化仿真优化来说主/从模式的并行度要高于粗粒度孤岛模型,并得出以下结论,对于演化仿真优化来说仿真模型越复杂,主/从模式的性能越好。  相似文献   

11.
基于多区结构网格的计算流体力学方法,在并行处理的难点是多个网格数据块在计算资源上的高效合理分配,以实现大规模并行环境下的负载平衡。本文围绕负载平衡问题,介绍了 CCFD 软件开展的一些工作,包括:1. 面向结构网格的双层图剖分策略,通过细层图剖分环节考虑计算量和通信量的负载平衡;2. 建立可细分的重叠网格体系,并基于该体系建立了重叠网格系统的双级负载平衡模型。算例验证表明,所采用的负载平衡策略在大规模并行环境下能获得较高并行效率。  相似文献   

12.
针对模拟退火(simulated annealing,SA)算法收敛速度慢,随机采样策略缺乏记忆能力,算法内在的串行性使其具有并行化问题依赖等缺点,提出了基于粒子群优化(particle swarm optimization,PSO)算法的并行模拟退火算法。该算法利用粒子群优化算法中个体的记忆功能引导算法在解空间中开展精细搜索,在反向学习算法基础上设计新的反向转动操作机制增加了算法的多样性,借助PSO的天然并行性克服了SA的并行问题依赖性,并在集群上实现了多Agent协同进化的改进算法。对Toy模型的蛋白质结构预测问题进行了仿真实验,结果表明该算法能有效提高求解问题的质量和效率。  相似文献   

13.
针对并行处理的热点问题,本文介绍了面向CFD的程序自动并行化工具APFC。APFC实现了数组共享变量的识别和相关性分析,能够自动搜索帧内同步和通信点,并自动生成并行划分后的节点源程序。经APFC处理的程序有很好的可移植性和较高的并行效率。  相似文献   

14.
15.
单颗粒冷冻电镜是结构生物学研究的重要手段之一,基于贝叶斯理论的冷冻电镜3维图像数据处理软件RELION(regularized likelihood optimization)具有很好的性能和易用性,受到广泛关注.然而其计算需求极大,限制了RELION的应用.针对RELION算法的特点,研究了基于GPU 的并行优化问题.首先全面分析了RELION的原理、RELION程序的算法结构及性能瓶颈;在此基础上,针对GPU细粒度体系结构对程序进行优化设计,提出了基于GPU的多级并型模型.为了获得良好的性能,对RELION的数据结构进行重组.为了避免GPU存储空间不足的问题,设计了自适应并行框架.实验结果表明:基于GPU的RELION实现可以获得良好的性能,相比于单CPU,整个应用的加速比超过36倍,计算密集型算法的加速比达到75倍以上.在多GPU上的测试结果表明基于GPU的RELION具有很好的可扩展性.  相似文献   

16.
17.
现代高能物理研究需要使用高能量的粒子加速器,加速器束流动力学模拟软件具有重要的实用意义. 介绍了一个3维基于MIC的异构直线加速器并行束流动力学模拟软件NEWBEAM-MIC的开发进展. 目的是使用最新的超级异构计算机提高束流动力学模拟软件的性能,更好地完成加速器的设计和优化工作. 这个软件模拟了DTL和SOLENOID加速器装置中粒子的运动过程. NEWBEAM-MIC是在NEWBEAM-CPU软件基础上,将粒子推进部分分配到MIC卡上运行,从而利用MIC多线程的优势使计算加速的. 通过实际测试,这个软件在天河二号上使用100 CPUs和100 MICs可以模拟109个粒子,其中DTL场力计算、SOLENOID场力计算和粒子推进三个部分均可以比仅使用100 CPUs的NEWBEAM软件有100倍以上的加速效果. 再考虑MIC卡上的多线程,对同样规模的粒子,使用100 CPUs 和 100 MICs,当MIC线程数开到最大(224)时,NEWBEAM-MIC可以比单线程串行计算方式加速10000倍以上. 这表明本文开发的基于MIC的异构软件可以很好地加速原有的CPU软件,发挥现有MIC异构超级计算机的潜在性能.  相似文献   

18.
并行计算是相对于串行计算而言的,它是将一个计算任务分解成若干相对独立的子任务,然后用若干个处理器对其并行求解。使用并行计算最直接的目的就是提高问题的求解速度以快速完成原问题的解。非数值计算是相对数值计算而言的,它研究的是如何将计算科学中一些不能直接使用数学函数解决的问题并行求解。90年代开始,我带领团队系统地开展了此方面的研究,首先是奠定了所需的理论基础,并逐渐形成了完善的学科体系和应用示范。在此过程中,我们还积极倡导交叉学科研究,及时关注学科前沿技术,并且坚持学术研究要服务于国民经济主战场。在整个研究过程中,我们一方面积极开展国际学术交流,创办国际学术会议和专业期刊;另一方面坚持自力更生,研制自主可控的国产高性能计算机,创建科教平台为普及中国高性能计算机教育服务。  相似文献   

19.
Blue Ridge Numerics公司始创于1992年,多年来一直致力于开发一种让所有设计者和工程师都能够方便地学习、使用的计算流体软件。其出品的CFDesign软件功能强大、简便易学,可以与用户原来拥有的多种CAD建模软件配合使用,在北美、欧洲、亚洲拥有众多的客户。一、软件特点1.建模及网格CFDesign可以对各种CAD软件建立的模型进行数值模拟,这些软件包括Inventor、Pro/ENGINEER、SolidWorks、Solid Edge、UG和其他建立在ACIS或Parasolid核心基础上的CAD软件。对于内流问题,用户可以将CAD模型直接输入CFDesign作为计算域。对于外…  相似文献   

20.
一、项目背景 庞巴迪(Bombardier)公司是加拿大的国际性交通运输设备制造公司,从支线飞机、公务机到完整的铁路、轨道交通运输设备、系统和服务等创新交通运输解决方案的制造方面,均居世界领导地位.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号