首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
倪鸿  刘鑫 《计算机工程》2019,45(6):45-51
为解决高性能计算中的非结构网格离散访存问题,以神威·太湖之光国产超级计算机为平台,根据异构众核处理器SW26010的体系结构特点,提出一种基于排序思想的通用众核优化算法,以减少非结构网格计算中的随机访存。基于网格划分原理,在O(n)时间内对生成的稀疏矩阵非零元素进行并行重排序。采用一种内部映射方式对计算向量实现扩展或变换,将细粒度访存转化为无写冲突的粗粒度访存。对多个实际应用算例的通量计算进行众核优化,结果表明,相比主核上的串行算法,该算法能够获得平均10倍以上的加速效果。  相似文献   

2.
刘鹏  赵荣彩  赵博  高伟 《计算机科学》2014,41(9):28-31,44
随着多媒体应用的普及和高性能计算的需求,越来越多的处理器集成了SIMD扩展。为了针对不同SIMD扩展部件自动生成高效的向量化代码,设计了一套虚拟向量指令集,在此基础上构建了一种面向SIMD扩展部件的向量化统一架构。将输入程序通过向量识别等阶段转变为虚拟向量指令的中间表示,而后通过向量长度解虚拟化和指令集解虚拟化,将其转变为特定SIMD部件的向量指令集。在申威1600、DSP和Alpha上的实验结果表明:统一架构能够针对3种平台自动变换出高效的向量化代码,在DSP上的加速比要明显优于其它两种平台。  相似文献   

3.
在国产申威高性能多核服务器系统中,基础编译系统对应用程序中访存操作进行代码生成时,没有考虑国产处理器指令特征,导致编译器生成的访存地址计算代码效率较低,影响国产高性能处理器的性能。为充分发挥国产处理器高性能计算能力,提出一种加速访存地址计算的编译优化方法。加速访存地址计算编译优化基于处理器支持带扩展因子的运算指令,在编译器后端内存地址表达式合法性检查中,添加针对乘加模式的地址计算表达式合法性检查算法,自动识别地址表达式中存在的乘加运算并进行合法性检验,对符合条件的地址表达式在代码生成阶段匹配生成带扩展因子的运算指令来快速计算访存地址,从而加快访存指令的发射与执行以及应用程序中的访存地址生成,提升访存效率。使用行业标准性能测试集SPEC CPU2006对优化效果进行评测,结果表明,相比优化前SPECspeed Integer与SPECspeed Float Point两个子集,该优化方法平均性能分别提高了2.53%与1.50%。  相似文献   

4.
SIMD技术与向量数学库研究   总被引:2,自引:0,他引:2  
首先,结合Intel, AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Celll SDK函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10。最后,通过测试结果的对比,发现不同数学库中的向量函数之间在性能方面也存在着差异,并对差异原因进行了分析,得出性能差异主要是处理器架构和向量计算单元个数和访存等因素造成的。  相似文献   

5.
异构众核架构具有超高的能效比, 已成为超级计算机体系结构的重要发展方向. 然而, 异构系统的复杂性给应用开发和优化提出了更高要求, 其在发展过程中面临好用性和可编程性等众多技术挑战. 我国自主研制的神威新一代超级计算机采用了国产申威异构众核处理器SW26010Pro. 为了发挥新一代众核处理器的性能优势, 支撑新兴科学计算应用的开发和优化, 设计并实现面向SW26010Pro平台的优化编译器swLLVM. 该编译器支持Athread和SDAA双模态异构编程模型, 提供多级存储层次描述及向量操作扩展, 并且针对SW26010Pro架构特点实现控制流向量化、基于代价的节点合并以及针对多级存储层次的编译优化. 测试结果表明, 所设计并实现的编译优化效果显著, 其中, 控制流向量化和节点合并优化的平均加速比分别为1.23和1.11, 而访存相关优化最高可获得2.49倍的性能提升. 最后, 使用SPEC CPU2006标准测试集从多个维度对swLLVM进行了综合评估, 相较于SWGCC的相同优化级别, swLLVM整型课题性能平均下降0.12%, 浮点型课题性能平均提升9.04%, 整体性能平均提升5.25%, 编译速度平均提升79.1%, 代码尺寸平均减少1.15%.  相似文献   

6.
刘芳芳  杨超  袁欣辉  吴长茂  敖玉龙 《软件学报》2018,29(12):3921-3932
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%.  相似文献   

7.
一种SIMD优化中的向量寄存器部分重用方法   总被引:1,自引:0,他引:1       下载免费PDF全文
SIMD架构用于多媒体加速,已经广泛应用于现代通用处理器中.SIMD架构的数据并行性可大大提高处理器的运算能力,但由于存储系统的速度远远不能与其匹配,使得应用程序的性能很难获得进一步的提高.因此,本文基于SIMD架构的访存特性,提出了一种向量寄存器部分重用的方法,以提高访存效率;并给出了相应的程序转换算法,通过数据相关性的分
分析,在应用程序向量化时,生成采用向量寄存器部分重用的优化代码.实验结果说明,该算法对多媒体应用程序的性能有显著的提高.  相似文献   

8.
求解全源最短路径的Floyd算法是许多实际应用基础上的关键构建块,由于其时间复杂度较高,串行Floyd算法不适用于大规模输入图计算,针对不同平台的并行Floyd算法设计可为解决现实问题提供有效帮助.针对Floyd算法与国产自主研发处理器匹配滞后的问题,首次提出基于神威平台的Floyd并行算法的实现和优化.根据SW26010处理器主-从核架构的特点,采用主从加速编程模型进行并行实现,并分析了影响该算法性能的关键因素,通过算法优化、数组划分和双缓冲技术进行优化,逐步提升算法性能.测试结果表明,与主核上串行算法相比,基于神威平台的Floyd并行算法在单个SW26010处理器上可以获得106倍的最高加速.  相似文献   

9.
BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2级函数的访存带宽利用率.实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%,平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%,平均可达80%以上.与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用...  相似文献   

10.
作为SIMD扩展部件向量化的重要手段,自动向量化已在LLVM编译器中得到实现,但向量长度以及指令集功能的差异,导致国产平台在自动向量化过程中容易错失向量化机会以及向量化后产生倒加速的问题。为使SIMD得到充分应用,结合国产平台的指令集特征完善指令代价信息以提高收益分析精准度,使其在自动向量化后生成后端支持且简洁高效的向量指令。在此基础上,提出一种改进的控制流向量化方法,通过添加指令代价信息提高自动向量化的适配能力,从而形成一套面向国产平台的LLVM自动向量化系统。实验结果表明,相比自动向量化移植前,通过该方法进行移植优化后,SPEC测试的整体性能提升10.8%,TSVC测试集中的加速比提升16%,精准代价指导下的加速比提升42%,控制流向量化下的加速比提升51%。  相似文献   

11.
目的:解决在FLASH中导入声音的问题.方法:对FLASH不支持的声音格式采取音频压缩的方法.结果:可成功将压缩后的声音文件导入到FLASH中.结论:在FLASH中使用声音可以使FLASH动画具有良好的动画效果.  相似文献   

12.
刘伟 《微计算机信息》2006,22(16):212-213
本文对于金属切削这一生产过程中所出现的不稳定问题,利用频率特性法中的奈氏判据,对其进行分析,从而找出消除自激振荡和达到切削过程绝对稳定的条件  相似文献   

13.
14.
 The paper questions the ability of current university systems to respond appropriately to the complex demands of an Information Economy. It argues that new relationships between creative subjects and technology require new thinking about the nature and purpose of universities per se. In particular, attention is drawn to the growing involvement of the private sector in higher education. It is argued that it may not be appropriate to think of the `university of the future' in terms of current public sector and quasi public sector institutions, but rather in terms of an emporium, based on an international trade in educational services, and with the `University' as we now understand it occupying the functions of licensing, quality assurance and cultural custodianship. Accepted: 25 June 2002  相似文献   

15.
虚拟化技术是当今服务器技术的一个主流方向,也是一项在计算机领域具有革命性意义的技术.作为x86架构体系下虚拟化技术的领军者-VMware,在技术上有其独到之处.研究VMware的技术与应用,对探知其优秀的技术特点,了解其成熟的产品体系有着现实意义.  相似文献   

16.
人体测量学并不是现代社会的产物。有着很长发展历史的人体比例理论中就包含了现代人体测量学的基本内容,尽管其还不够系统完整,但至少说明了在艺术创作中诞生的人体比例理论对现代人体测量学的影响。并随着时间的推移而不断的完善发展,为现代人体测量学的系统提出奠定了坚实的基础。  相似文献   

17.
为了提升变压器绕组变形判别精度,研究了表征绕组特征的参数与绕组变形关系的仿真方法.利用有限元方法建立表征绕组特征的参数与绕组变形关系的双绕组、同芯式变压器漏磁场模型,通过二维泊松方程混合边值的有限元解分析变压器绕组漏磁场,利用最小二乘算法基于所建立变压器漏磁场模型辨识可表征绕组特征的漏电感参数,通过所获取漏电感值与实际...  相似文献   

18.
All titanium alloys are highly reactive in the molten condition and so are usually melted in a water-cooled copper crucible to avoid contamination using processes such as Induction Skull Melting (ISM). These provide only limited superheat which, coupled with the surface turbulence inherent in most conventional mould filling processes, results in entrainment defects such as bubbles in the castings. To overcome these problems, a novel tilt-casting process has been developed in which the mould is attached directly to the ISM crucible holding the melt and the two are then rotated together to achieve a tranquil transfer of the metal into the mould. From the modelling point of view, this process involves complex three-phase flow, heat transfer and solidification. In this paper, the development of a numerical model of the tilt-casting process is presented featuring several novel algorithm developments introduced into a general CFD package (PHYSICA) to model the complex dynamic interaction of the liquid metal and melting atmosphere. These developments relate to the front tracking and heat transfer representations and to a casting-specific adaptation of the turbulence model to account for an advancing solid front. Calculations have been performed for a 0.4 m long turbine blade cast in a titanium aluminide alloy using different mould designs. It is shown that the feeder/basin configuration has a crucial influence on the casting quality. The computational results are validated against actual castings and are used to support an experimental programme. Although fluid flow and heat transfer are inseparable in a casting, the emphasis in this paper will be on the fluid dynamics of mould filling and its influence on cast quality rather than heat transfer and solidification which has been reported elsewhere.  相似文献   

19.
每一种媒体都有自身的长处,对某种特定的教学和学习有效。同样,每种媒体又不可避免地存在局限性,不利于某些教学和学习。因此,多媒体不是一种全能的媒体,也不可能代替传统媒体。现代媒体与传统媒体在教学中应相互补充,取长补短,相得益彰。  相似文献   

20.
每一种媒体部有自身的长处,对某种特定的教学和学习有效。同样,每种媒体又不可避免地存在局限性,不利于某些教学和学习。因此,多媒体不是一种全能的媒体,也不可能代替传统媒体。现代媒体与传统媒体在教学中应相互补充,取长补短,相得益彰。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号