共查询到20条相似文献,搜索用时 15 毫秒
1.
深入分析了飞腾处理器FT 1500A与商用处理器Intel XEON在性能上的差异。在微基准测试层面,评测了两个平台能够达到的最大可获得性能(浮点性能、访存延迟和访存带宽)。在应用层面,选取一个典型的海洋预报数值模拟软件,研究了如何将一个开源代码移植到飞腾处理器和商用处理器上,探讨了该软件在两个平台上的单核性能与多核性能,分析了性能差异的原因并提出了相应的优化建议。认为FT 1500A已经有良好的生态基础(操作系统、编译器和工具链),使得移植典型科学计算程序简单可行,虽然跟商用平台相比,飞腾处理器在性能上存在着差距,但考虑到其在功耗上的优势,飞腾处理器将是一个非常具有应用前景的平台。 相似文献
2.
首先介绍了SIMD扩展技术,并分析了使用SIMD扩展的3种方式,认为通过调用特定目标平台优化的第三方库是应用领域软件开发者快速开发高效并行程序的较好的方式;其次,介绍了国产神威处理器SW-1600平台,并利用SIMD扩展和循环展开等技术开发了SW-VML(SW Vector Math Library),开发过程中提出了访存对界、简化向量条件分支的优化方法,解决了非对界访存、向量与标量数组转换影响性能的问题,并根据SW编译器对OpenMP的支持,开发了多线程OpenMp版;最后,在SW-1600平台上采用不同向量规模对SW-VML进行了测试,测试结果显示,SIMD向量化相对于串行程序加速比为2.08,4线程相对单线程平均加速比为2.26.SW-VML是在国产神威系列处理器上开发高效程序的向量函数软件包,也是在神威蓝光高性能计算平台单计算节点开发高性能程序的基础软件工具包. 相似文献
3.
4.
随着飞腾处理器性能的提升,原来的网络驱动已经不能满足其需求,急需设计和实现一款针对当前处理器的特性,能最大程度发挥其性能的网络驱动。通过研究飞腾处理器网络控制器相关的硬件原理以及linux下驱动框架的知识,设计和实现飞腾处理器中网络控制器的驱动,并对其进行了优化,使其达到了千兆网卡的使用需求。 相似文献
5.
飞腾1500A处理器性能分析工具Likwid研究 总被引:1,自引:0,他引:1
在飞腾1500A处理器平台对程序性能分析工具Likwid展开研究,主要研究了飞腾1500A处理器硬件拓扑信息的获取、性能监测单元PMU的访问以及性能分析工具的使用和数据分析。通过hwloc获取飞腾1500A处理器的硬件信息,给程序员提供关于飞腾1500A处理器的拓扑结构及相关概要信息;编写内核驱动模块使能飞腾1500A处理器的性能监控单元,指定事件类型,通过对应硬件计数器记录目标程序执行过程中事件发生的次数;结合简单代码和模板化的微基准测试程序,使用性能分析工具收集程序执行过程中相关数据,进行性能分析。 相似文献
6.
7.
作为基本的数学运算,三角函数的高性能实现对构建处理器的基础软件生态具有重要意义,特别是当前处理器都采用了SIMD架构,基于SIMD实现高性能三角函数具有重要的研究意义和应用价值.对此,文中采用数值分析的方法,对5个常用的三角函数sin,cos,tan,atan,atan2进行了高性能的实现与优化.首先通过分析浮点数IEEE754标准,设计了高效的三角函数算法;然后通过多项式逼近算法中的泰勒公式、帕德近似及雷米兹算法提升了算法精度;最后利用指令流水线与SIMD优化进一步提升了算法性能.实验结果表明,在满足精度的前提下,所实现的三角函数,相较于libm算法库和ARM_M算法库,在ARM V8计算平台上都获得了较大的性能提升,其中相比libm算法库有1.77~6.26倍的时间性能提升,相比ARM_M算法库有1.34~1.5倍的时间性能提升. 相似文献
8.
本文讨论了将油藏数值模拟中某大型FORTRAN程序(RSP)在向量机KJ89 20上做向量化时所使用的若干技巧.文中首次分析了一类对称型语句间的伪依赖性,提出了引入临时数组的实用方案,并讨论了向量化逻辑IF和转移语句等技巧. 相似文献
9.
10.
基于目前国产处理器的瘦客户机整机功耗相对较高,利用常用的无风扇散热的被动散热方式在整机散热性能方面稍显不足,尤其是存在散热死区,从而设计了一种基于飞腾四核处理器的瘦客户机。该瘦客户机采用双散热模组设计,采用4个进风道和2个出风道设计,使得机体内部无散热死区,实现整机超强的散热性能。温度测试数据表明:在25℃环境中,机器满负荷工况运行时,机体内各测试点的温度均在52℃以内,满足所有元器件的工作温度要求;同时,机器箱体外表面温度低于36℃,用户体验感良好。 相似文献
11.
12.
为研究SIMD在嵌入式领域中对处理器性能的提升效果,选择一种并行化程度较高的图像处理算法Yolov3进行SIMD向量化移植.根据开源指令集RISC-V扩展指令集中的V(Vector)指令集修改Yolov3算法的代码,将其部署到优矽科技自研的WH64处理器的VPU(Vector Processor Unit)中验证;结合Amdahl定律和Yolov3自测程序评估SIMD算法提升的性能.实验结果表明,在Xilinx的Kintex7板上以50 MHz主频运行,在向量化算法占比90%以上时,SIMD处理过后的代码程序达到了标量计算2.25x的加速比. 相似文献
13.
14.
BLAS (Basic Linear Algebra Subprograms)是一个基本线性代数操作的数学函数标准, 该库函数分为三个级别, 每个级别提供了向量与向量(1级)、向量与矩阵(2级)、向量与向量(三级)之间的基本运算. 本文研究了在申威1621处理器上BLAS一级函数的优化方案, 以函数AXPY为例, 充分... 相似文献
15.
为推广和提升国产软硬件平台的视频解码技术,本文基于飞腾处理器、JM7200GPU、银河麒麟系统的国产软硬件平台研究分析了视频解码技术。实验结果表明,与纯软件的解码方式相比,使用JM7200进行视频硬解码可有效降低CPU占用率。 相似文献
16.
SIMD技术与向量数学库研究 总被引:2,自引:0,他引:2
首先,结合Intel, AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Celll SDK函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10。最后,通过测试结果的对比,发现不同数学库中的向量函数之间在性能方面也存在着差异,并对差异原因进行了分析,得出性能差异主要是处理器架构和向量计算单元个数和访存等因素造成的。 相似文献
17.
18.
19.
Imagine是一款致力于媒体处理的流体系结构芯片,而它是否适合科学计算应用是当前国际上的热点讨论问题。本文研究了典型科学计算核心--矩阵向量乘在Imagine处理器 上的有效映射,主要开发了四种不同的流程序版本,并且提出了优化方法。实验结果表明,经过优化的矩阵向量乘程序能够开发Imagine处理器的潜能。 相似文献
20.
SIMD架构用于多媒体加速,已经广泛应用于现代通用处理器中.SIMD架构的数据并行性可大大提高处理器的运算能力,但由于存储系统的速度远远不能与其匹配,使得应用程序的性能很难获得进一步的提高.因此,本文基于SIMD架构的访存特性,提出了一种向量寄存器部分重用的方法,以提高访存效率;并给出了相应的程序转换算法,通过数据相关性的分
分析,在应用程序向量化时,生成采用向量寄存器部分重用的优化代码.实验结果说明,该算法对多媒体应用程序的性能有显著的提高. 相似文献
分析,在应用程序向量化时,生成采用向量寄存器部分重用的优化代码.实验结果说明,该算法对多媒体应用程序的性能有显著的提高. 相似文献