共查询到20条相似文献,搜索用时 78 毫秒
1.
通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一种基于申威1621的通用矩阵向量乘法的性能分析与优化方法。首先对GEMV函数进行计算重排序、循环分块的改进;然后采取单指令多数据流(SIMD)以及指令重排的优化方式;最后对内存分配方式进行择优选择。测试结果表明,GEMV函数平均性能达到GotoBLAS版的2.17倍。在使用堆栈分配内存空间或增加对y向量步长的判断分支两种方案后,相较于GotoBLAS,小规模矩阵的平均性能由2.265倍提升至2.875倍。为提高大规模矩阵的性能,以及发挥申威1621多核处理器并行机制,在开启4线程后,平均性能达到单核的3.57倍。因此,优化后的GEMV函数在申威平台上较好的体现了并行效果。 相似文献
2.
首先介绍了SIMD扩展技术,并分析了使用SIMD扩展的3种方式,认为通过调用特定目标平台优化的第三方库是应用领域软件开发者快速开发高效并行程序的较好的方式;其次,介绍了国产神威处理器SW-1600平台,并利用SIMD扩展和循环展开等技术开发了SW-VML(SW Vector Math Library),开发过程中提出了访存对界、简化向量条件分支的优化方法,解决了非对界访存、向量与标量数组转换影响性能的问题,并根据SW编译器对OpenMP的支持,开发了多线程OpenMp版;最后,在SW-1600平台上采用不同向量规模对SW-VML进行了测试,测试结果显示,SIMD向量化相对于串行程序加速比为2.08,4线程相对单线程平均加速比为2.26.SW-VML是在国产神威系列处理器上开发高效程序的向量函数软件包,也是在神威蓝光高性能计算平台单计算节点开发高性能程序的基础软件工具包. 相似文献
3.
4.
稠密矩阵乘法(GEMM)是很多科学与工程计算应用中大量使用的函数,也是很多代数函数库中的基础函数,其性能高低对整个应用往往有决定性的影响.另外,因其计算密集的特点,矩阵乘法效率往往也是体现硬件平台性能的重要指标.针对国产申威1621处理器,对稠密矩阵乘法进行了系统性地优化.基于对各部分开销的分析,以及对体系结构特点与指令集的充分利用,对DGEMM函数从循环与分块方案,打包方式,核心计算函数实现,数据预取等方面进行了深入优化.此外,开发了代码生成器,为不同的输入参数生成不同版本的汇编代码和C语言代码,配合自动调优脚本,选取最佳参数.经过优化和调优,单线程DGEMM性能达到了单核浮点峰值性能的85%,16线程DGEMM性能达到16核浮点峰值性能的80%.对DGEMM函数的优化不仅提高了申威1621平台BLAS函数库性能,也为国产申威系列多核处理器上稠密数据计算优化提供了重要参考. 相似文献
5.
随着多媒体应用的普及和高性能计算的需求,越来越多的处理器集成了SIMD扩展。为了针对不同SIMD扩展部件自动生成高效的向量化代码,设计了一套虚拟向量指令集,在此基础上构建了一种面向SIMD扩展部件的向量化统一架构。将输入程序通过向量识别等阶段转变为虚拟向量指令的中间表示,而后通过向量长度解虚拟化和指令集解虚拟化,将其转变为特定SIMD部件的向量指令集。在申威1600、DSP和Alpha上的实验结果表明:统一架构能够针对3种平台自动变换出高效的向量化代码,在DSP上的加速比要明显优于其它两种平台。 相似文献
6.
7.
当前面向单指令多数据(SIMD)扩展部件的两类向量化方法分别是循环级向量化方法和超字级并行(SLP)方法。针对当前编译器不能实现函数级向量化的问题,提出一种基于静态单赋值的函数级向量化方法。该方法首先分析程序的变量属性,然后利用一组包括向量函数子句、一致子句、线性子句等编译指示子句指导编译器实现函数级向量化,最后利用变量属性结果对向量化代码进行了优化。从多媒体和图像处理领域选择部分测试用例对所提的函数级向量化的功能和性能在国产申威平台上进行测试,与程序串行执行相比,采用函数级向量化后程序的执行效率更高。实验结果表明函数级向量化可以取得类似任务级并行的加速效果,该方法可以指导自动函数级向量化的实现。 相似文献
8.
低精度浮点数常用于深度学习加速,目前申威平台缺乏对低精度浮点数的支持,数学库的设计往往需要结合数据类型与处理器特点定制算法才能发挥出最大优势,旨在为申威1621平台设计一套支持半精度计算的超越函数。通过分析各类浮点数特性,结合申威1621的结构特点提出一种基于回乘取余查表算法。首先,对函数的定义域进行归约,生成精简的数据表;然后将回乘取余后的数值按照sign、exponent、mantissa三部分拆分计算索引;最后,查表返回结果。测试结果表明,使用回乘取余查表算法实现的半精度超越函数,相较于基于多项式近似、移位相加等算法的申威数学库及GLIBC开源数学库,性能分别提升了116%和215%。在精度需求不高的应用中既保证了正确性又大幅度提升了数学函数计算效率。 相似文献
9.
BLAS (Basic Linear Algebra Subprograms)是一个以向量和矩阵为操作对象的基础函数库.该库中函数分为3个级别,各个级别分别提供了向量-向量(1级)、向量-矩阵(2级)、矩阵-矩阵(3级)之间的基本运算.本文研究如何在申威众核处理器上BLAS-1、2级函数的并行实现,并充分利用平台特性对它们进行深度的性能调优,归纳总结程序在申威平台上的并行实现与优化技巧.申威26010 CPU采用了异构众核架构,众多计算核心提供的大规模并行处理能力,使单块芯片具有3 TFLOPS的双精度浮点计算性能.实验结果显示BLAS-1、2级函数相对于GotoBLAS参考实现版的平均加速比分别高达11.x和6.x,对于每一优化手段,均有明显的性能加速. 相似文献
10.
基础数学函数库是高性能计算机中最基础、最核心的底层软件之一, 它的性能直接决定了上层计算程序的运行效率. 现版本的国产申威基础数学库中部分函数使用rfpcr和wfpcr指令导致流水线中断, 降低了函数的性能.针对这个问题, 本文结合函数的功能和指令特性, 提出指令段功能等效替换方法. 实验表明, 运用该方法, 使得函数性能平均提高27.83%. 相似文献
11.
基于JSP分页技术的研究 总被引:1,自引:0,他引:1
电子商务应用中的数据量往往非常大,甚至会达到几十万到几千万条记录的规模,将如此大量的数据显示在一个页面里困难大、效率低。在这种情况下就需要采用分页显示技术将数据库中符合条件的数据逐页显示给用户。对JSP分页技术进行比较,在分析JSP分页技术特点的基础上,提出一种有效的分页解决方案,同时对分页技术的优化进行阐述。 相似文献
12.
13.
14.
研究《伤寒论》中命名实体的识别方法,助力张仲景《伤寒论》不同版本文本的深度挖掘,有助于传承中医文化.该文尝试构建ALBERT-BiLSTM-CRF模型,提取《伤寒论》中疾病、证候、症状、处方、药物等实体,并与BiLSTM-CRF模型和BERT-BiLSTM-CRF模型进行对比.五次实验ALBERT-BiLSTM-CRF模型三个评价指标准确率(P),召回率(R)和F1-测度值(F1-score)的平均值分别为85.37%,86.84%和86.02%,相较于BiLSTM-CRF模型和BERT-BiLSTM-CRF模型F1-score分别提升了6%和3%.实验表明相比BiLSTM-CRF和BERT-BiLSTM-CRF模型,ALBERT-BiLSTM-CRF模型在基于《伤寒论》的实体识别任务中效果最好,更适用于中文古籍的知识挖掘. 相似文献
15.
16.
E1astos是具有中国自主知识产权的面向服务的新型嵌入式网络操作系统。目前主要用嵌入式设备,多款基于Elastos的3G手机已经面世.一款基于Elastos的电子书也即将进入量产。本文提出了基于Elastos的Content Provider,这是一种易于使用和扩展的应用程序数据访问模式.解决了在需求多变的市场背景下,手机应用程序如何方便的访问数据的问题。 相似文献
17.
Elastos是具有中国自主知识产权的面向服务的新型嵌入式网络操作系统。目前主要用嵌入式设备,多款基于Elastos的3G手机已经面世,一款基于Elastos的电子书也即将进入量产。本文提出了基于Elastos的ContentProvider,这是一种易于使用和扩展的应用程序数据访问模式,解决了在需求多变的市场背景下,手机应用程序如何方便的访问数据的问题。 相似文献
18.
19.
随着Internet和电子商务的发展,信息安全越来越得到业界的重视,其中网络操作系统的安全更是系统安全的基础.本文从计算机安全性的角度出发,着重讨论了Windows针对不同的使用环境所提供的用户身份验证的机制. 相似文献
20.
基于VRML的网上虚拟教室漫游研究 总被引:2,自引:0,他引:2
以一个虚拟教室为例进行3D虚拟漫游的初步设计.这种方式不同于目前网上的虚拟教室。介绍在WWW上采用VKML实现虚拟教室漫游系统的特点、VRML的工作模式和造型机制,采用了基于几何图形的建模方法,探讨场景中交互设计实现的方法,提出碰撞检测技术的应用.实现网上发布和优化。 相似文献