期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

周蓓黄永忠许瑾晨郭绍忠《计算机科学》2019,46(1):320-324

SIMD技术的出现使得基础数学库扩展到向量数学库成为必然趋势。基础数学库中多数函数存在代码实现复杂、分支判断多的特点,增加了向量化的难度,同时SIMD指令的不完备导致函数中的部分功能无法直接向量化,频繁的拆分和拼接操作降低了函数的性能。针对这些问题,提出了向量数学库的向量化方法,通过确定核心代码段、数据预处理过程向量化及指令向量化3个步骤,可以快速有效地对基础数学库进行向量化。实验表明,运用该方法,exp,pow,log10等典型函数的性能平均提高了24.2%。相似文献

2.

GCC非满载SLP向量化

刘浩浩韩林崔平非《计算机系统应用》2022,31(9):265-271

随着向量长度的不断增长, SIMD扩展部件得以处理更为庞大的数据级并行,但程序的并行阈值也随之提高.对于现有的自动向量化编译器,如果在分析阶段不能从串行代码中发掘出足够的数据级并行以完全填充向量寄存器,则不会进入相应的向量代码变换阶段,从而无法向量化.较长的向量长度使得某些并行性不足的程序失去了向量化的机会,造成了性能下降.为了更加充分的利用SIMD部件,介绍了一种面向基本块的非满载向量化方法ISLP.基于开源GCC编译器,从并行性检测、代码生成和代价模型3个方面详细阐述了ISLP的设计与实现.在标准测试集上的实验结果表明,该方法可以有效地对超字级并行性不足的程序进行向量化处理,提高程序执行效率.选取的测试用例在向量化后的平均加速比达到1.14,性能较常规SLP方法提升11.8%. 相似文献

3.

SIMD自动向量化编译优化概述 总被引：1，自引：0，他引：1

高伟赵荣彩韩林庞建民丁锐《软件学报》2015,26(6):1265-1284

SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向. 相似文献

4.

向量并行度指导的循环SIMD向量化方法

高伟韩林赵荣彩徐金龙陈超然《软件学报》2017,28(4):925-939

SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loop-aware方法是对SLP方法的改进,其思想是首先通过循环展开将迭代间并行转换为迭代内并行,使循环体内的同构语句条数足够多,再利用SLP方法进行向量发掘.但当循环展开不合法或者并行度低于向量化因子时,Loop-aware方法无法实现程序向量并行性的发掘.因此提出了向量并行度指导的循环向量化方法,依据迭代间并行度、迭代内并行度和向量化因子,构建循环向量化方法选择方案,同时提出不充分向量化方法发掘并行度低于向量化因子的循环向量并行性,最后依据向量并行度对生成的向量循环进行展开.经过标准测试集测试,向量并行度指导的循环SIMD向量化方法比Loop-aware方法识别率提升107.5%,性能提升12.1%. 相似文献

5.

依赖距离主导的向量化方法研究*

丁丽丽韩林王冬张素平王鹏翔于海宁《计算机应用研究》2017,34(5)

向量寄存器的非满载使用方式为大量迭代次数不足的循环提供了向量化的机会,但也导致向量化的并行宽度不固定,传统的向量因子主导的依赖测试方法不再适用。本文提出了一种依赖距离主导的依赖测试方法,通过分析依赖图中所有依赖环的破环关键边所携带的依赖距离,选择其中最小的依赖距离来决定并行宽度,破除依赖环,实现基于向量寄存器非满载使用方式的向量化。实验结果表明,该方法能够有效增加循环向量化的机会和提高向量寄存器的使用率,测试用例的向量化加速比平均提高14.6%。相似文献

6.

面向自动向量化的结构体优化

于海宁韩林李鹏远《计算机科学》2016,43(2):210-215

结构体广泛应用在科学计算等应用程序中,向量化结构体数组存在的非连续和非对齐访存会严重影响程序的向量化效果。为减少结构体数组SIMD向量化过程中的非连续和非对齐数据访问,提出了基于域访问亲和度与域数据类型相结合的结构体拆分模型,以消除域存储间的内存“间隙”;同时利用结构体数组到二维数组的地址映射方式来满足结构体数组向量化时的访存连续和对齐要求,以降低Cache的失效率,从而提升应用程序性能。在自动向量化系统SW-VEC上,选取gcc-vec、spec2000和spec2006标准测试集中部分相关的测试用例,测试结果表明:与相应的串行程序相比, 采用该方法后,测试用例程序性能加速比提高了8%以上。相似文献

7.

SIMD自动向量化编译优化概述

冯竞舸贺也平陶秋铭马恒太《计算机研究与发展》2023,26(12):2907-2927

超字级并行（superword level parallelism,SLP）是一种面向处理器单指令多数据（single instruction multiple data,SIMD）扩展部件实现程序自动向量化的方法,这种方法被广泛应用于主流编译器中.SLP方法有赖于先找到同构指令序列再对之进行自动向量化. 将非同构指令序列等价转为同构指令序列以扩展SLP方法的适用范围是当前研究趋势之一. 提出SLP的一种扩展方法──SLP-M向量化方法,引入二元表达式替换同构转换方式,基于条件判断和收益计算的选择,利用多种指令序列同构化转换,将满足特定条件的非同构指令序列转换为同构指令序列,再进一步实施自动向量化,从而提升SLP的适用范围和收益. 在LLVM中实现了SLP-M方法,并利用SPEC CPU 2017等标准测试集进行了测试评估. 实验结果表明,SLP-M方法相比于已有方法在核心函数测试中性能提升了21.8%,在基准测试程序整体测试中性能提升了4.1%.

相似文献

8.

利用SIMD向量化的数据流软错误检测算法

张磊彭飞曹子宁庄毅《小型微型计算机系统》2023,(5):1114-1120

由于现代处理器不断缩减芯片上元件尺寸、速度不断提高,会导致严重的可靠性问题.针对现有基于冗余的数据流软检错算法效率低下问题,本文提出一种基于SIMD向量化的数据流软错误检测算法VBSED,利用单指令多数据流并行性来提高软件冗余算法的效率,将原代码与冗余代码转换为高效率的SIMD代码,生成具有检错能力的加固程序.对比实验结果表明本文提出的算法可降低加固代码的时空开销,该算法还具有现有算法一般不能检测缓存等部件软错误的优点,并通过故障注入实验验证本文算法在寄存器、缓存和主存部件具有更高的错误检错率. 相似文献

9.

类型转换语句的SLP发掘方法

赵博赵荣彩李雁冰高伟《计算机科学》2014,41(11):16-21

多媒体技术的迅速发展使得越来越多的处理器集成了SIMD扩展,当前的编译器大多数都已实现了自动向量化功能。为了发掘迭代内并行,一些编译器在自动向量化模块中引入了SLP向量化方法。多媒体数据的密集存储和规则运算使得在处理多媒体数据时需要进行频繁的数据类型转换,而目前的SLP向量化方法对数据类型转换的处理能力还不完善。为了在存在大量数据类型转换语句的程序中发掘更多的SLP向量化机会,提出了一种类型转换语句的SLP发掘方法,它能够在SLP向量化框架下利用数据重组实现具有相同向量化因子和不同向量化因子的数据类型之间的转换。实验结果表明,该方法能够有效地对类型转换语句进行SLP向量化发掘,提高了程序的向量化执行效率。相似文献

10.

两种基于向量化策略SVM分类器的对比分析

薛又岷陈春玲余瀚王官中《计算机技术与发展》2020,(2):37-41

以股票涨跌趋势预测精度为评价指标,针对传统股票数据特征训练过程中预测精度不高的情况,考虑引入两种不同的向量化策略对股民评论、新闻关键词等文本信息进行非结构化数据特征的捕捉,利用词意的积极、消极程度对客观因素进行处理,进而将向量化后的特征作为新的非线性特征项扩充原有的结构化特征集合。文中分别以词向量化和句向量化为出发点设计两种启发式的SVM分类器,其目标是在拟合每支股票的情况下尽可能预测出其未来的走势,挖掘出更具有增长潜力的股票样本。经过2018年6月至12月半年沪市股票数据集的实验结果表明,相比于词向量化策略,采用句向量化策略设计的SVM分类器不仅能够更好地预测股票涨跌,并且能够更有效地挑选出潜在增长的股票样本。相似文献

11.

基于编译指示的向量化方法

下载免费PDF全文

姚远赵荣彩《计算机工程》2012,38(12):272-275

编译器由于程序分析能力不足,无法自动实现循环向量化或者会造成盲目自动向量化。为此,提出一种基于编译指示的向量化方法。通过在代码中插入向量化编译指示语句,指导自动向量化编译工具的处理过程,自动生成高效的向量化代码。测试结果表明,该方法能够有效提高目标代码的运行性能。相似文献

12.

Automatic Intra-Register Vectorization for the Intel® Architecture 总被引：2，自引：0，他引：2

Bik Aart J. C. Girkar Milind Grey Paul M. Tian Xinmin 《International journal of parallel programming》2002,30(2):65-98

Recent extensions to the Intel^® Architecture feature the SIMD technique to enhance the performance of computational intensive applications that perform the same operation on different elements in a data set. To date, much of the code that exploits these extensions has been hand-coded. The task of the programmer is substantially simplified, however, if a compiler does this exploitation automatically. The high-performance Intel^® C++/Fortran compiler supports automatic translation of serial loops into code that uses the SIMD extensions to the Intel^® Architecture. This paper provides a detailed overview of the automatic vectorization methods used by this compiler together with an experimental validation of their effectiveness. 相似文献

13.

一种基于剪切的SLP向量化方法_*

李颖颖奚慧兴高伟李伟翟胜伟《计算机应用研究》2018,35(9)

作为多媒体和科学计算等领域重要的程序加速器件之一,SIMD扩展部件现已广泛集成于各类处理器中。自动向量化方法是目前生成SIMD向量化程序的重要手段,超字并行SLP (Superword Level Parallelism)方法现已广泛应用于编译器中,并成为实现基本块级代码向量化的主要手段。SLP在进行收益评估时仅考虑代码段整体向量化的收益,并没有考虑到向量化收益为负的片段会降低最终整体的向量化收益,从而导致SLP方法无法达到最好的向量化效果。基于此,本文提出了一种基于剪切的SLP向量化方法(Throttling SLP,TSLP),通过寻找最优的向量化子图,去除了向量化收益为负的代码段,从而可以获得更好的向量化效果。通过标准测试程序的实验结果表明,与原来的SLP方法相比,TSLP方法平均能够获得9%的性能提升。相似文献

14.

基于神威蓝光处理器的向量数学软件包

解庆春张云泉李焱逄仁波吴再龙鲁永泉高鹏东《软件学报》2014,25(S2):70-79

首先介绍了SIMD扩展技术,并分析了使用SIMD扩展的3种方式,认为通过调用特定目标平台优化的第三方库是应用领域软件开发者快速开发高效并行程序的较好的方式;其次,介绍了国产神威处理器SW-1600平台,并利用SIMD扩展和循环展开等技术开发了SW-VML(SW Vector Math Library),开发过程中提出了访存对界、简化向量条件分支的优化方法,解决了非对界访存、向量与标量数组转换影响性能的问题,并根据SW编译器对OpenMP的支持,开发了多线程OpenMp版;最后,在SW-1600平台上采用不同向量规模对SW-VML进行了测试,测试结果显示,SIMD向量化相对于串行程序加速比为2.08,4线程相对单线程平均加速比为2.26.SW-VML是在国产神威系列处理器上开发高效程序的向量函数软件包,也是在神威蓝光高性能计算平台单计算节点开发高性能程序的基础软件工具包. 相似文献

15.

基于条件分类的控制流向量化

孙回回赵荣彩高伟李雁冰《计算机科学》2015,42(11):240-247

现代编译器越来越依赖SIMD指令来提高向量化性能,但控制流的复杂性严重阻碍了SIMD向量化的发掘。现有的控制流向量化方法对于单层控制流的向量化很有效,但对嵌套等复杂控制流无法取得令人满意的效果。因此,提出了一种基于条件分类的控制流向量化方法。该方法对条件为循环不变量的控制流,以层次遍历的顺序实施IF外提;对条件为循环变量的控制流,结合语句匹配和条件合并递归地进行IF转换,生成相应的SIMD指令,从而实现嵌套控制流的向量化。实验结果表明,该方法能够有效消除循环中的嵌套控制流,提高向量化发掘的能力, 有效提升测试程序的性能。相似文献

16.

交互式等值线图纸矢量化方法

下载免费PDF全文

贾雨王莹姚兴苗《图学学报》2013,34(3):25

等值线图纸矢量化在地质、地球物理、地理信息系统等方面有广泛的应用, 计算机自动识别在实际应用中尚存在一些不足,论文通过改进基于圆跟踪的等值线矢量化算法,提出了一种交互式的等值线的矢量化方法——等值线间隔追踪算法,通过人工干预弥补计算机自动识别存在的缺陷,保证追踪的正确性,适用于灰度等值线图像的矢量化,具有实用性和高效性。相似文献

17.

一种改进的图形矢量化方法 总被引：6，自引：0，他引：6

孙景荣许录平《计算机工程与应用》2004,40(1):88-89,92

该文针对变步长矢量化方法的不足之处,对其进行了改进,提出了一种改进的图形矢量化方法。实验结果表明,改进后的变步长矢量化方法不仅提高了图形的点位精度,而且还提高了压缩的数据量。相似文献