期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李飞郭绍忠周蓓宋广辉郝江伟许瑾晨《计算机工程与科学》2023,(9):1532-1543

基础数学库作为计算机系统最基础的软件库之一，其性能是影响上层应用执行效率的主要因素之一。现有的RISC-V基础数学库虽然可以实现正确计算，但其源码中存在大量访存指令和冗余指令，导致函数性能不高；同时RISC-V数学函数的汇编代码量大，分支判断复杂，增加了直接优化的难度。针对上述问题，遵循从局部到整体的优化思路，提出了RISC-V数学函数的关键路径自动检测方法，重点解决对关键分支进行优化时其他分支寄存器依赖易被改变的问题。依据队列式寄存器分配策略，对同一路径内寄存器进行再分配，提高了寄存器利用率，最大限度地减少了访存指令数。此外，还对冗余指令进行了组合功能重构。实验结果表明，67个RISC-V数学函数由平均144个时钟周期优化为85个时钟周期，性能平均提升了29.61%。相似文献

2.

向量数学库的向量化方法研究

周蓓黄永忠许瑾晨郭绍忠《计算机科学》2019,46(1):320-324

SIMD技术的出现使得基础数学库扩展到向量数学库成为必然趋势。基础数学库中多数函数存在代码实现复杂、分支判断多的特点,增加了向量化的难度,同时SIMD指令的不完备导致函数中的部分功能无法直接向量化,频繁的拆分和拼接操作降低了函数的性能。针对这些问题,提出了向量数学库的向量化方法,通过确定核心代码段、数据预处理过程向量化及指令向量化3个步骤,可以快速有效地对基础数学库进行向量化。实验表明,运用该方法,exp,pow,log10等典型函数的性能平均提高了24.2%。相似文献

3.

基于申威1600的3级BLAS GEMM函数优化

刘昊刘芳芳张鹏杨超蒋丽娟《计算机系统应用》2016,25(12):234-239

BLAS是当前科学计算领域重要的底层支持数学库之一,其中的3级BLAS函数应用最为广泛.本文基于国产申威1600平台,提出了一种基础线性代数库BLAS的三级函数通用矩阵乘GEMM的高性能实现方法.在单核上,使用乘加指令、循环展开、软件流水线指令重排、SIMD向量化运算、寄存器分块技术等与平台架构相关的技术手段,实现汇编级手工优化;在多核上,提出了适用于该平台的多线程加速方案.实验结果显示,在单核串行性能测试中,与知名开源数学库GotoBLAS相比,我们实现了平均4.72倍的加速效果;在多核并行扩展测试中,4线程版的性能则平均达到了单线程版性能的3.02倍. 相似文献

4.

指令级并行的数学模型

伍昌莉《计算机光盘软件与应用》2011,(4)

目前,提高CPU性能的一种重要方法是发掘指令级并行性.在CPU里设置多个功能部件,采用复杂的指令执行机制,使尽可能多的指令同时执行.本文用数学模型分析指令并行的一般原理,阐述指令相关的数学本质,并分析消除数据相关和控制相关的基本方法. 相似文献

5.

基于申威1621数学库中的非精确结果异常处理

张天罡王磊《计算机系统应用》2022,31(7):113-119

由于国产申威基础数学库其功能、接口需要与单机编译器glibc libm库保持一致,将基础数学库集成到glibc中进行功能测试时,检测出有部分函数的INE异常需要消除.针对这种情况,首先研究了glibc数学库的异常检测机制;然后针对基础数学库中数值函数的INE异常进行分析和优化,提出一种测试数据集分段处理的方法,最后消除了这种INE异常.测试表明,测试数据集分段处理的方法能够有效解决数值函数的INE异常,相对于之前的异常处理方法,使用本方法后平均性能加速比达到148%. 相似文献

6.

基于BWDSP的字符串与内存处理函数优化

张仁高郑启龙王向前《计算机系统应用》2017,26(7):167-172

面向BWDSP的体系结构分析了字符串与内存处理函数汇编优化方法,基于向量化与软件流水的优化技术,通过利用高效访存指令、能够提升循环执行效率的零开销循环机制、指令重排技术,结合具体功能函数的循环特性,展开针对字符串与内存处理函数的指令级并行性挖掘.实验结果表明,这些库函数的优化效率能够达到硬件平台提供函数性能理论运行时间的1.5倍以下,对BWDSP平台整体性能提升具有重要意义. 相似文献

7.

一种基于签名和属性的可执行文件比较

傅建明乔伟高德斌《计算机研究与发展》2009,46(11):1868-1876

可执行文件比较广泛应用于软件版权检测、恶意软件家族检测、异常检测的模式更新以及补丁分析.传统方法无法满足应用对速度和精度的要求.在函数、基本块和指令级别上设计了一元指令签名、基于函数控制流程图邻接矩阵的函数一元结构签名、指令的强/中/弱一元签名,并提出了融合签名和属性的函数匹配算法、基本块匹配算法,从而简化了已有指令比较,可抗指令重排,优于SPP.并通过匹配权统计以及严格的最大唯一匹配策略和Hash进一步降低误报,提高效率.最后,实现原型工具PEDiff,并通过实验证实了该比较方法在速度和精度上具有良好的性能. 相似文献

8.

常用函数调用频度的统计与分析

下载免费PDF全文

张民选《计算机工程与科学》1995,17(1):27-31

本文给出了数学库中各标准子程序的调用频度及统计方法；讨论了函数计算对整机性能的影响。研究结果表明：加速常用函数计算，可显著提高超级计算机的实用性能。Ｒ、ＳＱＲＴ、ＳＩＮ／ＣＯＳ计算的２￣ｘ，Ｉｏｇ２￣ｘ、Ｓｉｇｎ（ｘ＿ｌ，ｘ＿２）某函数计算的辅助性指令，直接用硬件实现；设置固定函数库装入最常用函数标子，可显著提高整机的综合计算速度，在参考文献［３］中的模拟分析也验证了这一结论。相似文献

9.

一种龙芯平台上多媒体指令优化时地址非对齐问题的解决方案

李正平程洋洋《小型微型计算机系统》2021,(1):60-63

在龙芯平台多媒体指令优化过程中,通常用浮点存取指令存取需并行计算的整数.若这些整数存放在非自然对齐的内存地址上,会导致优化函数的性能显著下降.为了保证优化函数在访问非对齐数据时也有同样的性能,本文采用龙芯通用指令中的非对齐存取指令实现多媒体指令对非对齐数据的存取需求.非对齐存取指令是成对使用的,两条非对齐存取指令的处理... 相似文献

10.

面向VLIW DSP结构的编译器的设计与实现

王敏王红梅张铁军单睿王东辉《微计算机应用》2009,30(7)

VLIW编译器实现指令并行性挖掘、相关性检查、指令调度等职能,对VLIW处理器的性能影响较大.本文基于一款VLIW DSP芯片,利用可重定位编译器IMPACT的前端和代码生成器模板,设计和实现了高性能的VLIW编译器.利用伪数据类型和Intrinsic函数结合,在编译器中构建了对SIMD功能的支持.实验结果显示,对比基于GCC版本的编译器,该编译器生成的指令数平均下降42%,并行包数下降30%. 相似文献

11.

Interactive augmented reality system for enhancing library instruction in elementary schools

Chih-Ming Chen Yen-Nung Tsai 《Computers & Education》2012

Due to limited budgets and manpower, most elementary schools in Taiwan do not plan or provide library instruction for students. Although students can use libraries, they typically lack the knowledge needed to use library resources effectively. Consequently, students have difficulty finding the books they need and can easily become overwhelmed by the massive amount of information in libraries. Computer-assisted instruction for teaching basic library skills to large numbers of students is an appealing method. Particularly, developing augmented reality (AR) technologies for learning have garnered considerable attention in education research. Many researchers and scholars believe that integrating teaching and AR enhances student learning performance and motivation. This work develops an educational AR system based on situated learning theory, and applies innovative augmented reality interactive technology to a library’s learning environment. Student library knowledge can be enhanced via the proposed augmented reality library instruction system (ARLIS). Experimental results demonstrate that student learning performance is improved significantly by using the proposed ARLIS. Moreover, this work demonstrates that using the proposed ARLIS for library instruction results in the same learning performance as conventional librarian instruction and there is no gender difference on learning performance between the proposed ARLIS and conventional librarian instruction. Moreover, the proposed library instruction system overcomes shortcomings of personal teaching skills of librarians that may adversely affect student learning performance by conveying the same learning content to all students. Additionally, the proposed system results in better learning performance for learners with the field-dependent cognitive style than learners with the field-independent cognitive style. Further, the proposed system provides more benefits in terms of library skills of application and comprehension than conventional librarian instruction. Moreover, the learning performance of students is not affected by their gaming skills. Therefore, student gaming skills do not need to be considered when adopting the proposed system in library instruction programs. 相似文献

12.

飞腾处理器上向量三角函数的设计实现与优化

沈洁龙标姜浩黄春《计算机研究与发展》2020,57(12):2610-2620

得益于单指令多数据(single instruction multiple data, SIMD)向量化技术,处理器浮点计算能力获得了成倍的提升,然而当前SIMD向量部件和指令集仅支持加、减、乘、除、逻辑运算等基本操作,对浮点超越函数没有提供直接的支持.作为浮点计算中最耗时的一类函数,如何提高其性能成为底层数学库优化工作的一个重点.面向超越函数中的三角函数,提出一种利用SIMD向量部件设计、实现与优化向量三角函数的方法.该方法结合标量数学库分段计算与向量数学库向量化实现的优势,增加和优化了向量三角函数中的分支处理,既减少了函数实现中的冗余计算,又提高了分支情况下向量部件的利用率.在飞腾处理器上的实验表明:所提优化方法既保证了向量三角函数的精度,同时有效提高了函数性能,与原始向量三角函数相比平均性能加速比为2.04倍. 相似文献

13.

一种改进的超越函数通用算法 总被引：1，自引：0，他引：1

下载免费PDF全文

郭绍忠许瑾晨陈建勋《计算机工程》2012,38(15):31-34

提出一种适用于高性能计算的基础数学库超越函数通用算法。基于转换、近似、重建等技术,对级数法和迭代法进行改进,运用函数收敛性最好的一段区间进行函数算法设计,通过减少运算次数来降低因多次运算导致的累积误差,保证函数算法的精度。利用查表法构造辅助表参与运算,减少算法开销。测试结果表明,与GNU数学库函数相比,基于该算法的数学库函数运行效率平均提升50.91%。相似文献

14.

高校通用网络教学平台的设计方案

黄克军龚文芳《数字社区&智能家居》2006,(32)

本文针对“教学资源库”版教学网站系统存在的不足,提出一个供学生课前预习、课后复习的崭新的数字化网络教学平台,再配合网上练习、定期实验、成绩统计及学习情况管理等功能,形成了富有时代特色的现代化教学环境。相似文献

15.

基于SIMD的Square Root函数高性能实现与优化

赵永浩贾海鹏张云泉张思佳《计算机工程与科学》2021,43(4):662-669

在计算机图形学、积分计算和神经网络等应用场景中,平方根函数的高性能实现在构建处理器的基础软件生态中起到了十分重要的作用.随着A RM架构处理器得到广泛的使用,研究A RM架构下的函数快速算法实现变得更加关键.当前大量处理器都采用了SIMD架构,所以,研究基于SIMD实现高性能函数计算方法具有重要的研究意义和发展前景.因此,对平方根函数进行了高性能的实现与优化.通过分析IEEE 754标准的浮点数在内存中的存储格式,设计了高效的平方根函数算法;然后通过结合平方根倒数和泰勒公式算法,进一步提高了算法精度;最后通过SIMD优化进一步提升了算法性能.实验结果表明,在满足精度的前提下,相比于libm算法库,实现的平方根函数的,性能提高了约7倍,相比于A RM V8提供的计算平方根的指令在性能上提高了约3倍. 相似文献

16.

A Novel instruction stream buffer for VLIW architectures

Jih-Ching Chiu 《Computers & Electrical Engineering》2010,36(1):190-198

The instruction compression mechanism used to solve the drawbacks of traditional very long instruction word (VLIW) architectures often leads to poor code density in the instruction cache, which causes the irregular lengths of long instructions to cross the different cache line. These split long instructions cannot be fetched simultaneously, which creates a bottleneck for VLIW architectures. This paper proposes a buffing mechanism which can slide the split long instruction as a continuous form to offer better efficiency in instruction fetching. This approach helps maintain the behaviors of the software pipeline technology, which schedules iterative instructions to enhance the performance of streaming processing for VLIW architectures. In the proposed mechanism, the instruction stream buffer stores the repeat block completely and suspends as far as possible the cache access to reduce access time. The advantages of repeatedly issuing instructions in the instruction buffer and preventing split long instructions, can substantially improve the performance in fetching instructions. Simulation results show that the mechanism is efficient at the instruction level for the basic DSP/IMG library by improving performance by 35% on average. 相似文献

17.

一种偶数基Cooley-Tukey FFT高性能实现方法

龚彤艳张广婷贾海鹏袁良《计算机科学》2020,47(1):31-39

快速傅里叶变换(Fast Fourier Transform,FFT)是最重要的基础算法之一,在科学计算、信号处理、图像处理等领域都有着广泛的应用。随着这些应用领域对实时性需求的进一步提高,FFT算法面临着越来越高的性能要求。在现有的FFT算法库中,FFT算法的求解速度和计算精度受到一定程度的限制,而且也少有研究者对偶数基Cooley-Tukey FFT的高性能实现提出相应的优化策略并对技术进行深入研究。基于此,文中提出了一套针对偶数基的Cooley-Tukey FFT的优化策略和方法。首先构建一个SIMD(Single Instruction Multiple Data)友好、支持混合基的蝶形网络,然后根据偶数基旋转因子特性最大限度地降低蝶形计算的复杂度,接着通过SIMD汇编优化、汇编指令重排及选择、寄存器分配策略制定、高性能矩阵转置算法等方法来优化应用,最后实现一个高性能的FFT算法库。目前,最流行、应用最广的FFT有FFTW和Intel MKL。实验结果表明,在X86计算平台上,新提出的这套针对偶数基Cooley-Tukey FFT的技术所实现的FFT算法库的性能全面优于MKL和FFTW。所提出的这套高性能算法优化和实现技术体系,可推广到除偶数基以外的其他基的实现和优化上,为进一步的研究开发工作奠定一定的基础,进而突破FFT算法在硬件平台上的性能瓶颈,实现一套针对特定平台的高性能FFT算法库。相似文献