期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵东阳刘瑞孟英谦《计算机工程与应用》2017,53(8):260-266

针对关键应用对信息处理能力提出的性能要求以及国产化需求,在分析龙芯3A处理器架构特点的基础上,设计了基于NUMA并行处理架构的龙芯3A高性能处理模块,并对抗恶劣环境的关键问题进行了分析和设计,解决了散热、电源监控及供电优化、启动速度等问题。通过测试验证,性能可以满足关键应用对信息处理能力的要求,从而有效解决了龙芯3A访存能力有限的问题。同时对SMP和NUMA架构下,龙芯3A处理器CPU数量的增加对访存性能的提升的关系进行了探讨。相似文献

2.

面向龙芯3A体系结构的BLAS库优化

何颂颂顾乃杰朱海涛刘燕君《小型微型计算机系统》2012,33(3):571-575

双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替换),通过使用地址交错技术,减少了Cache的冲突失效;针对龙芯3A访存带宽有限的问题,通过使用共享数据的任务划分方式,减少了数据访存量.优化后的DGEMM单核和多核运算速度均是性能最高的开源BLAS库(Goto-BLAS)的2倍多. 相似文献

3.

基于软硬件的协同支持在众核上对1-DFFT算法的优化研究 总被引：2，自引：0，他引：2

周永彬张军超张帅张浩《计算机学报》2008,31(11)

随着高性能计算需求的日益增加,片上众核(many-core)处理器成为未来处理器架构的发展方向.快速傅立叶变换(FFT)作为高性能计算中的重要应用,对计算能力和通信带宽都有较高的要求.因此基于众核处理器平台,实现高效、可扩展的FFT算法是算法和体系结构设计者共同面临的挑战.文中在众核处理器Godson-T平台上对1-D FFT算法进行了优化和评估,在节省几乎三分之一L2 Cache存储开销的情况下,通过隐藏矩阵转置,计算与通信重叠等优化策略,使得优化后的1-D FFT算法达到3倍以上的性能提升.并通过片上网络拥塞状况的实验分析,发现对于像FFT这样访存带宽受限的应用,增加L2 Cache的访问带宽,可以缓解因为爆发式读写带给片上网络和L2 Cache的压力,进一步提高程序的性能和扩展性. 相似文献

4.

龙芯3B的SIMD编译优化及分析

彭飞顾乃杰高翔孙明明《小型微型计算机系统》2012,33(12):2733-2737

根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了Builtin函数的支持,用户可以根据标准函数接口调用SIMD运算函数,完成向量操作.通过对SPEC-CPU2000、DSPstone等大量benchmark的测试和分析,给出了龙芯3B SIMD运算的各项性能指数.对于性能表现不同的测试函数,均给出了详细分析数据和结论.测试表明,龙芯3B的SIMD运算在实际应用中有着良好的性能表现. 相似文献

5.

通用处理器的高带宽访存流水线研究 总被引：1，自引：0，他引：1

张浩林伟周永彬叶笑春范东睿《计算机学报》2009,32(1)

存储器访问速度的发展远远跟不上处理器运算速度的发展,日益严峻的访存速度问题严重制约了处理器速度的进一步发展.降低load-to-use延迟是提高处理器访存性能的关键,在其他条件确定的情况下,增加访存通路的带宽是降低load-to-use延迟的最有效途径,但增加带宽意味着增加访存通路的硬件逻辑复杂度,势必会增加访存通路的功耗.文中的工作立足于分析程序固有的访存特性,探索高带宽访存流水线的设计和优化空间,分析程序访存行为的规律性,并根据这些规律性给出高带宽访存流水线的低复杂度、低延迟、低功耗解决方案.文中的工作大大简化了高带宽访存流水线的设计,降低了关键路径的时延和功耗,被用于指导Godsonx处理器的访存设计.在处理器整体面积增加1.7%的情况下,将访存流水线的带宽提高了一倍,处理器的整体件能平均提高了8.6%. 相似文献

6.

一种用于通用处理器结构优化的矩阵乘法性能模型

朱海涛李玲陈云霁钱诚《小型微型计算机系统》2012,33(5):981-986

矩阵乘法作为高性能计算中的关键组成部分,是一种具有计算和访存密集特点的典型应用,因此优化矩阵乘法的性能对通用处理器是非常重要的.为了提高矩阵乘法的性能,本文提出了一种性能模型,用于预测通用处理器上矩阵乘法的执行时间.该模型反映了矩阵乘法执行时间与通用处理器的运算部件、访存带宽、寄存器个数等结构参数之间的关系,可以指导处理器结构的优化来平衡计算和访存能力、提高执行速度.基于该模型本文给出了在一个优化的通用处理器结构中,寄存器个数和访存带宽应满足的理论下界.本文在Godson-3B处理器平台上对该性能模型进行了验证,实验结果表明矩阵乘法执行时间的预测精确度达到95％以上.基于该模型,本文还提出了一种对Godson-3B结构进行优化的方法,使矩阵乘法的执行时间减少了50％左右. 相似文献

7.

一种多倍数据供应的编译优化方法

彭飞顾乃杰高翔孙明明《小型微型计算机系统》2011,32(11)

数据的快速及时供应对访存密集型程序的性能有着直接的影响.提出一种多倍数据供应MDS(Multiple Data Supply)的编译优化方法,在不增加处理器设计复杂度的前提下,利用现有处理器的高带宽,一次对内存进行多个数据的读写,减少访存次数,提高应用程序效率.在编译优化阶段,利用自动向量化技术,生成向量形式的树结构,增加一条新的扩展路径来处理从向量化的树结构到底层结构的扩展.针对向量化后树结构的多样性问题,设计新的优化遍以及RAC(Register Assignment Chain)替换算法进行专门处理.在龙芯3A处理器平台上,对SPEC-CPU2000的测试,CINT程序平均性能提升11.6％,CFP程序平均性能提升14.4％. 相似文献

8.

Cordic算法在流处理器上的应用

马世禹樊晓桠《计算机与现代化》2013,(2):103-107

流处理器在科研、国防和生活中有着广泛的应用,但随着人类对计算速度的不断追求,现有的流处理器计算速度已不能满足人们的需求,经研究发现,影响流处理器处理数据速度的是访存的时间,所以减少访存次数是提高流处理器计算速度的关键。通过引入Cordic算法,构建超越函数单元,减少了流处理器在处理流应用中的访存次数,从而提高流处理器的计算速度。相似文献

9.

实现系统规模化的龙芯3号桥片设计与验证

鲍庆元李孟春王焕东曾露王启银赵锐《计算机工程与应用》2014,50(9):56-60

CC-NUMA（高速缓存非均匀访存）系统应用在龙芯3A的处理器上,已得到了良好的性能体现,程序开发也有明显的简化。在维护片内和片间数据传输的稳定性和正确性的工作中,对基于一致性协议的片间互连结构进行分析和研究。为了构建更大规模的CC-NUMA系统而维护多处理器间的一致性。在片间利用互连桥片进行统一调度,从而保证跨系统访问和全局数据一致,并且实现了多核处理器在访存性能上的提升。所设计的桥片在部分结构上与龙芯3A二级缓存相似。通过定向和随机环境测试,验证了桥片在功能方面的正确性。相似文献

10.

龙芯3A上三个自适应FFT包的对比与分析

赵美超张云泉刘益群李焱颜深根《计算机科学》2012,39(12):281-285

FFT算法在计算机科学中具有广泛的应用,自适应FFT软件包以其良好的可移植性而备受研究人员和用户的青睐,龙芯3A是中科院计算所自主研发的四核CPU,采用RISC架构,兼容MIPS指令。主要对FFTW , UHFFT,SPIRAI、这3类FFT自适应软件包进行研究。首先从搜索框架和代码产生器两方面总结了FTW和UHFFT的异同,接着阐述了SPIRAL自动产生优化代码的三层架构实现原理,之后在国产CPU龙芯3A上对这3个软件包进行了性能测试,并结合龙芯的体系结构特点对结果作了分析对比。在最后总结了目前自适应FFT软件包的一般方法,为下一步开发自适应FFT软件包提供了思路。相似文献

11.

排序算法在龙芯3A上的优化实现

下载免费PDF全文

翁玉萍顾乃杰李恺陈强《计算机工程》2011,37(20):255-257

分析归并排序算法和快速排序算法,根据国产CPU龙芯3A的体系结构特性,提出2种优化算法并进行实现。综合利用访存特性,引入拷贝优化、循环展开、交换操作优化和不同基本排序混用等优化技术。测试结果表明,在不影响排序稳定性的前提下,与Glibc 2.11库中的排序函数相比,2种优化算法均能提升16.9%~90.5%的排序性能。相似文献

12.

一种龙芯平台上多媒体指令优化时地址非对齐问题的解决方案

李正平程洋洋《小型微型计算机系统》2021,(1):60-63

在龙芯平台多媒体指令优化过程中,通常用浮点存取指令存取需并行计算的整数.若这些整数存放在非自然对齐的内存地址上,会导致优化函数的性能显著下降.为了保证优化函数在访问非对齐数据时也有同样的性能,本文采用龙芯通用指令中的非对齐存取指令实现多媒体指令对非对齐数据的存取需求.非对齐存取指令是成对使用的,两条非对齐存取指令的处理... 相似文献

13.

FFTs in external or hierarchical memory 总被引：2，自引：0，他引：2

David H. Bailey 《The Journal of supercomputing》1990,4(1):23-35

Conventional algorithms for computing large one-dimensional fast Fourier transforms (FFTs), even those algorithms recently developed for vector and parallel computers, are largely unsuitable for systems with external or hierarchical memory. The principal reason for this is the fact that most FFT algorithms require at least m complete passes through the data set to compute a 2^m-point FFT. This paper describes some advanced techniques for computing an ordered FFT on a computer with external or hierarchical memory. These algorithms (1) require as few as two passes through the external data set, (2) employ strictly unit stride, long vector transfers between main memory and external storage, (3) require only a modest amount of scratch space in main memory, and (4) are well suited for vector and parallel computation.Performance figures are included for implementations of some of these algorithms on Cray supercomputers. Of interest is the fact that a main memory version outperforms the current Cray library FFT routines on the CRAY-2, the CRAY X-MP, and the CRAY Y-MP systems. Using all eight processors on the CRAY Y-MP, this main memory routine runs at nearly two gigaflops.A condensed version of this paper previously appeared in the Proceedings of Supercomputing '89. 相似文献

14.

比特置换运算单元的设计与实现

梁静齐悦王沁《小型微型计算机系统》2009,30(11)

比特置换操作在对称密码算法中使用频率非常高,但传统处理器对比特置换操作并不直接支持.为此,美国普林斯顿大学的Ruby B. Lee提出比特置换指令,并证明了比特置换指令对提高通用处理器上实现的密码算法的性能有明显作用[10].本文重点研究比特置换指令的实现技术,提出一种比特置换运算单元的实现算法,并在FPGA上进行验证. 相似文献

15.

基于Intel SIMD指令的二维FFT优化算法 总被引：1，自引：0，他引：1

李成军周卫峰朱重光《计算机工程与应用》2007,43(5):41-44

在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法,在二维处理中针对处理器缓存进行优化等方法,实现了很高的性能。实验结果表明:描述的算法比目前使用最广泛的公共域FFT程序包FFTW快30%左右。达到了对大数据量图像进行快速处理的要求,具有较大的工程实用价值。相似文献

16.

动态二进制翻译中数据预取优化研究*

罗琼程吴强《计算机应用研究》2009,26(12):4572-4576

动态优化是动态二进制翻译研究中一个十分重要的课题,数据预取优化能提高现代处理器体系结构应用程序性能。基于超级块(Superblock)的动态数据预取优化采用软件插桩方式收集应用程序的load访存延迟信息并构造Superblock;然后根据延迟信息以及Superblock数据流分析得出的寄存器定值引用关系,对延迟load指令进行预取优化。通过在龙芯DigitalBridge动态二进制翻译系统上实验验证,数据预取优化可以提高翻译后SPEC2000浮点测试程序代码的平均性能3.3%,开销远小于0.5%。相似文献

17.

基于龙芯2F处理器的CPCI主板设计

陈世奎胡晓吉《测控技术》2011,30(8):102-106

采用龙芯2F处理器设计实现了一款CPCI总线形式主板,介绍了主板关键模块的设计方案,对主板PCB设计中DDR2(double date rate 2)接口总线等关键信号的信号完整性以及电源完整性问题进行了分析,根据信号完整性经验法则对主板中的关键高速总线信号进行了优化设计,给出了设计完成后相关的实际波形效果图,验证了设... 相似文献

18.

基于龙芯SIMD技术的AES加解密优化 总被引：1，自引：1，他引：0

下载免费PDF全文

顾丽红魏海蕊《计算机工程》2009,35(3):189-191

高级加密标准AES是Linux系统中安全网络协议采用的主流的加解密算法。该文通过分析AES加解密算法,结合龙芯平台的体系结构特征,提出基于多媒体指令扩展（SIMD技术）优化AES性能的方法。优化前后的安全文件传输协议Sftp（AES加解密）数据传输结果表明,龙芯SIMD技术优化AES算法减少了加解密时间,有效地提高了Sftp的网络传输速率。相似文献

19.

A high‐performance sorting algorithm for multicore single‐instruction multiple‐data processors

Hiroshi Inoue Takao Moriyama Hideaki Komatsu Toshio Nakatani 《Software》2012,42(6):753-777

Many sorting algorithms have been studied in the past, but there are only a few algorithms that can effectively exploit both single‐instruction multiple‐data (SIMD) instructions and thread‐level parallelism. In this paper, we propose a new high‐performance sorting algorithm, called aligned‐access sort (AA‐sort), that exploits both the SIMD instructions and thread‐level parallelism available on today's multicore processors. Our algorithm consists of two phases, an in‐core sorting phase and an out‐of‐core merging phase. The in‐core sorting phase uses our new sorting algorithm that extends combsort to exploit SIMD instructions. The out‐of‐core algorithm is based on mergesort with our novel vectorized merging algorithm. Both phases can take advantage of SIMD instructions. The key to high performance is eliminating unaligned memory accesses that would reduce the effectiveness of SIMD instructions in both phases. We implemented and evaluated the AA‐sort on PowerPC 970MP and Cell Broadband Engine platforms. In summary, a sequential version of the AA‐sort using SIMD instructions outperformed IBM's optimized sequential sorting library by 1.8 times and bitonic mergesort using SIMD instructions by 3.3 times on PowerPC 970MP when sorting 32 million random 32‐bit integers. Also, a parallel version of AA‐sort demonstrated better scalability with increasing numbers of cores than a parallel version of bitonic mergesort on both platforms. Copyright © 2011 John Wiley & Sons, Ltd. 相似文献