期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李毅何颂颂李恺《计算机系统应用》2011,20(1):163-167

针对龙芯3A体系结构以及二级BLAS库函数的特点,在指令级、存储级和线程级抽取并行方案,总结了一些合适的优化方法,并对其进行了定量的分析.实验表明,这些优化可以将二级BLAS函数单线程的性能提升20%以上,多线程下也可以得到2.5倍左右的加速比,这对今后多核龙芯上的系统软件优化工作有着一定的帮助. 相似文献

2.

排序算法在龙芯3A上的优化实现

翁玉萍顾乃杰李恺陈强《计算机工程》2011,37(20):255-257

分析归并排序算法和快速排序算法,根据国产CPU龙芯3A的体系结构特性,提出2种优化算法并进行实现。综合利用访存特性,引入拷贝优化、循环展开、交换操作优化和不同基本排序混用等优化技术。测试结果表明,在不影响排序稳定性的前提下,与Glibc 2.11库中的排序函数相比,2种优化算法均能提升16.9%~90.5%的排序性能。相似文献

3.

基于龙芯3A处理器的跨平台二进制翻译器QEMU的优化研究

《计算机应用与软件》2014,(7)

动态二进制翻译与优化技术推动了计算机体系结构的发展。以龙芯3A处理器为实现平台,在系统级模拟模式下,针对原二进制翻译器QEMU寄存器分配方案提出跨平台优化方法,同时引入热路径对动态二进制翻译过程中冗余代码进行优化。实验结果表明,经过优化后,在龙芯3A平台上通过QEMU翻译器运行Windows XP操作系统,其常用X86应用程序的运行速度得到可观提升。以上研究对基于龙芯平台的系统级跨平台应用程序的实用化具有深远的现实意义。相似文献

4.

龙芯3A处理器上FFT的高效实现

郭利财刘燕君《小型微型计算机系统》2012,33(3):594-597

FFT(Fast Fourier transform,快速傅立叶变换)是工程应用中的一个基本算法,优化其性能对于推广龙芯系列处理器的应用具有重要意义.本文充分挖掘龙芯3A处理器的硬件特性,对运算量和调整位序的过程作了优化并使用128位访存来减少访存指令的比例,从而实现了高效的FFT算法.实验结果表明,在825M龙芯3A处理器上经过优化后的一维FFT的速度是FF-TW库的2.5倍左右,而二维FFT的速度则是FFTW的3倍左右. 相似文献

5.

龙芯3A处理器封装的散热设计

下载免费PDF全文

张瑾王剑《计算机工程与科学》2009,31(Z1)

随着处理器的性能越来越高,处理器的功耗和温度也随之攀升,这就对处理器的封装提出了更高的要求。本文针对龙芯3A高性能处理器对封装的散热问题,根据成熟的工艺水平选择了FC-BGA封装形式,并对散热和外加散热措施的方法进行了分析和研究。实验模拟结果表明,FC-BGA的封装形式完全能满足龙芯3A处理器对封装散热的要求。相似文献

6.

基于龙芯3 A处理器的Del taOS嵌入式系统移植

罗一涵陈朔鹰赵建峰乔杨《单片机与嵌入式系统应用》2016,(10):74-78

嵌入式系统移植是嵌入式开发中经常遇到的问题。本文以龙芯3A处理器为载体,根据其通用异常处理机制和硬件资源配置,完成系统的启动,并对串口驱动进行开发与配置,成功将实时嵌入式道系统(DeltaOS)移植到龙芯3 A平台上,为应用程序和驱动程序的开发提供了必要的基础。相似文献

7.

基于龙芯3A1500的计算加速模块设计方法

《电子技术应用》2017,(12):109-112

为提高国产加固计算机的计算处理能力,提出基于龙芯3A1500的计算加速模块设计方法,介绍了模块设计思路;硬件方面采用国产龙芯3A1500处理器及DDR3内存,设计了3A1500+2FPGA的硬件组成模式,并介绍了电源及复位电路设计方法;软件方面搭配国产中标麒麟操作系统,设计了与模块匹配的计算加速软件。最后进行性能测试,与X86酷睿L2400进行了性能对比。结果表明,该设计可大幅提高国产龙芯计算机的计算性能,平均计算加速比达到5以上,验证了设计方法的有效性,对国产加固计算机在高性能计算方向的应用具有指导性意义。相似文献

8.

基于龙芯3A平台PMON中的网卡驱动设计与实现

李庆宋汉广《计算机测量与控制》2012,20(6):1593-1595

龙芯3A平台采用PMON作为其基本输入输出系统(BIOS),为了在PMON中实现通过网络加载操作系统镜像的功能,设计实现了PMON下的W82574网卡驱动;由于PMON采用查询代替中断,没有所谓中断处理程序;在网卡驱动设计时,对初始化、数据发送和接收两部分作出相应处理,并介绍了PMON下网卡驱动的配置编译过程;通过测试,该PMON的网络性能具有丢包率低、响应速度快的特点,并且能够支持网络加载VxWorks和Linux操作系统,最终实现了网络性能稳定、功能完善、可靠性高的基于龙芯3A平台的BIOS。相似文献

9.

龙芯3A多核处理器系统级性能优化与分析

孟小甫高翔从明张爽爽《计算机研究与发展》2012,(Z1):137-142

多核处理器的性能与系统软件有着密切的联系:操作系统是处理器与应用程序之间的接口,对于充分利用处理器特性和提高应用程序的性能起着极其重要的作用;编译器与处理器体系结构密切相关,一方面要产生处理器支持的二进制代码,另一方面还要结合处理器特性产生高效运行的代码,其性能好坏直接影响着系统的整体性能.为了提高龙芯3A系统的实际性能,从操作系统和编译器着手,结合龙芯3A微结构特征,进行了一系列有效的优化.这些措施包括CC-NUMA多核操作系统的实现、操作系统二级Cache锁机制、操作系统调度共享二级Cache分配、自动向量化编译和支持预取机制的编译等.实验结果表明,在系统软件中增加对处理器特性的支持,能够充分挖掘体系结构的优势,对系统性能有较大的好处.其性能优化技术对于其他处理器的优化也有一定的借鉴价值. 相似文献

10.

龙芯3A4000主板VGA接口电路设计及研究

籍明慧裴焕斗宫健张川川庄杰《电子技术应用》2021,47(11):105-109+115

VGA接口以其良好的兼容性、成熟的技术优势、较低的成本等优点成为电子设备显示应用中最为广泛的接口类型。基于龙芯3A4000主板功能性要求,利用高性能视频数模转换芯片ADV7125将DVO总线数字信号转换为模拟信号通过VGA接口实现视频输出。对VGA接口及实现原理做了基本介绍,并对VGA视频输出功能拓扑结构以及VGA接口电路设计做了详细的描述。测试结果表明,对于不同显示模式的视频信号,该接口电路设计均符合功能性及可靠性要求,视频显示功能正常且性能良好。相似文献

11.

基于龙芯3A+2H的火控计算机系统设计

齐劲松郭江宇吴玉生王玮冬《测控技术》2014,33(7):85-87

结合国产化工程实践需要,介绍了一种新型的基于龙芯3A+2H的火控计算机系统的设计思路与方法,该计算机主要应用于火力控制系统。详述了计算机系统的硬件组成,对高速信号进行了完整性分析,介绍了PMON的启动流程、国产麒麟Linux操作系统内核的移植。经实验证明该系统能满足军用系统的高安全性和可靠性,并且有良好的实时性和实用性的特点。相似文献

12.

基于龙芯3A处理器的加固服务器设计与实现

王巍《工业控制计算机》2014,(12):69-70

该加固服务器采用VPX架构,利用双龙芯3A处理器实现NUMA架构服务节点,利用单龙芯3A处理器和双FPGA实现异构计算节点,结合高速交换模块、电源模块、数据装载模块、机箱等共同构建。依据模块化设计思想,该加固服务器模块可根据应用需求扩展配置,支持国产中标麒麟操作系统。相似文献

13.

基于龙芯2F+1A的四余度火控计算机系统设计 总被引：1，自引：0，他引：1

齐劲松贾志强唐杰王高峰《测控技术》2014,33(12):69-71

应国防系统的安全要求,军用计算机的中央处理器逐步采用国产系列CPU来取代国外的产品。结合国产化工程实践需要介绍了一种新型的基于龙芯2F+1A的四余度火控计算机系统的设计思路与方法。详述了多路计算机系统的工作原理,以及基于国产中标麒麟操作余度管理模块的设计。经实验证明该软硬件系统能有效地提高安全性和可靠性,并有良好的实时性和实用性。相似文献

14.

龙芯3A上三个自适应FFT包的对比与分析

赵美超张云泉刘益群李焱颜深根《计算机科学》2012,39(12):281-285

FFT算法在计算机科学中具有广泛的应用,自适应FFT软件包以其良好的可移植性而备受研究人员和用户的青睐,龙芯3A是中科院计算所自主研发的四核CPU,采用RISC架构,兼容MIPS指令。主要对FFTW , UHFFT,SPIRAI、这3类FFT自适应软件包进行研究。首先从搜索框架和代码产生器两方面总结了FTW和UHFFT的异同,接着阐述了SPIRAL自动产生优化代码的三层架构实现原理,之后在国产CPU龙芯3A上对这3个软件包进行了性能测试,并结合龙芯的体系结构特点对结果作了分析对比。在最后总结了目前自适应FFT软件包的一般方法,为下一步开发自适应FFT软件包提供了思路。相似文献

15.

R. Clint Whaley Antoine Petitet 《Software》2005,35(2):101-121

The Basic Linear Algebra Subprograms (BLAS) define one of the most heavily used performance‐critical APIs in scientific computing today. It has long been understood that the most important of these routines, the dense Level 3 BLAS, may be written efficiently given a highly optimized general matrix multiply routine. In this paper, however, we show that an even larger set of operations can be efficiently maintained using a much simpler matrix multiply kernel. Indeed, this is how our own project, ATLAS (which provides one of the most widely used BLAS implementations in use today), supports a large variety of performance‐critical routines. Copyright © 2004 John Wiley & Sons, Ltd. 相似文献

16.

Implementation of the Level 2 and 3 BLAS on the CRAY Y-MP and the CRAY-2

Qasim Sheikh Phuong Vu Chao Yang Michael Merchant 《The Journal of supercomputing》1992,5(4):291-305

In this paper we discuss code optimization techniques for implementing the Level 2 and 3 basic linear algebra subprograms on a single processor for the CRAY Y-MP and the CRAY-2. Our performance measurements show that the use of these techniques leads to a significant improvement in performance, and most subroutines achieve close to the peak performance of the machine for computations of relatively small sizes. 相似文献

17.

NUMA架构的龙芯3A板级设计及工程化技术研究

赵东阳刘瑞孟英谦《计算机工程与应用》2017,53(8):260-266

针对关键应用对信息处理能力提出的性能要求以及国产化需求,在分析龙芯3A处理器架构特点的基础上,设计了基于NUMA并行处理架构的龙芯3A高性能处理模块,并对抗恶劣环境的关键问题进行了分析和设计,解决了散热、电源监控及供电优化、启动速度等问题。通过测试验证,性能可以满足关键应用对信息处理能力的要求,从而有效解决了龙芯3A访存能力有限的问题。同时对SMP和NUMA架构下,龙芯3A处理器CPU数量的增加对访存性能的提升的关系进行了探讨。相似文献

18.

基于FPGA的BLAS加速系统的设计与研究

许焱杨滨《微计算机信息》2009,25(20)

采用FPGA来加速应用软件的关键算法执行,是一种有效的提高计算机系统运算速度的方法.通过把高性能计算算法中固有的并行运算部分硬件化来实现应用加速.本文主要讨论使用FPGA来实现BIAS数学库的加速,对其中最耗时的dgemm算法做了加速,并且设计了基于FPGA的加速系统. 相似文献