共查询到18条相似文献,搜索用时 62 毫秒
1.
2.
3.
《计算机应用与软件》2014,(7)
动态二进制翻译与优化技术推动了计算机体系结构的发展。以龙芯3A处理器为实现平台,在系统级模拟模式下,针对原二进制翻译器QEMU寄存器分配方案提出跨平台优化方法,同时引入热路径对动态二进制翻译过程中冗余代码进行优化。实验结果表明,经过优化后,在龙芯3A平台上通过QEMU翻译器运行Windows XP操作系统,其常用X86应用程序的运行速度得到可观提升。以上研究对基于龙芯平台的系统级跨平台应用程序的实用化具有深远的现实意义。 相似文献
4.
FFT(Fast Fourier transform,快速傅立叶变换)是工程应用中的一个基本算法,优化其性能对于推广龙芯系列处理器的应用具有重要意义.本文充分挖掘龙芯3A处理器的硬件特性,对运算量和调整位序的过程作了优化并使用128位访存来减少访存指令的比例,从而实现了高效的FFT算法.实验结果表明,在825M龙芯3A处理器上经过优化后的一维FFT的速度是FF-TW库的2.5倍左右,而二维FFT的速度则是FFTW的3倍左右. 相似文献
5.
随着处理器的性能越来越高,处理器的功耗和温度也随之攀升,这就对处理器的封装提出了更高的要求。本文针对龙芯3A高性能处理器对封装的散热问题,根据成熟的工艺水平选择了FC-BGA封装形式,并对散热和外加散热措施的方法进行了分析和研究。实验模拟结果表明,FC-BGA的封装形式完全能满足龙芯3A处理器对封装散热的要求。 相似文献
6.
嵌入式系统移植是嵌入式开发中经常遇到的问题。本文以龙芯3A处理器为载体,根据其通用异常处理机制和硬件资源配置,完成系统的启动,并对串口驱动进行开发与配置,成功将实时嵌入式道系统(DeltaOS)移植到龙芯3 A平台上,为应用程序和驱动程序的开发提供了必要的基础。 相似文献
7.
8.
龙芯3A平台采用PMON作为其基本输入输出系统(BIOS),为了在PMON中实现通过网络加载操作系统镜像的功能,设计实现了PMON下的W82574网卡驱动;由于PMON采用查询代替中断,没有所谓中断处理程序;在网卡驱动设计时,对初始化、数据发送和接收两部分作出相应处理,并介绍了PMON下网卡驱动的配置编译过程;通过测试,该PMON的网络性能具有丢包率低、响应速度快的特点,并且能够支持网络加载VxWorks和Linux操作系统,最终实现了网络性能稳定、功能完善、可靠性高的基于龙芯3A平台的BIOS。 相似文献
9.
多核处理器的性能与系统软件有着密切的联系:操作系统是处理器与应用程序之间的接口,对于充分利用处理器特性和提高应用程序的性能起着极其重要的作用;编译器与处理器体系结构密切相关,一方面要产生处理器支持的二进制代码,另一方面还要结合处理器特性产生高效运行的代码,其性能好坏直接影响着系统的整体性能.为了提高龙芯3A系统的实际性能,从操作系统和编译器着手,结合龙芯3A微结构特征,进行了一系列有效的优化.这些措施包括CC-NUMA多核操作系统的实现、操作系统二级Cache锁机制、操作系统调度共享二级Cache分配、自动向量化编译和支持预取机制的编译等.实验结果表明,在系统软件中增加对处理器特性的支持,能够充分挖掘体系结构的优势,对系统性能有较大的好处.其性能优化技术对于其他处理器的优化也有一定的借鉴价值. 相似文献
10.
VGA接口以其良好的兼容性、成熟的技术优势、较低的成本等优点成为电子设备显示应用中最为广泛的接口类型。基于龙芯3A4000主板功能性要求,利用高性能视频数模转换芯片ADV7125将DVO总线数字信号转换为模拟信号通过VGA接口实现视频输出。对VGA接口及实现原理做了基本介绍,并对VGA视频输出功能拓扑结构以及VGA接口电路设计做了详细的描述。测试结果表明,对于不同显示模式的视频信号,该接口电路设计均符合功能性及可靠性要求,视频显示功能正常且性能良好。 相似文献
11.
12.
该加固服务器采用VPX架构,利用双龙芯3A处理器实现NUMA架构服务节点,利用单龙芯3A处理器和双FPGA实现异构计算节点,结合高速交换模块、电源模块、数据装载模块、机箱等共同构建。依据模块化设计思想,该加固服务器模块可根据应用需求扩展配置,支持国产中标麒麟操作系统。 相似文献
13.
14.
FFT算法在计算机科学中具有广泛的应用,自适应FFT软件包以其良好的可移植性而备受研究人员和用户的青睐,龙芯3A是中科院计算所自主研发的四核CPU,采用RISC架构,兼容MIPS指令。主要对FFTW , UHFFT,SPIRAI、这3类FFT自适应软件包进行研究。首先从搜索框架和代码产生器两方面总结了FTW和UHFFT的异同,接着阐述了SPIRAL自动产生优化代码的三层架构实现原理,之后在国产CPU龙芯3A上对这3个软件包进行了性能测试,并结合龙芯的体系结构特点对结果作了分析对比。在最后总结了目前自适应FFT软件包的一般方法,为下一步开发自适应FFT软件包提供了思路。 相似文献
15.
The Basic Linear Algebra Subprograms (BLAS) define one of the most heavily used performance‐critical APIs in scientific computing today. It has long been understood that the most important of these routines, the dense Level 3 BLAS, may be written efficiently given a highly optimized general matrix multiply routine. In this paper, however, we show that an even larger set of operations can be efficiently maintained using a much simpler matrix multiply kernel. Indeed, this is how our own project, ATLAS (which provides one of the most widely used BLAS implementations in use today), supports a large variety of performance‐critical routines. Copyright © 2004 John Wiley & Sons, Ltd. 相似文献
16.
In this paper we discuss code optimization techniques for implementing the Level 2 and 3 basic linear algebra subprograms on a single processor for the CRAY Y-MP and the CRAY-2. Our performance measurements show that the use of these techniques leads to a significant improvement in performance, and most subroutines achieve close to the peak performance of the machine for computations of relatively small sizes. 相似文献
17.
针对关键应用对信息处理能力提出的性能要求以及国产化需求,在分析龙芯3A处理器架构特点的基础上,设计了基于NUMA并行处理架构的龙芯3A高性能处理模块,并对抗恶劣环境的关键问题进行了分析和设计,解决了散热、电源监控及供电优化、启动速度等问题。通过测试验证,性能可以满足关键应用对信息处理能力的要求,从而有效解决了龙芯3A访存能力有限的问题。同时对SMP和NUMA架构下,龙芯3A处理器CPU数量的增加对访存性能的提升的关系进行了探讨。 相似文献
18.
采用FPGA来加速应用软件的关键算法执行,是一种有效的提高计算机系统运算速度的方法.通过把高性能计算算法中固有的并行运算部分硬件化来实现应用加速.本文主要讨论使用FPGA来实现BIAS数学库的加速,对其中最耗时的dgemm算法做了加速,并且设计了基于FPGA的加速系统. 相似文献