首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 78 毫秒
1.
FFT(Fast Fourier transform,快速傅立叶变换)是工程应用中的一个基本算法,优化其性能对于推广龙芯系列处理器的应用具有重要意义.本文充分挖掘龙芯3A处理器的硬件特性,对运算量和调整位序的过程作了优化并使用128位访存来减少访存指令的比例,从而实现了高效的FFT算法.实验结果表明,在825M龙芯3A处理器上经过优化后的一维FFT的速度是FF-TW库的2.5倍左右,而二维FFT的速度则是FFTW的3倍左右.  相似文献   

2.
徐恒阳  安虹  刘玉  周伟 《计算机工程》2011,37(19):236-238
在龙芯2F平台上设计并实现性能调优工具Perf。分析Perf的实现原理,针对龙芯修改Perf内核层中体系相关部分代码,设计硬件性能计数器的操作函数集和溢出中断处理函数。使用Perf分析矩阵相乘测试用例,结果表明Perf得到的采样结果接近理论值,与Oprofile相比,采样数据更精确。  相似文献   

3.
龙芯2号处理器设计和性能分析   总被引:16,自引:4,他引:16  
介绍龙芯2号处理器设计及其性能测试结果.龙芯2号采用四发射超标量超流水结构。片内一级指令和数据高速缓存各64KB,片外二级高速缓存最多可达8MB.为了充分发挥流水线的效率,龙芯2号实现了先进的转移猜测、寄存器重命名、动态调度等乱序执行技术以及非阻塞的Cache访问和load Speculation等动态存储访问机制.龙芯2号处理器采用0.18gm的CMOS工艺实现,在正常电压下的最高工作频率为500MHz,500MHz时的实测功耗为3~5W.龙芯2号单精度峰值浮点运算速度为20亿a/秒,双精度浮点运算速度为10亿a/秒,SPECCPU2000的实测性能是龙芯1号的8~10倍,综合性能已经达到PentiumⅢ的水平.目前芯片样机能流畅运行完整的64位中文Linux操作系统,全功能的Mozilla浏览器、多媒体播放器和OpenOffice办公套件,可以满足绝大多数桌面应用的要求.  相似文献   

4.
HGGF(halo-based galaxy group finder)算法实现了基于暗物质晕的星系找群,在研究宇宙大尺度结构及宇宙的演化等领域中占有至关重要的地位。但由于数据规模的增长,急需对HGGF算法进行优化,以缩短运行时间。经分析,算法的热点部分耗时受到非规则访存的严重影响,因此针对算法的结构和非规则访存模型,提出了数据预排序方法,并分析了该方法如何影响访存过程。在此基础上,利用数据对齐、循环分解进一步优化访存效率,利用负载均衡和互斥变量私有化的方法提高了Open MP的并行效率,最终将HGGF应用使用12线程加速11.6倍,同时取得了更好的可扩展性。主要有三点贡献:(1)分析了HGGF算法的非规则访存问题;(2)提出并分析了数据预排序方法;(3)使用数据对齐、循环分解、负载均衡、互斥变量私有化方法提高了HGGF应用的并行性能。  相似文献   

5.
陈世奎  胡晓吉 《测控技术》2011,30(8):102-106
采用龙芯2F处理器设计实现了一款CPCI总线形式主板,介绍了主板关键模块的设计方案,对主板PCB设计中DDR2(double date rate 2)接口总线等关键信号的信号完整性以及电源完整性问题进行了分析,根据信号完整性经验法则对主板中的关键高速总线信号进行了优化设计,给出了设计完成后相关的实际波形效果图,验证了设...  相似文献   

6.
齐劲松  贾志强  屈晔彬 《测控技术》2014,33(11):129-132
介绍了基于龙芯2F的军用嵌入式计算机系统搭载PLX6254桥、LTC1646电源芯片实现CPCI总线的热插拔技术。详细阐述了P1X6254-CPCI桥的硬件接口设计、电源可靠性设计、输入和输出电路的设计以及电源的损耗问题、安全性设计、PCI驱动设计等。实现了将龙芯2F作为可热插拔的PCI从设备挂载到主系统中并能稳定运行的目的。  相似文献   

7.
设计了一款基于国产处理器龙芯2F的嵌入式应用系统,该系统主要面向车载和便携设备.针对车载和便携设备的特点,在芯片选择上主要突出低功耗和稳定性;对直流电源部分进行了优化,提高了整个系统的效率;在系统的调试过程中,采用替代手段消除SM502芯片I2C逻辑上的bug,使系统支持市场上所有类型的内存务;为使系统的信号完整性达到高频电路的要求,提出了相应的设计方法和流程.  相似文献   

8.
结合访存失效队列状态的预取策略   总被引:1,自引:0,他引:1  
随着存储系统的访问速度与处理器的运算速度的差距越来越显著,访存性能已成为提高计算机系统性能的瓶颈.通过对指令Cache和数据Cache失效行为的分析,提出一种预取策略--结合访存失效队列状态的预取策略.该预取策略保持了指令和数据访问的次序,有利于预取流的提取.并将指令流和数据流的预取相分离,避免相互替换.在预取发起时机的选择上,不但考虑当前总线是否空闲,而且结合访存失效队列的状态,减小对处理器正常访存请求的影响.通过流过滤机制提高预取准确性,降低预取对访存带宽的需求.结果表明,采用结合访存失效队列状态的预取策略,处理器的平均访存延时减少30%,SPEC CPU2000程序的IPC值平均提高8.3%.  相似文献   

9.
根据龙芯2号处理器体系结构的特点,引入浮点乘加、条件move和预取等一系列特殊指令,并且对开源编译器GCC进行修改使其支持这些特殊指令,同时对生成对应指令的算法进行了调整和优化.实践中已经证明,特殊指令的引入和相应的优化比较好的提升了应用程序的性能,达到了预期的效果.  相似文献   

10.
为了在龙芯2E处理器上建立稳定的Java运行环境,丰富龙芯平台的上层软件库,以Kaffe这款开源Java虚拟机为移植对象,分析了其运行机制,确定了其代码结构中平台相关的3个主要模块:SysCallMethod、Trampoline和JTT,并结合龙芯2E处理器的特点,给出了相关模块的修改方案.最后用第三方的测试标准对移植后的虚拟机进行了测试,表明了移植的有效性.  相似文献   

11.
传统的指令优化方法通常不考虑调整指令高速缓存的硬件体系结构,只能得到局部优化结果.本文以实验的方法研究了指令优化设计和指令缓存配置之间的关系,通过实现程序指令优化并在不同指令缓存配置的平台上运行优化前后的程序,对比缓存缺失率,为进一步提高指令缓存性能提供了重要参考.实验结果表明指令缓存配置对指令优化的性能有极大的影响,在系统设计阶段同时考虑指令优化和指令缓存结构将能大幅度地改进指令缓存的性能.  相似文献   

12.
基于龙芯2F处理器设计紧凑型便携机主板,基于处理器内部集成的PCI总线接口扩展显示、USB2.0、IDE、千兆网络等多种外围接口,突破系统电源设计、中断路由实现等关键技术,运行VxWorks操作系统,已经应用于项目,运行稳定可靠。  相似文献   

13.
多核龙芯3A上二级BLAS库的优化   总被引:1,自引:0,他引:1  
针对龙芯3A体系结构以及二级BLAS库函数的特点,在指令级、存储级和线程级抽取并行方案,总结了一些合适的优化方法,并对其进行了定量的分析.实验表明,这些优化可以将二级BLAS函数单线程的性能提升20%以上,多线程下也可以得到2.5倍左右的加速比,这对今后多核龙芯上的系统软件优化工作有着一定的帮助.  相似文献   

14.
针对龙芯3A体系结构,通过底层BLAS库的优化、LAPACK分块算法中分块大小的改善以及LAPACK函数的单独优化这三种途径来提升LAPACK函数的性能.用LAPACK自带的性能测试程序进行测试,实验结果表明,有240个LAPACK函数的性能提升达到30%以上,占全部性能测试函数的81%.  相似文献   

15.
通过分析计算机系统网络数据处理相关程序的访存行为、局部性特点和系统交互等问题,指出在高速网络环境下传统处理器网络子系统设计存在很大缺陷,并进一步提出一种基于软硬件协同设计的优化方案.该方案具体包括改进的直接缓存访问技术、关键程序的cache锁策略和相应系统互连结构及一致性协议等.实验表明,与传统方案相比,基于该方案的网络TCP传输带宽提高约48%,极限情况下UDP丢包率下降40%,传输延时降低超过10%.网络测试程序在与SPEC2000测试程序并发执行情况下,网络数据带宽提高约44%.此外还讨论了该优化方案与其他网络优化技术共同使用的基本原则和相应策略.  相似文献   

16.
基于程序访存模式的低功耗存储技术   总被引:1,自引:0,他引:1  
与不断提升的计算能力相适应,移动手持设备上的存储系统结构越来越复杂,容量越来越大.这种趋势导致存储系统,主要是片上缓存和主存,在系统总能耗的占比中不断攀升.在当前手持设备多由电池驱动并且电池容量十分有限的情况下,存储系统的低功耗设计就显得十分重要.虽然现有的存储器件提供了一定的硬件节能支持,但是只有与应用程序的访存行为的规律相结合,才能充分发挥硬件的节能潜力.对现有的各种低功耗存储技术进行了梳理和总结,给出程序的访存模式的概念,归纳出访存模式在3个方面的内涵,并进一步详细介绍了程序的访存模式在片上缓存和主存低功耗技术中的应用.最后,展望未来结合访存模式进行低功耗存储系统研发的可能方向.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号