首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
飞腾1500A处理器性能分析工具Likwid研究   总被引:1,自引:0,他引:1  
在飞腾1500A处理器平台对程序性能分析工具Likwid展开研究,主要研究了飞腾1500A处理器硬件拓扑信息的获取、性能监测单元PMU的访问以及性能分析工具的使用和数据分析。通过hwloc获取飞腾1500A处理器的硬件信息,给程序员提供关于飞腾1500A处理器的拓扑结构及相关概要信息;编写内核驱动模块使能飞腾1500A处理器的性能监控单元,指定事件类型,通过对应硬件计数器记录目标程序执行过程中事件发生的次数;结合简单代码和模板化的微基准测试程序,使用性能分析工具收集程序执行过程中相关数据,进行性能分析。  相似文献   

2.
沈洁  龙标  姜浩  黄春 《计算机研究与发展》2020,57(12):2610-2620
得益于单指令多数据(single instruction multiple data, SIMD)向量化技术,处理器浮点计算能力获得了成倍的提升,然而当前SIMD向量部件和指令集仅支持加、减、乘、除、逻辑运算等基本操作,对浮点超越函数没有提供直接的支持.作为浮点计算中最耗时的一类函数,如何提高其性能成为底层数学库优化工作的一个重点.面向超越函数中的三角函数,提出一种利用SIMD向量部件设计、实现与优化向量三角函数的方法.该方法结合标量数学库分段计算与向量数学库向量化实现的优势,增加和优化了向量三角函数中的分支处理,既减少了函数实现中的冗余计算,又提高了分支情况下向量部件的利用率.在飞腾处理器上的实验表明:所提优化方法既保证了向量三角函数的精度,同时有效提高了函数性能,与原始向量三角函数相比平均性能加速比为2.04倍.  相似文献   

3.
单征  赵荣彩 《计算机工程》2007,33(22):161-162
针对基准测试工具在网络处理器性能评估中应用的局限性,该文提出了网络处理器性能评估模型。将网络处理器系统划分为系统、功能、任务和硬件等层面,逐级进行系统的性能评估,从而实现了多级并行系统性能评估的有效简化,确保了系统性能分析的效率与准 确性。  相似文献   

4.
超标量处理器和特长指令字(VLIW)处理器两者每个周期都能执行多条指令,各自采用一种不同的指令调度垭达到多指令执行目的。超标题处理器动态地调度指令,VLIW处理器静态地执行被调度指令。本文对几种不同的超标量处理器结构与加利福尼亚大学研制的一种特长指令字处理器结构进行定量性能比较。概述了几种超标量处理器和为利用并行渗滤调度能力而设计的一种VLIW处理器的体系结构,分析了它们的性能。进行这种比较的动机  相似文献   

5.
对比两种不同的微架构体系,讨论在CISC体系下微架构对处理器性能的影响以及未来的发展方向;介绍巨内核和微内核,探讨在未来应用中微内核在微架构方面的技术优势和性能优势。  相似文献   

6.
基于目前国产处理器的瘦客户机整机功耗相对较高,利用常用的无风扇散热的被动散热方式在整机散热性能方面稍显不足,尤其是存在散热死区,从而设计了一种基于飞腾四核处理器的瘦客户机。该瘦客户机采用双散热模组设计,采用4个进风道和2个出风道设计,使得机体内部无散热死区,实现整机超强的散热性能。温度测试数据表明:在25℃环境中,机器满负荷工况运行时,机体内各测试点的温度均在52℃以内,满足所有元器件的工作温度要求;同时,机器箱体外表面温度低于36℃,用户体验感良好。  相似文献   

7.
赵会良 《自动化应用》2023,(22):227-228
为推广和提升国产软硬件平台的视频解码技术,本文基于飞腾处理器、JM7200GPU、银河麒麟系统的国产软硬件平台研究分析了视频解码技术。实验结果表明,与纯软件的解码方式相比,使用JM7200进行视频硬解码可有效降低CPU占用率。  相似文献   

8.
随着飞腾处理器性能的提升,原来的网络驱动已经不能满足其需求,急需设计和实现一款针对当前处理器的特性,能最大程度发挥其性能的网络驱动。通过研究飞腾处理器网络控制器相关的硬件原理以及linux下驱动框架的知识,设计和实现飞腾处理器中网络控制器的驱动,并对其进行了优化,使其达到了千兆网卡的使用需求。  相似文献   

9.
编译器后端是针对特定目标机器的编译器实现,不同的指令集体系结构需要实现不同的编译器后端。面向飞腾处理器中向量处理单元(FT-VPU)的体系结构和指令集,基于GCC编译器实现了编译器后端,使GCC能够正确编译面向FT-VPU的SIMD指令的内嵌函数。从四路双精度SIMD指令的机器描述出发,总结了在GCC后端所做的实现工作。其对基于GCC编译器实现面向特定目标机器的编译器后端有较大的参考价值。  相似文献   

10.
11.
Performance comparison between PID and dead-time compensating controllers   总被引:4,自引:0,他引:4  
This paper is intended to answer the question: ‘‘When can a simple dead-time compensator be expected to perform better than a PID?'. The performance criterion used is the integrated absolute error (IAE). It is compared for PI and PID controllers and a simple dead-time compensator (DTC) when a step load disturbance is applied at the plant input. Both stable and integrating processes are considered. For a fair comparison the controllers should provide equal robustness in some sense. Here, as a measure of robustness, the norm of the sum of the absolute values of the sensitivity function and the complementary sensitivity function is used. Performance of the DTC's is given also as a function of dead-time margin (DM).  相似文献   

12.
Carl Staelin 《Software》2005,35(11):1079-1105
lmbench is a powerful and extensible suite of micro‐benchmarks that measures a variety of important aspects of system performance. It has a powerful timing harness that manages most of the ‘housekeeping’ chores associated with benchmarking, making it easy to create new benchmarks that analyze systems or components of specific interest to the user. In many ways lmbench is a Swiss army knife for performance analysis. It includes an extensive suite of micro‐benchmarks that give powerful insights into system performance. For those aspects of system or application performance not covered by the suite, it is generally a simple task to create new benchmarks using the timing harness. lmbench is written in ANSI‐C and uses POSIX interfaces, so it is portable across a wide variety of systems and architectures. It also includes powerful new tools that measure performance under scalable loads to analyze SMP and clustered system performance. Copyright © 2005 John Wiley & Sons, Ltd.  相似文献   

13.
We couple simple performance models with pricing to optimize the design of clusters built from commodity components for scientific computing. We apply this technique using the NAS Parallel Benchmarks as a representative workload. We develop models of the BT, LU, and SP benchmarks. The models consist of closed form expressions based on problem size, number of processors, and three measured quantities (single processor performance, network latency, and network bandwidth). These models predict benchmark performance to within 30%. This technique was used in the design of Whitney, a commodity computing cluster at NASA Ames Research Center. In particular, for systems costing less than $1,000,000, the performance characteristics of Intel Pentium processors are better matched to the slower (and less expensive) Fast Ethernet, than to the faster (and more expensive) Myricom Myrinet.  相似文献   

14.
In this paper, we present a case study of the execution time characteristics of several popular commercial audio and video applications on a state of the art microprocessor, the Intel Pentium 4. The on-chip performance counters on the Pentium 4 processor are used to perform this study using actual real-world workloads. While the Pentium 4 is capable of executing 3-4 instructions in one cycle, it was observed that commercial audio and video applications take between 1.4 and 3.5 cycles (per instruction) to execute. Despite using large caches and sophisticated out of ordering techniques, the average cycles per instruction is higher than a predecessor like Pentium II. This indicates that while clock frequency has improved, real speedups are not scaling. The performance of multimedia programs is compared with execution characteristics of SPEC CPU 2000 programs. Performance impact of branch predictors, caches and trace caches on the Pentium 4 are analyzed for multimedia and SPEC CPU applications.  相似文献   

15.
Intel XScale处理器应用程序编写和优化   总被引:1,自引:0,他引:1  
本文在介绍了Intel XScale嵌入式处理器特性的基础上,提出嵌入式系统设计中需要进行优化的三个目标——速度、空间和功耗,分析了三个目标之间的相互关系,并研究了针对XScale处理器进行优化的几种方法,取得了满意的效果。  相似文献   

16.
本文对典型Web服务器的过载机理进行了分析,并采用事件驱动和异步I/O技术设计和实现了一种高效Web服务器负载生成器aLoad,而且使用它对Apache Web服务器进行了过载模拟、性能测量和分析。通过对比实验表明,aLoad可产生大大高于传统性能评测工具的并发负载。  相似文献   

17.
AVS是《信息技术先进音视频编码》系列标准的简称,是中国自主制定的音视频编码标准,主要面向高清晰度电视、高密度光存储和移动媒体等应用。它是一套包含系统、视频、音频、媒体版权管理在内的完整标准体系,其中视频标准包括两部分:面向数字电视应用领域的AVS-P2和面向移动应用领域的AVS-P7。针对AVS两种视频标准基于移动视频应用领域上的关键技术进行比较,通过实验数据进行分析;对两种视频标准在移动视频领域的应用前景进行探讨。  相似文献   

18.
OpenACC是一套基于指导语句方式的并行编程语言标准.编程者可以通过在代码中添加符合该标准的指导语句,经OpenACC编译器的编译,将串行代码并行化地移植到加速器或者协处理器上,进而获得异构加速器所带来的加速效果.OpenACC与CUDA和OpenCL这类异构并行编程技术的不同之处在于,它的目的是使编程者在应用移植过程中不需要考虑加速器或协处理器的底层硬件架构,从而降低编程难度.同时它也具有仅需维护一套代码便可在不同硬件平台上运行的优良跨平台性.因此,OpenACC是一个值得研究的并行编程标准.如今的异构加速硬件设备呈现出多元化趋势.在2013年11月的Top500榜单上排名第一的“天河二号”使用了48000块构建在IntelKnights Corner架构之上的协处理器.与此同时,发布不久的NVIDIA公司最新的Kepler架构GPU产品由于多年来的GPU市场积累也迅速形成了可观的用户群体.对于并非追求性能极限的应用移植者而言,寻求应用性能和移植简易性之间的平衡是相当重要的议题.只需要编写一套代码便可运行在这两种硬件平台上的OpenACC正迎合了用户在移植简易性上的需求.解决了移植的简易性之后,同一个应用在不同硬件平台上的性能表现便成了用户最想了解的问题.通过实验和构建性能模型向读者展示使用OpenACC移植的应用在Intel Knights Corner和NVIDIA Kepler架构硬件上的性能可移植性.  相似文献   

19.
基于比对的测试过程改进模型研究   总被引:2,自引:0,他引:2  
虽然软件测试发展迅速,但仍存在生产率低,无法突显竞争优势等问题.为提高测试活动生产率,对软件复用思想进行了研究,提出了可重用测试用例的相关理论.针对无特定软件测试过程改进方法的问题,在研究目前流行的过程改进方法基础上,提出了支持复用的基于比对的测试过程改进方法,分析了该方法的优点,进一步将其应用到实际的测试项目中检测该方法的可行性和效率.实践结果表明,应用该模型能有效地提高测试生产率,促进测试过程的持续改进.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号