首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
2.
高性能嵌入式处理器技术   总被引:2,自引:1,他引:1       下载免费PDF全文
介绍面向分布式集群计算机的高性能嵌入式处理器产业链,分析该产业链中CPU核提供商、处理器芯片开发商、系统软件提供商、嵌入式计算机制造商等各个环节的技术特点,并在高性能嵌入式处理器开发上做了有益的探索。提出要积极与系统软件、嵌入式计算机制造商协作,充分发挥软硬件协同设计能力,以开发出面向分布式集群计算机的高性能嵌入式处理器。进一步指出多核设计与高速总线电路是高性能嵌入式处理器发展的未来之路。  相似文献   

3.
2019年,在中国科学院支持下,由中国科学院计算技术研究所牵头发起“香山”高性能开源RISC-V处理器项目,研发出目前国际上性能最高的开源高性能RISC-V处理器核“香山”,在开源项目托管平台GitHub上获得超过3 000个星标,形成360多个分支,成为国际上广受关注的开源硬件项目之一,得到国内外企业的支持。2021年6月22日,“香山”开源高性能RISC-V处理器在首届RISC-V中国峰会上亮相,引起了各界的广泛关注。本文根据第二届RISC-V中国峰会的主会报告“香山开源高性能RISC-V处理器敏捷设计实践”整理而成,分享香山过去一年的总体进展。  相似文献   

4.
在神威高性能多核服务器上,自动并行化编译系统为识别和申明程序中的并行性,产生的OpenMP程序没有经过充分的优化,其采用简单的fork-join模型,存在大量的并行循环嵌套,导致运行效率低。为提升自动并行化编译系统产生的OpenMP程序的运行效率,提出一种并行域重构优化技术。并行域重构技术通过合并程序中的并行域和扩展嵌套循环中的并行域范围,减少OpenMP程序的并行域数目,降低线程组频繁创建和合并等控制开销,将简单fork-join模型的OpenMP程序转换为性能更为高效的单程序多数据模型的OpenMP程序。实验结果表明,在新一代神威高性能多核服务器SW1621平台上,并行域重构技术在NPB3.3-OMP测试集和SPEC OMP2012测试集上的运行效率分别提高了10.77%和7.94%的,可有效提升自动并行化编译系统OpenMP程序的执行效率。  相似文献   

5.
本文基于网络处理器的IPv6高性能路由器设计技术进行探索,首先弄清网络处理器的特点与功能,其次介绍了网络处理器设计需要符合的一系列标准及其应用范围,最后结合路由器的基本原理,比较IPv4与IPv6路由器的不同,并详细分析了IntelIXP2400网络处理器的硬件结构、系统架构、编程模型。网络处理器代表着下一代网络设备的核心功能单元,必定有很大的发展空间。  相似文献   

6.
面向高性能计算的众核处理器结构级高能效技术   总被引:1,自引:0,他引:1  
随着半导体技术的进步,众核处理器已经广泛应用于高性能计算领域.而要构建未来高性能计算系统,处理器必须突破严峻的"能耗墙"挑战.文中以一款自主众核处理器DFMC原型为基础,首先对其在典型负载下的能耗分布进行了分析,结合该处理器的具体结构,提出了基于指令窗口的指令缓冲、操作数锁存两种结构级能效优化技术,探索了能效优先的浮点部件设计方法.实验表明,通过上述技术可以降低处理器取指和译码能耗约50%、寄存器文件能耗11.2%和浮点部件能耗17.6%,最终全芯片降低能耗约14.7%.在该文所述实验环境下,作者还进行了DFMC原型的双精度矩阵乘(DGEMM)性能功耗比测试,并与NVIDIA公司的Kepler K20GPU进行了对比.  相似文献   

7.
现代高性能处理器PowerPC620与Alpha21164的核心技术分析   总被引:2,自引:0,他引:2  
PowerPC620和Alpha21164是当今世界上的两种高性能的处理器,它们的实现体现了两种截然不同的高性能处理器设计思想,故从体系结构、指令流水线性、指令调度规则、转移处理、存储系统等角度对他们作一详细分析,有助于了解当今高性能处理器的核心技术和指令级并行处理技术的发展方向。  相似文献   

8.
信息技术飞速发展的背景下,云网络、大数据、互联网+等的相继出现,推动了社会的信息化进程,也使得人们对于计算机通信技术的依赖性越来越强,计算机通信技术已经渗透到了人们工作和生活的方方面面.而在计算机通信中,受多种因素的影响,可能会出现相应的差错,影响数据传输的效果.本文从计算机通信差错产生的原因着手,对差错检测和差错控制技术进行了简单分析.  相似文献   

9.
多路服务器作为高性能服务器的代表,其整体性能较高,属于计算密集型设备,具有多CPU、多核心的特点,可满足并发性任务的并行处理需求,是承载核心数据库、虚拟化、大型业务系统等关键应用的主力设备,能够为军事信息系统建设提供强有力的支撑。基于国产自主飞腾腾云S2500处理器提出了一种高性能四路服务器设计方案,从服务器的架构设计、内存设计、总线设计、网络设计、存储设计及显示设计六个层面详细阐述了服务器核心关键硬件模块的设计方法,并从固件、操作系统及管理软件三个方面详述了服务器配套关键软件的设计方案,为国产自主可控多路服务器的设计提供了技术借鉴。  相似文献   

10.
数字信号处理(DSP)芯片是一种特别适合于进行数字信号处理运算的微处理器,高性能计算由于大数字运算量和高速处理的要求,因而非常适合于DSP的应用。本文针对工业CT图像的三维重建这一典型应用,分析了DSP在高性能计算中的应用特点、方式和效果,提出了一种动态可重构的多DSP处理器阵列的设计方法。最后通过软硬件仿真验证了DSP在高性能计算中的性能和多DSP设计方案的可行性。  相似文献   

11.
随着半导体技术进步,单个芯片上集成大量核心的众核处理器已经广泛应用于高性能计算领域.相比多核处理器,众核处理器能提供更好的计算密度和能效比,但同时也面临越来越严重的可靠性挑战.需要设计高效的处理器容错机制,有效保证课题运行效率的同时不带来较大的芯片功耗和面积开销.在一款自主众核处理器DFMC(deeply fused and heterogeneous many-core)原型基础上,根据核心上运行的应用程序是否具有关联性特征,提出并实现了面向众核处理器的独立和协同2种轻量级错误恢复技术.其中,协同恢复技术由集中部件进行管理,通过协同恢复总线互连,出错时将与错误相关联的多个核心快速回卷到正确状态.2种错误恢复技术中,保留和恢复过程均通过定制的指令实现,恢复所需要的信息保留在运算核心内部,以保证对课题性能的影响最小化.实验表明,通过上述技术只增加了1.257%的芯片面积,可解决自主众核处理器约80%的瞬时错误,且对课题性能、芯片时序和功耗影响很小,可有效地提高众核处理器的容错能力.  相似文献   

12.
现有的行波列借拓扑重构算法是基于分级优化思想,把整体优化问题分解为以失效核为中心的局部优化问题,通过局部搜索失效核重构的最优解来求解整体优化问题的最优解。但其在局部邻域进行的是单向搜索,易导致搜索到的解并不是局部最优解,或者前一单元依次占用下一单元最优解而导致连锁列借操作。针对上述情况,构造一种局部邻域双向搜索的优化行波列借算法,可使局部解更优,并避免连锁操作。实验结果表明,该算法在失效核数目较多的情况下,与原有行波列借算法相比,众核处理器虚拟拓扑结构性能明显提高。  相似文献   

13.
芯片级系统的在线测试技术   总被引:1,自引:1,他引:0  
在线测试是基本容错技术之一.把在线测试技术概括为差错控制码、重复与比较、在线监督等3类,对其发展历史进行了回顾,重点是20世纪90年代以来的成果,包括芯片设计方案、原型及产品.研究结果表明,在线测试技术已经融入了高性能处理机芯片的设计之中.  相似文献   

14.
针对目前微处理器面对通用性、高性能、功耗效率的矛盾,我们提出了可配置流处理器的解决方案。本文重点研究了可配置流处理器中核心级指令设计及相关的编译技术,其核心设计思想是根据应用的计算特征设计流处理器中的核心级指令集,从而降低指令集硬件资源的需求。  相似文献   

15.
Web服务是构建面向服务架构(SOA)的主流分布式计算技术.基于XML的数据传输格式在给Web服务带来众多优点的同时,严重影响了其性能,制约了Web服务的应用.众多研究表明,XML解析和数据绑定是Web服务的主要性能瓶颈.着眼于避免传统XML解析和运行时Java反射过程的开销,提出了一种新颖的Web服务性能优化策略.它为每个Web服务生成一个特定于该服务的SOAP消息处理器,通过在对SOAP消息的一遍扫描中高效地生成服务业务逻辑调用所需的参数对象.实验结果表明,该优化策略能够有效地提高Web服务的性能.  相似文献   

16.
Compilation Techniques for Multimedia Processors   总被引:5,自引:0,他引:5  
The huge processing power needed by multimedia applications has led to multimedia extensions in the instruction set of microprocessors which exploit subword parallelism. Examples of these extended instruction sets are the Visual Instruction Set of the UltraSPARC processor, the AltiVec instruction set of the PowerPC processor, the MMX and ISS extensions of the Pentium processors, and the MAX-2 instruction set of the HP PA-RISC processor. Currently, these extensions can only be used by programs written in assembly language, through system libraries or by calling specialized macros in a high-level language. Therefore, these instructions are not used by most applications. We propose two code generation techniques to produce native code using these multimedia extensions for programs written in a high-level language: classical vectorization and vectorization by unrolling. Vectorization by unrolling is simpler than classical vectorization since data dependence analysis is reduced to acyclic control flow graph analysis. Furthermore, we address the problem of unaligned memory accesses. This can be handled by both static analysis and dynamic runtime checking. Preliminary experimental results for a code generator for the UltraSPARC VIS instruction set show that speedups of up to a factor of 4.8 are possible, and that vectorization by unrolling is much simpler but as effective as classical vectorization.  相似文献   

17.
李银 《电脑开发与应用》2012,25(6):26-28,32
通过对数字通信系统功能模块结构图的分析,根据Simulink工具箱所能提供的功能模块,选取线性分组码的编解码器,搭建起简单的具有差错控制功能的通信传输系统。对传输系统进行了通信实验仿真,根据仿真结果,对线性分组码的差错控制能力进行了分析,总结出不同线性分组码的差错控制特点及检纠错的能力。  相似文献   

18.
刘祯  刘斌  郑凯 《软件学报》2007,18(12):3115-3123
路由器需要以较低的代价灵活、高速地实现路由查找这一基本功能.为网络处理器设计了一种基于软件的路由查找高速缓存算法.网络处理器片上高速存储器中的一部分空间被划分出来,由指令代码来维护一个路由查找结果缓存表.通过选择合适的哈希函数,平衡表项之间的冲突并刷新复杂度,该算法可以缩短路由查找的延迟,减少多处理单元对存储器总线的竞争,为其他网络应用提供更多的处理时间.基于真实网络流量的实验表明,即便每个处理单元中仅有少量表项,网络处理器的吞吐量仍然可以得到有效的提升.  相似文献   

19.
本文针对网络处理器中多个处理单元的负载均衡方法展开了讨论,详细介绍了多种负载均衡方法,给出了网络处理器负载均衡的特点和性能度量标准,提出了该领域进一步研究方向和基本思路.对同类研究有一定的帮助.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号