排序方式: 共有58条查询结果,搜索用时 15 毫秒
11.
随着微电子工艺的不断进步,SoC芯片设计中SRAM所占面积越来越大,SRAM的缺陷率成为影响芯片成品率的重要因素。提出了一种可扩展的存储器自修复算法(S-MBISR),在对冗余的SRAM进行修复时,可扩展利用存储器访问通路中校验码的纠错能力,在不改变SRAM结构的前提下能够进一步提高存储器的容错能力,进而提高芯片成品率。最后对该算法进行了RTL设计实现。后端设计评估表明,该算法能够工作在1GHz频率,面积开销仅增加1.5%。 相似文献
12.
大规模指纹应用需要强大的后端指纹比对计算能力作为支撑.基于可重构微服务器(reconfigurable micro server, RMS)技术,提出一种软硬协同的高效指纹比对方法,该方法充分发挥可重构混合核心计算架构的优势,采用优化定制的硬件加速部件对指纹比对算法中的计算密集部分进行加速.复杂控制流和离散访存较多的算法部分则以软件形式在通用计算核心上高效执行.在单个RMS计算节点上完成了算法原型的实现并进行了详细测试.测试结果表明:单个RMS节点上的指纹比对性能约为105万次秒,功耗仅为5 W.与相关工作相比,该性能是单个X86集群节点的15.5倍;能效是X86集群节点的583倍,是基于Tesla C2075的GPU服务器的5.4倍.与单纯的FPGA平台相比,基于RMS技术的实现方法更具灵活性和可扩展性,是未来构建大规模指纹比对系统的一种高效的技术解决方案. 相似文献
13.
面向高性能计算的众核处理器结构级高能效技术 总被引:1,自引:0,他引:1
随着半导体技术的进步,众核处理器已经广泛应用于高性能计算领域.而要构建未来高性能计算系统,处理器必须突破严峻的"能耗墙"挑战.文中以一款自主众核处理器DFMC原型为基础,首先对其在典型负载下的能耗分布进行了分析,结合该处理器的具体结构,提出了基于指令窗口的指令缓冲、操作数锁存两种结构级能效优化技术,探索了能效优先的浮点部件设计方法.实验表明,通过上述技术可以降低处理器取指和译码能耗约50%、寄存器文件能耗11.2%和浮点部件能耗17.6%,最终全芯片降低能耗约14.7%.在该文所述实验环境下,作者还进行了DFMC原型的双精度矩阵乘(DGEMM)性能功耗比测试,并与NVIDIA公司的Kepler K20GPU进行了对比. 相似文献
14.
False sharing is one of the most important factors impacting the performance of DSM(distributed shared memory)systems,The single-Writer approach is simple,but it cannot avoid the ping-pong effect of the data page thrashing,while the multiple-writer approach is effective for false sharing but with high cost.This paper proposes a new approach,called limited multiple-writer(LMW)to handling multiple writers in software DSM.It distinguishes two kinds of multiple-writer as lock-based form and barrier-based form,and handles them with different policies.It discards the Twin and Diff in traditional multiple-writer approach,and simplifies the implementation of multiple-writer in software DSM systems.The implementation of LMW in a CVM(Coherent Virtual Machine)Software DSM system,which is based on a network of workstations,is introduced.Evaluation results show that for some applications such as SOR(Successive OVer-Relaxation),LU(Lower triangular and Upper triangular),FFT(Fast Fourier Transformation),and IS(Integer Sorting),LMW provides a significant reduction in execution time (11%,16%,33%and 46%) compared with the traditional multiple-writer approach on the platform. 相似文献
15.
如何高效互连大规模服务器是数据中心网络面临的一个重要挑战.目前提出的新型数据中心网络结构主要是通过增加服务器的网络端口数来扩展数据中心的规模,导致扩展的局限性和管理的复杂性.为此,如何设计由固定网络端口数的服务器互连而成的、具有常量度数的数据中心网络结构意义重大.提出了一种新型的面向大规模数据中心的常量度数互连网络结构CH(conjugate hypercube),该结构以固定网络端口数的服务器为中心,采用多层次互连实现了可扩展性和性能之间的平衡.理论分析和实验结果表明,该互连网络在不增加服务器网络端口数的前提下,可有效支持大规模数据中心高带宽、高容错的多模式数据通信;同时,具有良好的可部署性和可维护性. 相似文献
16.
随着芯片半导体工艺的发展,芯片集成度不断提高,单个芯片上所能容纳的计算核心数越来越多,使得核心间的数据移动效率成为制约处理器芯片整体性能的关键因素。光互连技术采用波导方式传输数据,信号传输的损耗低、速度快、延迟小,它通过采用波分复用(WDM)技术可以达到很高的带宽密度,有助于解决片上通信的瓶颈问题。面向未来片上高性能互连的需求,深入分析了电互连技术的现状与局限性,研究并分析了基于硅光子的光互连技术发展现状和趋势,对比了多种典型光互连架构的特点及优缺点,总结了未来硅光子互连技术需要解决的5个重要问题。 相似文献
17.
基于Reyhani Masoleh提出的GF(2m)高斯正规基乘法实现了三拍非流水的正规基乘法器,并基于该乘法器实现了一种高性能López-Dahab标量乘硬件结构.Reyhani-Masoleh算法利用乘法矩阵的对称性降低了乘法的复杂度;而López-Dahab标量乘算法由于采用投影坐标,计算速度快且可以有效降低存储需求.基于Reyhani-Masoleh乘法器的López-Dahab标量乘结构可以有效利用两种算法的优势,可以达到目前最好的标量乘硬件结构的性能. 相似文献
18.
19.
以图计算为代表的数据密集型应用获得越来越广泛的关注,而传统的高性能计算机处理这类应用的效率较低.面向未来高性能计算机体系结构要有效支持数据密集型计算,深入研究以广度优先搜索(breadth-first search, BFS)算法为代表的图计算的典型特征,设计实现轻量级启发式切换BFS算法,该算法通过基本搜索方式的自动切换,避免冗余内存访问,提高搜索效率;针对BFS算法的离散随机数据访问特征以及众核处理器执行机制,建立面向BFS算法的众核处理器体系结构分析模型;全面、深入研究了BFS算法在典型众核处理器上的运行特征和性能变化趋势.测试结果表明:Cache命中率、内存带宽、流水线利用效率等相关参数均处于较低水平,无法完全满足BFS算法的需求,因此需要能够支持大量离散随机访问和简单执行机制的新型众核处理器体系结构. 相似文献
20.
半导体工艺的进步使片上可以集成更多的处理核心,对于消耗较多面积和功耗的存储单元,如何有效地减小面积、降低功耗是片上多核研究的一个重要方向。软件指令缓存技术是降低指令存储复杂性,以及降低功耗的有效方式,本文深入对比了硬件Cache结构和软件指令缓存结构,并且详细分析了两款典型的软件指令缓存结构,总结了其特点和需要解决的关键问题,为片上多核的指令存储设计提供了参考。 相似文献