首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
以类OpenMP的并行程序为研究对象,在满足性能约束的条件下,结合异构系统并行循环调度和处理器动态电压调节技术优化系统功耗.首先建立了异构系统功耗感知的并行循环调度问题基本模型;然后,通过分析方法给出异构系统并行循环调度的能耗下界,该下界可用于评估功耗优化方法的实际效率;进而将异构系统并行循环调度问题归纳为整数规划问题,在此基础上,提出了处理器内循环再调度方法进一步降低功耗.最后,以CPU-GPU异构系统为平台评测了10个典型kernel程序.实验结果表明,该方法可以有效降低系统功耗,提高系统效能.  相似文献   

2.
汪芳  安虹  徐光  许牧  姚平 《计算机工程》2010,36(11):217-220
针对“存储墙”问题,从提高片外带宽使用率的角度出发,为分片式流处理器设计实现数据并行存储系统。该存储系统通过多级调度能有效减少片外访存的次数,降低片外带宽的需求。软件模拟和仿真验证的结果表明,在不同工作负载特征下,通过设计参数的优化选择,该设计能够充分挖掘存储访问的行局部性和体间并行性,从而提高带宽的使用效率。  相似文献   

3.
王桂彬  杜静  唐滔 《软件学报》2013,24(10):2460-2472
高功耗已成为制约高性能计算机发展的重要问题之一.近年来,大量研究关注于如何在满足系统功耗约束的条件下优化系统执行性能.然而,已有方法大都针对同构系统,未考虑异构处理器之间的功耗或速度差异,难以高效应用于基于加速器的异构系统.对当前异构并行系统执行模型进行了抽象,并提出了融合两级功耗控制机制的系统功耗管理框架,自顶向下依次为系统级功耗控制器和异构处理引擎功耗控制器.在异构处理引擎功耗控制中,针对类OpenMP 并行循环,首先分析了异构多处理器在满足功耗约束条件下达到性能最优的条件.基于该结果,给出了功耗受限的并行循环划分算法,该方法通过协调并行循环调度和动态电压频率调节技术以优化异构并行处理.在系统级功耗控制中,建立了异构处理引擎效能评估方法,以此作为功耗划分的依据,在兼顾并发应用公平性的同时,提高系统整体执行效能.最后,基于典型CPU-GPU 异构系统验证了方法的有效性.  相似文献   

4.
基于NAND FLASH的多路并行存储系统中坏块策略的研究   总被引:1,自引:0,他引:1  
大规模固态闪存系统可以引入多路并行技术来支持高速数据传输,但随着闪存存储容量增加也需要采取有效的坏块处理机制来解决严重的坏块访存问题.面向NAND FLASH多路并行固态存储系统,提出了一种高效坏块管理策略,采取并行存储坏块编码技术来节约坏块表存储空间,减少坏块处理功耗,同时采取坏块表重构处理技术有效解决了系统中的同位置坏块难题.针对四路并行的NAND FLASH存储系统,实验结果表明:该策略节约了25%的坏块表RAM存储空间,提高了约1.5倍的查询效率,降低了约30%的坏块处理功耗,并对并行存储数量具有良好的可扩展性.  相似文献   

5.
多核处理器性能的发挥依靠程序的并行,共享存储并行编程模型为大多数多核处理器所采用,而有效同步多个线程对共享变量的访问是其关键、也是难题.借鉴数据库中事务的思想,人们提出事务存储(transactional memory),旨在提供一种编程简单,对程序正确性推理容易的同步手段.简介了事务存储的起源,诠释了事务存储系统的概念.论述了事务存储的编程接口和执行模型.讨论了事务存储系统所涉及的主要内容,对各种方法和策略进行了比较.对事务存储中有待解决的问题进行了探讨.最后介绍了几个开源的事务存储研究平台.  相似文献   

6.
本文介绍了针对MPI全局操作的低功耗优化技术,主要包括MPI_Barrier、MPI_Reduce和MPI_Bcast。利用处理器的电压调节技术降低轻负载处理器的电压/频率,达到降低系统能量消耗的目的。在Intel Xeon处理器构建的Cluster系统上,对NPB3.2-MPI和MG3D程序进行了功耗测试。结果表明,对MPI全局操作进行功耗优化可获得明显的能量节约。  相似文献   

7.
针对具有独立DVFS的多核处理器系统,提出了一种K线程低能耗模型的并行任务调度优化算法(Tasks Optimization based on Energy-Effectiveness Model,TO-EEM)。与传统的并行任务节能调度相比,该算法的主要目标是不仅通过降低处理器频率来减少处理器瞬时功耗,而且结合并行任务间的同步互斥所造成的线程阻塞情况,合理分配线程资源来减少线程同步时间,优化并行性能;保证任务在一定的并行加速比性能前提下,提高资源利用率,减少能耗,达到程序能耗和性能之间的折衷。文中进行了大量模拟实验,结果证明提出的任务优化模型算法节能效果明显,能有效降低处理器的功耗,并始终保持线性加速比。  相似文献   

8.
郭御风  李琼  罗莉  刘光明 《计算机科学》2010,37(12):283-286
对象存储重新划分了传统文件系统的功能,并将存储管理功能下放到智能存储设备中。采用基于对象接口,利用智能存储设备的计算能力改善存储性能,获得了更好的可扩展性、安全性以及跨平台无缝共享能力,目前正得到广泛的研究和应用。对象存储控制器是对象存储系统的核心部件,是对象存储系统性能发挥的关键。介绍了一种新型的基于SOC的对象存储控制器的设计和实现。测试结果表明,设计的对象存储控制器在性能、可靠性、成本和功耗方面都具有巨大优势。最后介绍了几种正在研究的对象存储控制器的并行优化方法。  相似文献   

9.
事务存储研究   总被引:1,自引:0,他引:1  
为了研究多核处理器系统上的并行编程问题,开展了对事务存储模型的研究.阐述了事务存储,介绍了事务存储系统的实现方法,利用4种事务存储系统详细阐述了事务存储的实现;重点讨论了6种影响事务存储发展的关键技术,即实现方式、数据结构组织、并发控制,冲突检测、争用管理等;提出了事务存储将向着软硬件结合、提升性能、提高正确性和满足多核应用需求的方向发展.  相似文献   

10.
王桂彬  杨学军  唐滔  徐新海 《软件学报》2012,23(6):1382-1396
随着处理器功耗不断增大,功耗问题逐渐成为高性能计算机系统设计与实现的首要问题.当前,异构系统已成为高性能计算机的发展趋势之一.与传统同构体系结构相比,异构体系结构具有更高的理论峰值性能和能效,但是如何在满足应用性能的条件下充分发掘异构系统的能效优势,仍是一个挑战性问题.通过将应用程序抽象为由串行段和并行段组成的一般程序模型,建立了异构并行系统能耗优化模型通过分析方法依次给出并行段以及全程序(多程序段)能耗最优时处理器间满足的关系,分别给出了时间约束下能耗最优的处理器频率选择算法.最后,以CPU-GPU异构系统为平台,通过8个典型应用程序验证了方法的有效性.  相似文献   

11.
光流法是计算机视觉中的一个基础性算法,可广泛应用于运动检测、运动估计、视频分析等领域。但高质量光流法最大的问题是计算复杂、速度慢,限制了它在实际系统中的应用。针对一种混合亮度和梯度模型的高质量光流法,为其设计了一种高效、可扩展的并行计算方法。通过在具有代表性的网络众核架构-Tilera上进行验证,对于分辨率为640×480的图片,提出的并行计算方法在具有36核的Tilera处理器上执行时间为0.80秒,比主频3.40 GHz的CPU i3-3240快2.56倍,但功耗不到其1/6。当用于嵌入式环境时,其速度比ARM9处理器快33倍,而功耗只有它的一半。实验表明该并行算法具有良好的扩展性,可通过选择不同核数的处理器满足系统对性能、功耗的综合需求。  相似文献   

12.
边缘智能计算对硬件资源的需求复杂多元,传统计算平台难以为继,异构并行计算平台成为边缘智能算法落地的关键途径之一。以深度学习算法和边缘计算为牵引,对异构并行计算平台展开研究。一方面,阐述了传统计算平台适配实现边缘智能计算的优缺点,指出边缘端应用场景中传统计算平台算力与功耗矛盾突出等局限性,并以指令模型、通讯机制和存储体系三个关键技术为线索梳理技术发展脉络。另一方面,从运算速度、功耗等角度重点对比分析了近年来典型异构平台较新的代表性产品,然后针对不同应用场景和约束条件给出了异构平台的选择建议:优先选择CPU+X组合的异构平台。功耗要求严格约束下的应用建议优先选择CPU+FPGA组合;功能迭代更新快的场景建议优先选择CPU+GPU组合;算法成熟且对实时性和功耗均具有高要求的应用优先选择ASIC计算平台。提出了异构并行计算平台在指令模型统一、通讯机制轻量化、存储体系灵活性以及开发生态完备化四个方面的问题与挑战,期望能为该领域研究人员带来一定的启发。  相似文献   

13.
The increasing data demands of applications from various domains and the decreasing relative power cost of CPU computation have gradually exposed data movement cost as the prominent factor of energy consumption in computing systems. The traditional organization of the computer system software into a layered stack, while providing a straightforward modularity, poses a significant challenge for the global optimization of data movement in particular and, thus, the energy efficiency in general. Optimizing the energy efficiency of data movement in large-scale systems is a difficult tasks because it depends on a complex interplay of various factors at different system layers. In this work, we address the challenge of optimizing the data movement of the storage I/O stack in a holistic manner. Our approach consists of a model-based system driver that obtains the current I/O power regime and adapts the CPU frequency level according to this information. On the one hand, for simplifying the understanding of the relation between data movement and energy efficiency, this paper proposes novel energy prediction models for data movement based on series of runtime metrics from several I/O stack layers. We provide an in-depth study of the energy consumption in the data path, including the identification and analysis of power and performance regimes that synthesize the energy consumption patterns in a cross-layer approach. On the other hand, we propose and prototype a kernel driver that exploits data movement awareness for improving the current CPU-centric energy management.  相似文献   

14.
针对移动流媒体应用的高能耗问题,面向异构平台环境,提出了基于马尔科夫决策过程的移动流媒体能耗优化方法。通过综合不同用户使用习惯、视频播放功耗、播放时长及当前网络状态,基于最大奖励原则对CPU资源进行合理分配,以达到降低功耗的目标。实验结果表明,相比于系统默认异核多处理调度策略,提出的能耗优化方法能在保持流媒体视频播放质量的同时,有效降低其在移动终端的能耗。  相似文献   

15.
GPU强大的计算性能使得CPU-GPU异构体系结构成为高性能计算领域热点研究方向.虽然GPU的性能/功耗比较高,但在构建大规模计算系统时,功耗问题仍然是限制系统运行的关键因素之一.现在已有的针对GPU的功耗优化研究主要关注如何降低GPU本身的功耗,而没有将CPU和GPU作为一个整体进行综合考虑.文中深入分析了CUDA程序在CPU-GPU异构系统上的运行特点,归纳其中的任务依赖关系,给出了使用AOV网表示程序执行过程的方法,并在此基础上分析程序运行的关键路径,找出程序中可以进行能耗优化的部分,并求解相应的频率调节幅度,在保持程序性能不变的前提下最小化程序的整体能量消耗.  相似文献   

16.
针对光伏发电不稳定所导致的光伏电能浪费,以及储能设备充放电不合理导致电池损耗成本过高等问题,在分时电价的背景下,提出一种光储系统优化控制策略;首先,建立光储系统并网模型,结合用户用电特征、光伏出力与分时电价情况,在满足光储系统功率平衡与储能电池约束条件下,综合考虑光储系统收益和储能电池损耗成本;采用模糊处理法将多目标问题转为单目标问题求解,以用户的经济效益最高为最终优化目标,构建净收益优化模型,并利用改进的灰狼算法进行优化求解;最后,通过仿真结果表明,所提策略在分时电价情况下,为用户带来了较高的经济效益.  相似文献   

17.
近年来,卷积神经网络由于其出色的性能被广泛应用在各个领域,如图像识别、语音识别与翻译和自动驾驶等;但是传统卷积神经网络(Convolutional Neural Network,CNN)存在参数多,计算量大,部署在CPU与GPU上推理速度慢、功耗大的问题。针对上述问题,采用量化感知训练(Quantization Aware Training,QAT)的方式在保证图像分类准确率的前提下,将网络参数总量压缩为原网络的1/4;将网络权重全部部署在FPGA的片内资源上,克服了片外存储带宽的限制,减少了访问片外存储资源带来的功耗;在MobileNetV2网络的层内以及相邻的点卷积层之间提出一种协同配合的流水线结构,极大的提高了网络的实时性;提出一种存储器与数据读取的优化策略,根据并行度调整数据的存储排列方式及读取顺序,进一步节约了片内BRAM资源。最终在Xilinx的Virtex-7 VC707开发板上实现了一套性能优、功耗小的轻量级卷积神经网络MobileNetV2识别系统,200HZ时钟下达到了170.06 GOP/s的吞吐量,功耗仅为6.13W,能耗比达到了27.74 GOP/s/W,是CPU的92倍,GPU的25倍,性能较其他实现有明显的优势。  相似文献   

18.
We propose a system-level integrated power management scheme for battery-operated handheld systems such as cell phones and PDAs. Rather than dealing separately with each system component, we consider the interactions between CPU, WNIC (wireless network interface card), LCD, and applications, to reduce energy consumption at the system-level. Depending on the type of applications, the proposed scheme takes the interaction between CPU voltage and frequency and either LCD clock frequency or WNIC power modes, selectively, or both of them. The proposed method selects voltage for CPU in the context of LCD clock speed to reduce the system energy consumption. The application type and the power mode of WNIC are also considered to control the CPU voltage and frequency. Experimental results show that our scheme reduces the system energy consumption by as much as 30% compared to the systems of simply combining DVS (dynamic voltage scaling) and DPM (dynamic power management) or those of using no energy saving policy.  相似文献   

19.
DVFS is a ubiquitous technique for CPU power management in modern computing systems. Reducing processor frequency/voltage leads to a decrease of CPU power consumption and an increase in the execution time. In this paper, we analyze which application/platform characteristics are necessary for a successful energy-performance trade-off of large scale parallel applications. We present a model that gives an upper bound on performance loss due to frequency scaling using the application parallel efficiency. The model was validated with performance measurements of large scale parallel applications. Then we track how application sensitivity to frequency scaling evolved over the last decade for different cluster generations. Finally, we study how cluster power consumption characteristics together with application sensitivity to frequency scaling determine the energy effectiveness of the DVFS technique.  相似文献   

20.
数字图像处理(Digital Image Processing)广泛应用于航空航天、生物医学工程、通信工程、工业和工程、军事公安、文化艺术等方面.由于一些应用的实时性和环境要求,通常采用数字信号处理器(Digital Signal Processing,简称DSP)处理图像.采用超长指令字(Very Long Instruction Word,简称VLIW)体系结构的DSP由于功耗低、硬件结构简单和并行性好等优点,在实时图像处理应用中使用广泛.根据图像处理算法特点和VLIW DSP体系结构特点提出在YLIW DSP上优化图像处理算法的一般方法,包括存储优化方法和指令级并行优化方法.最后采用提出的方法对多个常用的图像处理算法优化,试验结果表明有较好优化效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号