期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王桂彬《计算机学报》2012,35(5):979-989

作为众核体系结构的典型代表,GPU(Graphics Processing Units)芯片集成了大量并行处理核心,其功耗开销也在随之增大,逐渐成为计算机系统中功耗开销最大的组成部分之一,而软件低功耗优化技术是降低芯片功耗的有效方法.文中提出了一种模型指导的多维低功耗优化技术,通过结合动态电压/频率调节和动态核心关闭技术,在不影响性能的情况下降低GPU功耗.首先,针对GPU多线程执行模型的特点,建立了访存受限程序的功耗优化模型;然后,基于该模型,分别分析了动态电压/频率调节和动态核心关闭技术对程序执行时间和能量消耗的影响,进而将功耗优化问题归纳为一般整数规划问题;最后,通过对9个典型GPU程序的评测以及与已有方法的对比分析,验证了该文提出的低功耗优化技术可以在不影响性能的情况下有效降低芯片功耗. 相似文献

2.

一种基于GPU的高精度体系结构级功耗模型

王卓薇程良伦肖红《计算机科学》2016,43(11):30-35

随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU开始被应用于通用计算领域,协助CPU加速程序运行。为了追求高性能,GPU往往包含成百上千个核心运算单元,高密度的计算资源使得其性能远高于CPU的同时功耗也高于CPU,功耗问题已经成为制约GPU发展的重要问题之一。在深入研究Fermi GPU架构的基础上,提出一种高精度的体系结构级功耗模型,该模型首先计算不同native指令及每次访问存储器消耗的功耗;然后根据应用在硬件上的执行指令和采样工具获得采样结果,分析预测其功耗;最后通过13个基准测试应用对实际测试与功耗模型测试结果进行对比分析,该模型的预测精度可达90%左右。相似文献

3.

静态程序切片的GPU通用计算功耗预测模型

王海峰陈庆奎《软件学报》2013,24(8):1746-1760

随着图形处理器通用计算的发展,GPU(graphics processing unit)通用计算程序功耗的度量与优化成为绿色计算领域中的一个基础问题。当前,GPU 计算能耗评测主要通过硬件来实现,而开发人员无法在编译之前了解应用程序能耗,难以实现能耗约束下的代码优化与重构。为了解决开发人员评估应用程序能耗的问题,提出了针对应用程序源代码的静态功耗预测模型,根据分支结构的疏密程度以及静态程序切片技术,分别建立分支稀疏和稠密两类应用程序的功耗预测模型。程序切片是介于指令与函数之间的度量粒度,在分析GPU应用程序时具有较强的理论支持和可行性。用非线性回归和小波神经网络建立两种切片功耗模型。针对特定 GPU 非线性回归模型的准确性较好。小波神经网络预测模型适合各种体系的 GPU,具有较好的通用性。对应用程序分支结构进行分析后,为分支稀疏程序提供加权功率统计模型,以保证功耗评估算法的效率。分支稠密程序则采用基于执行路径概率的功耗预测法,以提高预测模型的准确性。实验结果表明,两种预测模型及算法能够有效评估 GPU 通用计算程序的功耗,模型预测值与实际测量值的相对误差低于6%。相似文献

4.

一种基于关键路径分析的CPU-GPU异构系统综合能耗优化方法 总被引：1，自引：0，他引：1

林一松杨学军唐滔王桂彬徐新海《计算机学报》2012,35(1):123-133

GPU强大的计算性能使得CPU-GPU异构体系结构成为高性能计算领域热点研究方向.虽然GPU的性能/功耗比较高,但在构建大规模计算系统时,功耗问题仍然是限制系统运行的关键因素之一.现在已有的针对GPU的功耗优化研究主要关注如何降低GPU本身的功耗,而没有将CPU和GPU作为一个整体进行综合考虑.文中深入分析了CUDA程序在CPU-GPU异构系统上的运行特点,归纳其中的任务依赖关系,给出了使用AOV网表示程序执行过程的方法,并在此基础上分析程序运行的关键路径,找出程序中可以进行能耗优化的部分,并求解相应的频率调节幅度,在保持程序性能不变的前提下最小化程序的整体能量消耗. 相似文献

5.

基于硬件性能计数器的GPU功耗预测模型

王桂彬《计算机工程与科学》2012,34(3):46-50

图形处理器GPU以其高性能、高能效优势成为当前异构高性能计算机系统主要采用的加速部件。虽然GPU具有较高的理论峰值能效,但其绝对功耗开销明显高于通用处理器。随着GPU在高性能计算领域的应用逐渐扩展,面向GPU的低功耗优化研究将成为该领域的重要研究方向之一。准确的功耗预测是功耗优化研究的重要前提,本文提出了基于硬件性能计数器的GPU功耗预测方法。该方法基于硬件性能计数器信息,结合GPU在部分运行频率下的功耗值,通过线性回归的方法预测处理器在其他运行频率下的功耗值。实验结果表明,该方法可以准确地预测GPU功耗。相似文献

6.

一种基于并行度分析模型的GPU功耗优化技术 总被引：3，自引：0，他引：3

林一松杨学军唐滔王桂彬徐新海《计算机学报》2011,34(4):705-716

随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU开始被应用于通用计算领域,协助CPU加速程序的运行.为了追求高性能,GPU往往包含成百上千个核心运算单元.高密度的计算资源,使得其在性能远高于CPU的同时功耗也高于CPU.功耗问题已经成为制约GPU发展的重要问题之一.DVFS技术被广泛应用于处理器的低功耗优化,而对... 相似文献

7.

基于数据依赖的GPU功耗管理方法研究

魏雄王秋娴胡倩闫坤许萍萍《计算机与网络》2021,47(15):66-72

图形处理器(GPU)因其高并发和高吞吐量的特性被广泛应用于大数据和人工智能等高性能计算领域,随着超大规模集成电路技术的发展,片上集成的处理单元越来越多,高功耗在增加设备运行成本的同时,降低电池的使用时间和集成电路芯片的可靠性.针对功耗问题,提出一种基于数据依赖的GPU功耗管理方法(DDPM),通过优化线程分配和缓存置换策略减少GPU系统功耗.实验结果表明,DDPM相较于共享感知数据管理方法,L1缓存命中率提高了7％,DRAM数据传输量降低了8.1％;MC-aware-ORI,MC-aware-LoSe,MC-aware-SiOb方法能效分别提高了2.7％,2.65％,8.67％. 相似文献

8.

通用图形处理器功耗估算模型

《计算机工程》2017,(2)

为精准快速地获得GPU功耗数据,提出一种基于硬件性能计数事件的通用图形处理器(GPGPU)功耗估算方法。通过分析GPGPU程序运行时的功耗分布情况,选择一组与应用程序运行功耗密切相关的硬件性能计数事件集合,使用反向传播人工神经网络分析硬件性能计数事件与实时功耗间的关系,最终建立GPGPU功耗估算模型。实验结果表明,与多元线性回归的功耗估算模型相比,该模型具有更高的估算准确性和通用性。相似文献

9.

基于GPU异构平台的实时CT图像重建系统的研究

夏松竹杨静方宝辉徐金秀《计算机应用研究》2019,36(6)

摘要：针对采用单CPU CT图像重建时间长,采用CPU集群重建成本及能耗高的问题,本文提出了CPU多线程+GPU的异构重建模型。这种模型采用CPU多线程流水线模式,将整个任务分解为若干个处理阶段,相邻的两个阶段之间以循环缓存连接,上一阶段完成一次计算任务后将数据放到循环缓存里,然后继续下一次的计算任务,下一阶段探测到循环缓存里有数据后,从缓存里取出数据开始计算。各个任务是并行处理任务的,针对某一耗时瓶颈模块再采用GPU并行加速,充分发挥CPU和GPU的计算资源。CPU多线程+GPU模型相对于CPU多线程模型加速16.45倍,相对于串行CT图像重建加速20.5倍以上。将CPU多线程+GPU模型重建的图像与CPU串行程序重建的CT图像比较,数据结果在误差范围内,满足实验设计要求。本文提出的图像重建模型采用成本较低的GPU显卡就实现了性能大幅提升,大大降低了CT图像重建系统的成本及功耗,而成本及功耗的降低会引起CT医疗诊断费用的降低,最终惠及广大病患。相似文献

10.

基于GPU的真实感毛发快速绘制

杨刚曹卫群黄心渊《计算机仿真》2008,25(6)

提出一种基于图形处理器(GPU)加速的真实感毛发快速绘制方法.方法通过混合绘制多层次的半透明纹理层来表示物体表面的毛发效果,并在绘制过程充分运用了GPU的可编程功能.其中采用GPU的顶点绘制器来完成多层网格层顶点位置的计算;采用像素绘制器来实现毛发特殊光照效果的计算.实验表明,通过采用GPU可编程计算,毛发的绘制速度得到了明显提高.方法对中等规模的模型达到了实时的毛发绘制速度,并具有逼真的仿真效果. 相似文献

11.

CPU/GPU 异构环境下图像协同并行处理模型

杨洪余李成明王小平姜青山《集成技术》2017,6(5):8-18

随着GPU通用计算能力的不断发展,一些新的更高效的处理技术应用到图像处理领域.目前已有一些图像处理算法移植到GPU中且取得了不错的加速效果,但这些算法没有充分利用CPU/GPU组成的异构系统中各处理单元的计算能力.文章在研究GPU编程模型和并行算法设计的基础上,提出了CPU/GPU异构环境下图像协同并行处理模型.该模型充分考虑异构系统中各处理单元的计算能力,通过图像中值滤波算法,验证了CPU/GPU环境下协同并行处理模型在高分辨率灰度图像处理中的有效性.实验结果表明,该模型在CPU/GPU异构环境下通用性较好,容易扩展到其他图像处理算法. 相似文献

12.

多指标自趋优的GPU集群能耗控制模型

王海峰陈庆奎《计算机研究与发展》2015,52(1):105-115

在大规模流数据实时处理领域中图形处理器(graphics processing unit, GPU)集群是一种重要的并行计算系统,对计算速度、能耗和可靠性3项指标都有较高要求.然而各指标互相约束,在实时计算中需要动态寻找最优均衡点,因此GPU集群中多项性能指标实时优化成为一个具有挑战性的问题.为综合考虑计算速度、能耗和可靠性3项指标,利用极大熵函数法把多项指标转化为一个综合性能评价指标,再以模型预测控制理论为基础构造一个自适应强的控制模型,该模型能够依据计算负载的变化动态调整集群内节点的能耗状态,在保证计算速度和可靠性的前提下消减冗余计算能耗.与未考虑可靠性的基准控制模型进行对比实验,结果表明所提出的模型具有较好的控制稳定性和鲁棒性,适合应用到GPU集群节能管理中. 相似文献

13.

一种适应GPU的混合OLAP查询处理模型

张宇张延松陈红王珊《软件学报》2016,27(5):1246-1265

通用GPU因其强大的并行计算能力成为新兴的高性能计算平台,并逐渐成为近年来学术界在高性能数据库实现技术领域的研究热点.但当前GPU数据库领域的研究沿袭的是ROLAP(relational OLAP)多维分析模型,研究主要集中在关系操作符在GPU平台上的算法实现和性能优化技术,以哈希连接的GPU并行算法研究为中心.GPU拥有数千个并行计算单元,但其逻辑控制单元较少,相对于CPU具有更强的并行计算能力,但逻辑控制和复杂内存管理能力较弱,因此并不适合需要复杂数据结构和复杂内存管理机制的内存数据库查询处理算法直接移植到GPU平台.提出了面向GPU向量计算特性的混合OLAP多维分析模型semi-MOLAP,将MOLAP(multidimensionalOLAP)模型的直接数组访问和计算特性与ROLAP模型的存储效率结合在一起,实现了一个基于完全数组结构的GPU semi-MOLAP多维分析模型,简化了GPU数据管理,降低了GPU semi-MOLAP算法复杂度,提高了GPU semi-MOLAP算法的代码执行率.同时,基于GPU和CPU计算的特点,将semi-MOLAP操作符拆分为CPU和GPU平台的协同计算,提高了CPU和GPU的利用率以及OLAP的查询整体性能. 相似文献

14.

并行时空处理模型下的快速N-body算法

下载免费PDF全文

王伟曾栩鸿王福焕傅丽丽曾国荪《计算机科学与探索》2011,5(11):1006-1013

图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的应用程序接口(application programming interface,API),便于程序员发挥GPU的并行计算能力。采用图形硬件进行加速计算,通过一种新的GPU处理模型——并行时间空间模型,对现有GPU上的N-body实现进行了分析,从而提出了一种新的GPU上快速仿真N-body问题的算法,并在AMD的HD Radeon 5850上进行了实现。实验结果表明,相对于CPU上的实现,获得了400倍左右的加速;相对于已有GPU上的实现,也获得了2至5倍的加速。相似文献

15.

Analyzing GPU-controlled communication with dynamic parallelism in terms of performance and energy

《Parallel Computing》2016

Graphic Processing Units (GPUs) are widely used in high performance computing, due to their high computational power and high performance per Watt. However, one of the main bottlenecks of GPU-accelerated cluster computing is the data transfer between distributed GPUs. This not only affects performance, but also power consumption. The most common way to utilize a GPU cluster is a hybrid model, in which the GPU is used to accelerate the computation, while the CPU is responsible for the communication. This approach always requires a dedicated CPU thread, which consumes additional CPU cycles and therefore increases the power consumption of the complete application. In recent work we have shown that the GPU is able to control the communication independently of the CPU. However, there are several problems with GPU-controlled communication. The main problem is intra-GPU synchronization, since GPU blocks are non-preemptive. Therefore, the use of communication requests within a GPU can easily result in a deadlock. In this work we show how dynamic parallelism solves this problem. GPU-controlled communication in combination with dynamic parallelism allows keeping the control flow of multi-GPU applications on the GPU and bypassing the CPU completely. Using other in-kernel synchronization methods results in massive performance losses, due to the forced serialization of the GPU thread blocks. Although the performance of applications using GPU-controlled communication is still slightly worse than the performance of hybrid applications, we will show that performance per Watt increases by up to 10% while still using commodity hardware. 相似文献

16.

基于编码解码结构的移动端电力线语义分割方法

黄巨挺高宏力戴志坤《计算机应用》2021,41(10):2952-2958

针对传统的视觉算法在复杂场景下检测细长电力线准确率低、受环境因素干扰大,现有基于深度学习的电线检测算法效率不高的问题,提出一种适用于移动端电力线检测的端到端全卷积神经网络模型。首先,采用一种对称的编码-解码结构,其中编码部分使用最大池化层进行下采样,以提取多尺度特征,而解码部分使用最大池化索引的非线性上采样方式逐层融合多尺度特征,以恢复图像细节;其次,针对电线像素与背景像素不平衡的问题,采用了一种加权损失函数来训练模型;最后,构建了一个背景复杂且有像素级标注的电线数据集来训练和评估模型,并重新标注了一个公开电线数据集作为不同源测试集。与现有移动端电线语义分割模型Dilated ConvNet相比,所提模型在移动端设备GPU NVIDIA JetsonTX2上对于512×512分辨率的图片的预测速度提升至Dilated ConvNet的两倍,达到8.2 frame/s所提模型在同源测试集上的平均交并比（mIoU）为0.857 3,F1分数为0.844 7,平均精度（AP）为0.927 9,这三个指标分别提升了0.011、0.014和0.008;所提模型在公开测试集上的mIoU达到0.724 4,F1分数达到0.634 1,AP达到0.664 4,这三个指标分别提升了0.004、0.007和0.032。实验结果表明,该模型具有更好的移动端电力线实时分割性能。相似文献

17.

一种面向55 nm工艺的可扩展统一架构图形处理器设计与实现

黄亮秦信刚武玲娟熊庭刚《计算机工程与科学》2014,36(12):2418-2423

现代3D图形处理器已从固定渲染管线发展成可编程渲染管线,且其并行度越来越高,研究并设计高性能的3D图形处理器对3D图形处理具有重要意义。着色器是实现3D图形处理器的核心,因此开发性能高、面积小、功耗低又易于扩展的着色器对3D图形处理器的开发具有重要作用。提出的统一架构图形处理器基于单指令多线程和单指令多数据,单指令多线程可以提高图形处理的并行度,从而提高图形处理性能;单指令多数据可以降低设计复杂度,从而实现面积小、功耗低又易于扩展的着色器。实验结果表明,提出的统一架构图形处理器在面积较小、功耗较低的情况下实现了较高的性能,且设计可扩展性较好。相似文献