首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
受限于计算能力,在现有的电热分析研究中,无法考虑电压变化对电热分析的影响,从而降低了分析的精度.基于已有的研究成果,文中分析了芯片的功耗/电压/温度分布向量之间的相互关系,指出了在电热综合分析中考虑电压/温度变化的必要性,进而提出了一种迭代式的并行电热综合分析方法ETA_VT,该方法基于功耗与电压/温度之间的递归关系,进行迭代计算,最后将收敛后的功耗/电压/温度分布向量作为求解结果同时输出.基于多核CPU+众核GPU异构计算机系统所提供的并行计算资源,为了提高电热综合分析的运行效率,文中不仅设计了一个具有主辅双进程的ETA VT算法流程,而且还分别采用CPU多线程并行计算、GPU并行计算、CPU+GPU协同并行计算技术对ETA_VT算法进行加速研究.实验数据表明:(1)考虑电压/温度变化的电热综合分析不仅可以获得较为精确的分析结果,而且可以同时计算出芯片的功耗/电压/温度分布;(2)采用并行计算技术、并合理分配计算资源,不仅可以解决电热综合分析中存在的功耗/电压/温度多参量相互影响的问题,而且还可以有效地提高电热综合分析的速度,获得多达44倍的加速效果.文中工作是将高性能计算引入电子设计自动化(EDA)算法研究的一次有益尝试,表明高性能计算技术不仅可以提高EDA算法的执行效率,而且可以促进芯片设计中存在的多参量相互影响综合分析问题的研究和解决.  相似文献   

2.
随着GPU通用计算技术应用的不断深入,如何把某些并行计算任务从传统的CPU平台向GPU平台转移,把串行编程模型向并行的流式编程模型转变等,已经成为了研究的热点.讨论了基于GPU的流式编程模型,探讨了基于流式编程模型的GPU与CPU编程之间的差别与联系,最后描述了一种在GPU上的流式缩减操作算法的设计与实现.为把图形处理器应用在通用计算领域提供参考和帮助.  相似文献   

3.
随着图像数据的大量增加,传统单处理器或多处理器结构的计算设备已无法满足实时性数据处理要求。异构并行计算技术因其高效的计算效率和并行的实时性数据处理能力,正得到广泛关注和应用。利用GPU在图形图像处理方面并行性的优势,提出了基于OpenCL的JPEG压缩算法并行化设计方法。将JPEG算法功能分解为多个内核程序,内核之间通过事件信息传递进行顺序控制,并在GPU+CPU的异构平台上完成了并行算法的仿真验证。实验结果表明,与CPU串行处理方式相比,本文提出的并行化算法在保持相同图像质量情况下有效提高了算法的执行效率,大幅降低了算法的执行时间,并且随着图形尺寸的增加,算法效率获得明显的提升。  相似文献   

4.
边缘计算有高实时性和大数据交互处理的需求,边缘异构节点间的调度时耗长、通信时延高以及负载不均衡是影响边缘计算性能的核心问题,传统的云计算平台难以满足新的要求。文中研究了在边缘计算环境下Storm边缘节点的调度优化方法,建立了面向边缘计算的Storm任务卸载调度模型。针对拓扑任务在边缘异构节点间的实时动态分配问题,提出了一种启发式动态规划算法(Inspire Dynamic Programming,IDP),通过改变Storm的Task实例的排序分配方式以及Task实例和Slot任务槽的映射关系实现全局的优化调度;同时,针对拓扑任务的并发度受限于JVM栈深度的缺陷,提出了一种基于蝙蝠算法的调度策略。实验结果表明,与Storm调度算法相比,所提算法在边缘节点CPU利用率指标上平均提升了约60%,在集群的吞吐量指标上平均提升了约8.2%,因此能够满足边缘节点之间的高实时性处理要求。  相似文献   

5.
为有效提高异构的CPU/GPU集群计算性能,提出一种支持异构集群的CPU与GPU协同计算的两级动态调度算法。根据各节点计算能力评测结果和任务请求动态分发数据,在节点内CPU和GPU之间动态调度任务,使用数据缓存和数据处理双队列机制,提高异构集群的传输和处理效率。该算法实现了集群各节点“能者多劳”,避免了单节点性能瓶颈造成的任务长尾现象。实验结果表明,该算法较传统MPI/GPU并行计算性能提高了11倍。  相似文献   

6.
在集群与GPU组成的异构并行计算平台上,使用MPI+CUDA混合编程模型,实现基于ABEEMσπ模型的分子动力学模拟中电荷分布的计算.通过对电荷分布分布求解中的计算部分移植到GPU上进行,并针对算法中通信开销大和资源未充分利用的问题,通过异构平台的异步并发方法进行优化,提高了求解效率.性能测试结果表明,相比于单纯MPI并行算法,优化后GPU加速的异构并行算法,在化学大分子模型电荷分布计算上,有着明显的性能优势.  相似文献   

7.
CPU/GPU协同并行计算研究综述   总被引:6,自引:3,他引:3  
CPU/GPU异构混合并行系统以其强劲计算能力、高性价比和低能耗等特点成为新型高性能计算平台,但其复杂体系结构为并行计算研究提出了巨大挑战。CPU/GPU协同并行计算属于新兴研究领域,是一个开放的课题。根据所用计算资源的规模将CPU/GPU协同并行计算研究划分为三类,尔后从立项依据、研究内容和研究方法等方面重点介绍了几个混合计算项目,并指出了可进一步研究的方向,以期为领域科学家进行协同并行计算研究提供一定参考。  相似文献   

8.
【目的】本文主要分析人工智能和大数据应用随着迅速增大的数据规模,给计算机系统带来的主要挑战,并针对计算机系统的发展趋势给出了一些面向人工智能和大数据亟待解决的高效能计算的若干研究方向。【文献范围】本文广泛查阅国内外在超级计算和高性能计算平台进行大数据和人工智能计算的最新研究成果及解决的挑战性问题。【方法】大数据既为人工智能提供了日益丰富的训练数据集合,但也给计算机系统的算力提出了更高的要求。近年来我国超级计算机处于世界的前列,为大数据和人工智能的大规模应用提供了强有力的计算平台支撑。【结果】而目前以超级计算机为代表的高性能计算平台大多采用CPU+加速器构成的异构并行计算系统,其数量众多的计算核心能够为人工智能和大数据应用提供强大的计算能力。【局限性】由于体系结构复杂,在充分发挥计算能力和提高计算效率方面存在较大挑战。尤其针对有别于科学计算的人工智能和大数据领域,其并行计算效率的提升更为困难。【结论】因此需要从底层的资源管理、任务调度、以及基础算法设计、通信优化,到上层的模型并行化和并行编程等方面展开高效能计算的研究,全面提升人工智能和大数据应用在高性能计算平台上的计算能效。  相似文献   

9.
有限差分算法是一种基于偏微分方程的数值离散方法,被广泛应用于弹性波传播问题的数值模拟中。该算法访存跨度大、计算密度高、CPU利用率低,这在实际应用中成为了性能瓶颈。针对上述问题,在详析3D有限差分算法(3DFD)的基础上,基于Intel MIC架构,采用三步递进法对其进行优化:首先,通过分支消除、循环展开、不变量外提等基本优化法削减计算强度并为向量化扫除障碍;然后,通过分析数据依赖及循环分块,使用向量指令集改写核心算法等并行优化法,充分利用MIC协处理器多线程、长向量的机制;最后,在异构众核平台(CPU+MIC:Many Integra-ted Cores)下通过数据传输最小化、负载均衡等异构协同优化法实现CPU和MIC的并行计算。实验验证,与原有算法相比,优化后的算法在异构平台上获得了50~120倍的加速。  相似文献   

10.
随着异构系统成为建造超级计算机的重要选择,如何让CPU与加速器协调工作以充分发挥异构系统的计算性能具有重要意义.HPL是高性能计算领域最重要的基准测试程序,传统面向纯CPU系统的HPL算法通过利用加速器加速矩阵乘法的做法已经无法取得很好的性能.针对这一问题,本文基于新的国产处理器-国产加速器异构系统提出了一个新的HPL性能模型,设计了一种全新的多线程细粒度异构HPL算法.我们完成了一个轻量级跨平台异构加速框架HPCX用来实现跨平台的HPL算法.我们的性能模型能够准确的预测类似异构系统的HPL性能,我们的多线程细粒度异构HPL算法在NVIDIA GPU平台上性能超过目前NVIDIA平台上性能最好的NVIDIA官方闭源nvhpl程序9%.在国产处理器-国产加速器平台512节点的规模上,我们的新HPL算法实现了2.3PFLOPS实测峰值性能和71.1%的浮点效率.  相似文献   

11.
由于存在诸如CPU运算速度慢,电池容量低等问题,智能移动设备本身无法执行计算需求大的应用程序,需要借助边缘计算技术来降低程序对移动设备硬件的要求。然而将部分计算任务从移动设备传输给边缘服务器,会带来额外的传输能耗和服务器计算能耗。综合考虑影响移动设备和服务器,以及数据传输能耗值的四个因素,即移动设备的计算速度,下载数据功耗,数据卸载百分比和剩余网络带宽占,提出一种基于分层学习的粒子群算法,优化每台移动设备对于这四个参数的取值,更合理分配计算资源使得总能耗最小。对计算资源建模时,还考虑了最大能耗、计算周期、存储、带宽和延迟约束条件。与其他算法进行对比实验发现,通过分层学习优化的粒子群算法,能更快速地获得满足约束条件具有更低能耗的资源调度最优解。  相似文献   

12.
一种面向异构计算的结构化并行编程框架   总被引:1,自引:0,他引:1  
随着人工智能时代的到来,异构计算在深度学习、科学计算等领域发挥着越来越重要的作用。目前异构计算系统在应用上的瓶颈之一在于缺少高效的软件开发框架,已有的OpenCL、CUDA等支持GPU、DSP及FPGA的编程框架基于C/C++语言和传统的并行编程方法,导致软件开发效率较低,软件推理和调试困难,难以灵活处理计算设备之间的协作和调度。提出一种面向异构计算平台的基于脚本语言的结构化并行编程框架,提供结构化的并行编程接口,支持计算任务到异构计算设备的映射,便于并行程序的推理和验证。设计并实现了基于遗传算法的结构化调度算法,充分利用异构计算系统的计算能力,提高了异构计算系统的软件开发效率。实验结果表明,提出的编程框架在CPU+GPU平台上实现了相对于单处理器1.5到2.5倍的加速比。  相似文献   

13.
高光谱图像分类算法通常需要逐点对图像中的像素点进行迭代处理,计算复杂度及并行程度存在较大差异。随着高光谱遥感图像空间、光谱和辐射分辨率的不断提升,这些算法无法满足实时处理海量遥感图像数据的需求。通过分析NPU存储计算一体化模式与遥感图像分类算法的实现步骤,设计低功耗CPU+NPU异构资源计算架构的低秩稀疏子空间聚类(LRSSC)算法,将数据密集型计算转移至NPU,并利用NPU数据驱动并行计算和内置AI加速,对基于机器学习算法的海量遥感数据进行实时分类。受到big.LITTLE计算范式的启发,CPU+NPU异构资源计算架构由8 bit和低精度位宽NPU共同组成以提高整体吞吐量,同时减少图网络推理过程中的能量损耗。实验结果表明,与CPU计算架构和CPU+GPU异构计算架构的LRSSC算法相比,CPU+NPU异构计算架构的LRSSC算法在Pavia University遥感数据集下的计算速度提升了3~14倍。  相似文献   

14.
In order to exploit the efficient computing power of many integrated cores on heterogeneous cluster, a multi-level and multi-granularity collaborative parallel computing method is proposed for finite element structural mechanical analysis. Computing tasks are divided into three levels: inter-node parallelism, inter-device parallelism and inter-core parallelism. Through mapping decomposablecomput- ing jobs to different hardware layers of heterogeneous MIC system, the proposed method not only effectively resolves the load balancing problem between CPU and MIC devices, but also significantly reduces the communication overheads of the system. Different engineering simulation case experiments for large scale parallel computing were conducted on “Tianhe 2” supercomputer. Up to 39000 CPU+MIC cores were employed and the finite element size of the analysis was more than 100 million units. Test results show that the proposed method can achieve good speedup and parallel computing efficiency in large scale parallel computing of finite element structural analysis. The optimized adaptation of finite element structural analysis and heterogeneous MIC computing platform is realized, which can provide reference for parallel porting and performance optimization of similar applications.  相似文献   

15.
递归神经网络(RNN)近些年来被越来越多地应用在机器学习领域,尤其是在处理序列学习任务中,相比CNN等神经网络性能更为优异。但是RNN及其变体,如LSTM、GRU等全连接网络的计算及存储复杂性较高,导致其推理计算慢,很难被应用在产品中。一方面,传统的计算平台CPU不适合处理RNN的大规模矩阵运算;另一方面,硬件加速平台GPU的共享内存和全局内存使基于GPU的RNN加速器的功耗比较高。FPGA 由于其并行计算及低功耗的特性,近些年来被越来越多地用来做 RNN 加速器的硬件平台。对近些年基于FPGA的RNN加速器进行了研究,将其中用到的数据优化算法及硬件架构设计技术进行了总结介绍,并进一步提出了未来研究的方向。  相似文献   

16.
传感云是无线传感器网络(wireless sensor networks,简称WSNs)和云计算的结合.通过利用云计算在资源利用方面的优势,传感云(sensor-cloud)极大地提高了传统无线传感器网络的计算能力和存储容量.然而,传感云仍有许多问题需要解决,例如无线传感器网络在通信和能源方面的局限性,以及将云平台作为数据处理和控制中心所带来的高延迟和安全隐私问题.边缘计算具有解决传感云缺点的巨大潜力,其核心是将云计算中心的部分或全部计算任务迁移到数据源附近进行处理.经过大量调研,分析了传感云的最新研究现状,总结了现有传感云的特点,揭示了已有传感云方案中的问题,提出了基于边缘计算的传感云实现方案.最后,探讨了该研究面临的挑战和未来研究方向.  相似文献   

17.
深度强化学习(Deep Reinforcement Learning, DRL)是机器学习领域的一个重要分支,用于解决各种序贯决策问题,在自动驾驶、工业物联网等领域具有广泛的应用前景。由于DRL具备计算密集型的特点,导致其难以在计算资源受限且功耗要求苛刻的嵌入式平台上进行部署。针对DRL在嵌入式平台上部署的局限性,采用软硬件协同设计的方法,设计了一种面向DRL的FPGA加速器,提出了一种设计空间探索方法,在ZYNQ7100异构计算平台上完成了对Cartpole应用的在线决策任务。实验结果表明,研究在进行典型DRL算法训练时的计算速度和运行功耗相对于CPU和GPU平台具有明显的优势,相比于CPU实现了12.03的加速比,相比于GPU实现了28.08的加速比,运行功耗仅有7.748W,满足了深度强化学习在嵌入式领域的在线决策任务。  相似文献   

18.
DVFS is a ubiquitous technique for CPU power management in modern computing systems. Reducing processor frequency/voltage leads to a decrease of CPU power consumption and an increase in the execution time. In this paper, we analyze which application/platform characteristics are necessary for a successful energy-performance trade-off of large scale parallel applications. We present a model that gives an upper bound on performance loss due to frequency scaling using the application parallel efficiency. The model was validated with performance measurements of large scale parallel applications. Then we track how application sensitivity to frequency scaling evolved over the last decade for different cluster generations. Finally, we study how cluster power consumption characteristics together with application sensitivity to frequency scaling determine the energy effectiveness of the DVFS technique.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号