期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

隋轶丞石昌青孙羽菲张玉志陈禹乔张宇哲《数据与计算发展前沿》2022,4(3):19-29

【目的】深度学习模型以较强的建模性能和优秀的多场景适应能力被广泛应用于各类典型人工智能领域。目前通常采用异构并行计算技术满足深度学习模型的算力需求,然而目前深度学习框架普遍使用CUDA或ROCm等编程模型,仅能支持特定厂商设备;对于通用异构计算设备,需要通过OpenCL编程标准实现支持,因此我们着力于实现TensorFlow框架的OpenCL版本。【方法】本文对TensorFlow框架中主要基于Eigen库提供的接口实现的Element-Wise算子进行代码分析,拆解对应结构体和类的封装方式,并基于OpenCL的编程标准对Element-Wise算子进行实现和封装,确保了代码的规范性和可扩展性。【结果】本文以CUDA算子为基准,对OpenCL的Element-Wise算子进行测试和对比,实验结果分别从正确性和计算效率两方面验证了本文OpenCL版本算子实现的可行性。【结论】作为实现OpenCL版本的TensorFlow框架这一工作的重要组成部分,本文成功实现了TensorFlow框架中Element-Wise算子的OpenCL版本,并经过实验验证了本文实现的算子的计算准确性和计算效率。相似文献

2.

TensorFlow框架中OpenCL算子的实现及集成

郭强程大果孙羽菲周建宇张玉志裴嘉傲甘润东陈锐《数据与计算发展前沿》2022,(2):3-16

【目的】目前,TensorFlow 这一主流机器学习框架与CUDA异构编程环境的组合在学术界与工业界得到大量使用,使用CUDA实现的TensorFlow算子是加速计算的关键。然而,TensorFlow对于OpenCL 这一开放通用的异构编程标准的不支持严重限制了TensorFlow的通用性,并导致OpenCL硬件设备的算力无法充分发挥。【方法】针对此问题,本文深入探索TensorFlow的底层实现,在对TensorFlow代码结构深入分析的基础上实现了OpenCL算子,并且在2.2.0版本的TensorFlow框架实现了OpenCL算子的集成。【结果】基于上述实现,TensorFlow能够借助OpenCL算子在支持OpenCL 1.2的硬件设备上运行。同时,本文提出的优化方法也大幅提升了OpenCL算子的计算效率。【结论】通过实验表明,本文提出的方法能够有效地解决TensorFlow无法应用在OpenCL硬件设备上的问题。相似文献

3.

TensorFlow中OpenCL核函数的实现与优化

陈锐孙羽菲程大果郭强陈禹乔石昌青隋轶丞张宇哲张玉志《计算机学报》2022,(11):2456-2474

目前,异构计算技术已经被广泛应用于人工智能领域,旨在利用以GPGPU为主的并行加速设备和CPU协同工作,更高效地完成大规模的并行计算.深度学习模型的构建、训练以及推理离不开机器学习框架的支持,但目前主流的机器学习框架基本仅支持CUDA异构编程模型.CUDA的私有性和封闭性导致机器学习框架严重依赖于英伟达GPGPU.众多其它厂商的硬件加速器,尤其是国产加速器难以充分发挥其在深度学习中的潜力.使用开源统一异构编程标准OpenCL代替私有的CUDA编程模型,是打破这一技术壁垒的有效方法.本文提出了TensorFlow中CUDA到OpenCL核函数的代码转换方案,总结整理了核函数转换的基本规则、典型难点问题的解决方法以及OpenCL核函数的性能优化等关键技术.本文首次完成了TensorFlow 2.2版本中135个OpenCL核函数的实现.经一系列测试验证,转换生成的135个OpenCL核函数能够在多种支持OpenCL标准的加速器上正确运行,优化后,近八成的OpenCL核函数在英伟达Tesla V100S上达到了与CUDA核函数相当的计算性能.测试结果验证了本文提出的CUDA到OpenCL核函... 相似文献

4.

MXNet框架中基于OpenCL核函数的多维线性数据处理

甘润东沈舒尹张宇哲《数据与计算发展前沿》2022,(2):29-38

【目的】在深度学习框架中,为了实现大规模深度学习计算,异构的OpenCL计算模型通过充分利用不同厂商生产的不同类型硬件设备和计算资源成为提升学习效率的重要途径。因此将深度学习框架例如MXNet等迁移至OpenCL计算模型上以提高其对大规模深度学习的适配性。在对MXNet深度学习框架的迁移过程中,深度学习计算中较为普遍的多维线性数据处理相关操作的迁移则是本文需要讨论的主要问题。【方法】通过系统地比较CUDA计算模型和OpenCL计算模型的运行机制,将已兼容CUDA计算模型的MXNet深度学习框架中对多维线性数据处理的逻辑基于OpenCL计算模型进行适配性重构。【结果】通过基于OpenCL计算模型进行适配性重构的MXNet深度学习计算框架中的有关多维线性数据处理的计算操作能够通过已有的框架测试。【结论】基于OpenCL计算模型进行适配性重构方案能够很好地解决MXNet深度学习框架迁移至OpenCL计算模型时较为普遍的多维线性数据处理相关操作的迁移问题。相似文献

5.

基于OpenCL的Lammps短程力算法优化研究

赵成龙施慧彬俞忻峰《计算机工程与科学》2015,37(9):1614-1620

Lammps是用于分子动力学模拟及其相关问题的一款开源软件,可利用其了解固体、液体性质,应用广泛。支持使用CUDA及OpenCL进行GPU加速。因OpenCL具有跨平台特性,将其作为研究重点。总结了OpenCL内核编程中需要注意的设计原则并阐述了一种改进的阿姆达尔定律用于衡量异构平台理论加速性能。测试了Lammps短程力计算在Y485P平台下的性能参数。通过对短程力计算中的关键部分如邻接表的建立及短程力计算部分的内核代码进行优化,使其取得了更好的加速效果。相似文献

6.

GROMACS 2020在ROCm平台上的移植与优化

张驭洲曹武迪卜景德谭光明吉青《计算机工程与科学》2021,43(11):1901-1909

GROMACS是应用广泛的开源分子动力学模拟软件,当前主要通过CUDA使用NVIDIA GPU进行加速计算。ROCm是一个开源的高性能异构计算平台。基于ROCm平台的HIP编程语言,首次实现了GROMACS 2020系列在ROCm平台上的完整移植。在MI50 GPU上,以一个复杂离子液体模拟算例为目标,使用GPU性能分析工具rocprof对移植代码进行了性能分析。针对MI50硬件特性,先后对成键力核函数、静电力的PME核函数和短程非成键力核函数进行了优化,优化后运行目标算例的性能相比初始版本整体上获得了约2.8倍的加速比,在 MI50上的性能高于GROMACS原版OpenCL代码60.5%,相对纯CPU版本有约2.7倍的加速比。在另外2个具有代表性算例的单结点测试以及离子液体算例的多结点扩展性测试中,优化后的代码也达到了较好的性能提升,这表明所采用的优化操作具有一定的通用性。相似文献

7.

面向异构众核的CUDA程序二进制翻译

李男庞建民单征《计算机工程与应用》2016,52(7):17-23

通过二进制翻译手段将CUDA程序移植到其他异构众核处理器平台特别是国产处理器平台,对扩展CUDA程序应用范围,发挥目标平台的众核优势以及支持民族产业都具有现实意义。设计了CUDA程序的二进制翻译框架,从CUDA程序可执行代码入手,采用“分而治之”的手段,将主机端代码和设备端代码分别翻译。重点介绍了移植过程中几个关键问题的解决,包括设备端代码的提取,计算模型的映射,存储模型的映射,栅栏同步和指令翻译问题。通过实验验证了系统功能的正确性。相似文献

8.

多核/众核平台上推荐算法的实现与性能评估

陈静方建滨唐滔杨灿群《计算机科学》2017,44(10):71-74

用OpenCL语言标准设计并实现了推荐系统领域的两种经典算法:交替最小二乘法(Alternating Least Squares,ALS)与循环坐标下降法(Cyclic Coordinate Descent,CCD)。将其应用到CPU,GPU,MIC多核与众核平台上,探索了在该平台上影响算法性能的因子:潜在特征维数与线程个数。同时,将OpenCL实现的两种算法与CUDA和OpenMP的实现进行比较,得出了一系列结论。在同等条件下,与ALS算法相比,CCD算法的精度更高,收敛速度更快且更稳定,但所耗时间更长。ALS和CCD算法基于OpenCL的实现性能不亚于CUDA(CCD 上加速比为1.03x,ALS上加速比为1.2x)和OpenMP的实现(CCD与ALS上加速比大约为1.6~1.7x),并且两种算法在CPU平台上的性能均比GPU与MIC好。相似文献

9.

基于OpenCL的图像模糊化算法优化研究

张樱张云泉龙国平《计算机科学》2012,39(3):260-264

现代GPU一般都提供特定硬件(如纹理部件、光栅化部件及各种片上缓存)以加速二维图像的处理和显示过程,相应的编程模型(CUDA、OpenCL)都定义了特定程序设计接口(CUDA的纹理内存,OpenCL的图像对象)以便图像应用能利用相关硬件支持。以典型图像模糊化处理算法在AMD平台GPU的优化为例,探讨了OpenCL的图像对象在图像算法优化上的适用范围,尤其是分析了其相对于更通用的基于全局内存加片上局部存储进行性能优化的方法的优劣。实验结果表明,图像对象只有在图像为四通道且计算过程中需要缓存的数据量较小时才能带来较好的性能改善,其余情况采用全局内存加局部存储都能获得较好性能。优化后的算法性能相对于精心实现的CPU版加速比为200～1000;相对于NVIDIA NPP库相应函数的性能加速比为1.3～5。相似文献

10.

OclDNN:一种可应用于TensorFlow的通用DNN库

陈锐孙羽菲郭强隋轶丞周振辉石昌青张玉志《计算机工程》2023,(4):138-148

深度学习模型的构建、训练以及推理离不开TensorFlow等机器学习框架中深度学习算子的支撑，对于卷积、池化等深度学习中被高频调用或计算量较大的算子，机器学习框架一般通过调用深度神经网络（DNN）库来提升计算效能。现有DNN库主要由英伟达、AMD等少数国外厂商开发并根据自有硬件设备特点进行优化，但其封闭性导致其他厂商生产的通用加速器难以在深度学习领域发挥作用。为解决现有DNN库无法支持国产加速器的问题，使得深度学习模型能够调用国产加速器进行运算，研究跨平台的通用DNN库，通过对开源MIOpen的结构特点和调用方式进行分析，提出修改和重构该库的方法，并实现一种基于OpenCL的DNN(OclDNN)库。考虑到TensorFlow较高的流行度及其对DNN库调用的特殊性与复杂性，研究通用DNN库在TensorFlow中的集成方法，通过StreamExecutor中的OpenCL平台实现对OclDNN的调用。实验结果表明，OclDNN在英伟达、华为等不同厂商的计算设备上运算结果正确可靠，在相同实验环境下，深度学习算子使用OclDNN时的加速性能比传统CPU并行算法提升了5～60倍。相似文献

11.

基于OpenCL与FPGA异构模式的Sobel算法研究

鲍云峰曾张帆唐文龙田茂《计算机测量与控制》2018,26(1)

随着计算机科学技术的迅速发展,嵌入式领域实时图像处理应用越来越广泛,然而传统硬件因为自身架构导致并行化程度不高,针对在视频监控、机器视觉、视频压缩、医疗影像分析等领域需要对图像进行高性能计算的问题,提出一种以OpenCL软件模型和FPGA异构模式的高性能图像处理解决方案,实现了图像显示和OpenCL加速功能,以Sobel边缘检测算法为研究对象,进行了算法并行性分析,并在系统中运用OpenCL加速内核算法,与基本的ARM平台和OpenCL共享内存加速机制相比较,展开性能测试,对加速效果进行了研究。实验数据表明,使用该系统处理不同分辨率的图像,OpenCL加速子系统的处理较基于片上ARM硬核的软件处理,实现相同功能上有100倍左右的性能提升。相似文献

12.

OpenCL计算软件栈评估

朱浩周博洋卢雪山杜溢墨《计算机工程与科学》2021,43(12):2105-2114

随着智能计算和大数据应用的发展,人们对GPU等加速部件的需求不断增长.计算软件栈比如CUDA、OpenCL软件栈是能充分发挥GPU硬件性能的关键.考虑计算软件栈未来在国产基础软硬件平台(比如飞腾CPU和麒麟操作系统)上的可移植性和适配性,重点研究OpenCL开源计算软件栈.测试分析OpenCL应用在不同平台上的表现,评估应用在不同OpenCL软件栈上(比如Mesa、ROCm等)进行GPU计算的表现,评估软件栈中驱动、内核等对GPU计算的影响,并且整个测试涵盖了编译、数据传输和内核执行等OpenCL计算各个阶段的时间开销.经过测试评估发现,国产平台更迫切也更适合使用GPU进行加速计算,ROCm是比较理想的OpenCL开源软件栈,有较好的性能和稳定性,并且与闭源软件栈相比存在一定的优化空间. 相似文献

13.

实时嵌入式系统C/C++代码性能优化方法综述

张毅杰《单片机与嵌入式系统应用》2021,21(10):18-21

实时嵌入式系统不仅对运算结果的正确性有要求,而且对产生结果所需要的时间也有要求,即要求在一定的时间内产生运算结果.本文详细介绍了优化C/C++代码性能的方法,包括如何利用软件流水进行优化、如何优化循环、如何优化控制代码等,并通过在实际硬件上的对比测试,验证了优化前后代码性能的提升. 相似文献

14.

一种适用于GPU图像处理算法的合并存储结构

左宪禹张哲黄祥志葛强张理涛臧文乾《计算机工程与科学》2020,42(2):197-202

大多数图像处理算法都可利用GPU进行加速以达到更好的执行性能,但数据传输操作与核函数执行之间的调度策略问题仍是桎梏加速性能进一步提升的主要瓶颈。为了解决这个问题,通常采用GPU任务流将核函数执行与数据传输操作进行重叠,以隐藏部分数据传输与核函数执行耗时。但是,由于CUDA编程模型的特性以及GPU硬件资源的限制,在某些情况下,即使创建较多的任务流用于任务重叠,每个流上仍会存在串行执行的任务,导致加速效果无法进一步提升。因此,考虑利用CSS将待处理图像进行合并从而将单个流中的算子核函数及数据传输操作进行合并,以减少数据传输操作和核函数执行的固定代价及调用间隙。通过实验结果可知,提出的CSS结构不仅能在单流的情况下提高GPU图像处理算法执行性能,在多流的情况下其加速性能也得到了进一步提升,具有较好的实用性及可扩展性,适用于包含较多算子操作或较小尺寸图像批量处理的情况。此外,提出的方法对图像处理算法的GPU加速提供了新的研究思路。相似文献

15.

基于图神经网络的OpenCL程序自动优化启发式方法

叶贵鑫张宇翔张成赵佳棋王焕廷《计算机研究与发展》2023,(5):1121-1135

物联网的发展与普及促使计算机异构架构迅速发展,开放运算语言（open computing language,OpenCL）作为首个跨平台异构并行计算框架,具有标准化、可移植性等优点,但因不同平台下软硬件的复杂性和多样性,使OpenCL在性能上的移植性存在一定的缺陷.现有的方法通过深度学习构建优化模型来提高程序运行效率,但所构建的预测模型仅考虑代码的顺序依赖关系,忽略了语法语义信息,导致代码优化效果不明显.为解决上述问题,提出了一种基于多关系图神经网络的OpenCL程序自动优化启发式方法.该方法首先把OpenCL代码转换成多关系代码图,能够提取代码的深度结构与语法语义特征;然后利用改进后的图神经网络模型,将构建的代码图编码为高维的特征向量;最后使用决策网络完成任务预测.为验证方法的有效性,分别在异构设备映射和线程粗化因子预测2个任务上进行实验评估.结果表明,在异构设备映射任务中,最优设备预测准确率能够达到88.7%,相较于现有最先进的方法,加速比可提高7.6%;在线程粗化任务中,加速比相较于现有最优的方法可提高5.2%. 相似文献

16.

使用OpenCL技术的影像快速畸变纠正方法在异构平台上的应用分析

韦博文李涛李广宇汪致恒何沐师悦龄刘路遥张瑞《计算机科学》2016,43(Z11):167-169, 196

针对海量遥感数据应用中日益显著的处理效率低下和计算瓶颈问题,基于通用计算机图形处理单元的编程开发使用OpenCL并行处理技术对遥感数据处理及其过程进行加速,旨在为遥感影像大数据处理提供一条更为高效的途径。在不同显卡平台上对影像畸变纠正实施并行处理,结果表明,OpenCL技术在提高影像畸变纠正的速度方面作用显著,可取得29.1倍的最高加速效果;与CUDA并行处理技术的交叉验证进一步凸显了OpenCL技术在异构平台上实施并行处理时所具有的通用性的优势。相似文献

17.

基于GPU的分子动力学模拟并行化及实现

费辉张云泉王可许亚武《计算机科学》2011,38(9):276-278

分子动力学模拟作为获得液体、固体性质的重要计算手段,广泛应用于化学、物理、生物、医药、材料等众多领域。模拟体系的复杂性和精确性的需求,使得计算量巨大,耗费时间长。并行计算是加速大规模分子动力学模拟的霍要途径。GPU以几百GFlops甚至上I}Flops的运算能力,为分子动力学模拟等的计算密集型应用提供了新的加速方案。提出了一种基于GPU的分子动力学模拟并行算法—oApT-AD,并在OpenCL和CUDA框架下加以实现。,r}能测试显示,在Tesla C1060显卡上,该算法在OpcnCL框架下的实现相对于CPU的串行实现,最高达到120倍加遥比。通过对比发现,该算法在CUDA上的性能与()pcnCI、基本相当。同时,该算法还可以扩展到两块及以上的GPU上,具有良好的可扩展性。相似文献

18.

Altera的FPGA OpenCL计划大幅度缩短早期试用客户的开发时间

《单片机与嵌入式系统应用》2012,(6):71

Altera公司宣布,goHDR作为FPGA OpenCL计划的早期试用客户,通过Altera的FPGA OpenCL计划,大幅度缩短了开发时间,显著提高了性能。与Altera密切合作,goHDR将其专用C代码导入到OpenCL标准中,不到一星期的时间便在FPGA中实相似文献

19.

面向节点异构GPU集群的编程框架

盛冲冲胡新明李佳佳吴百锋《计算机工程》2015,(2)

基于异构GPU集群的主流编程方法是MPI与CUDA的混合编程或者其简单变形。因为对底层的集群架构不透明,程序员对GPU集群采用MPI与CUDA编写应用程序时需要人为考虑硬件计算资源,复杂度高、可移植性差。为此,基于数据流模型设计和实现面向节点异构GPU集群体系结构的新型编程框架分布式并行编程框架(DISPAR)。 DISPAR框架包含2个子系统：(1)代码转换系统StreamCC,是DISPAR源代码到MPI+CUDA代码的自动转换器。(2)任务分配系统StreamMAP,具有自动发现异构计算资源和任务自动映射功能的运行时系统。实验结果表明,该框架有效简化了GPU集群应用程序的编写,可高效地利用异构GPU集群的计算资源,且程序不依赖于硬件平台,可移植性较好。相似文献

20.

基于CUDA的加速MATLAB计算研究* 总被引：4，自引：1，他引：3

刘绍波刘明贵张国华《计算机应用研究》2010,27(6):2140-2143

介绍了NVIDIA公司新的编程框架CUDA的特点以及CUDA加速MATLAB的方法,测试了CUDA加速岩土工程中常用的算法如矩阵计算、快速傅里叶变换、支持向量机。随后分析了数据规模、算法复杂性与加速效果的关系,指出了基于CUDA的MATLAB加速计算的应用前景。测试结果表明,CUDA方式相对传统计算方式的最好加速效果分别达到了22.39倍、46.88倍、51.32倍,证明了CUDA加速计算的有效性。相似文献