期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

熊英罗琼《电脑开发与应用》2013,(11):77-78

以NDVI算法为例,讲述了利用OpenCL框架,使用GPU对NDVI算法实现加速操作。利用OpenCL框架的异构性,研究是否能更加有效提高加速比。相似文献

2.

《计算机应用与软件》2017,(3)

快速福利叶变换在图像处理领域,尤其是在图像复原算法中作为常用的计算工具,将时域计算转变为频域计算,在工程应用中有着非常重要的意义。采取多线程分块以及并行的映射方法,可以使FFT算法最大程度并行。针对OpenCL的存储层次特点和算法层次的优化,在AMD GPU平台上取得了明显的加速效果。优化后的算法性能比具有相同处理能力的CPU平台提高了7倍,比具有相同处理能力的CUDA提高了4倍。相似文献

3.

OpenCL加速的基于虚拟节点法的柔性体实时切割仿真

贾世宇潘振宽张维忠《计算机辅助设计与图形学学报》2014,26(10)

为了提高柔性体变形仿真运行速度并且解决切割对变形计算稳定性的负面影响,提出了能与GPU加速的变形算法协同运作的基于虚拟节点法的柔性体实时切割仿真方法.柔性体模型由真实四面体网格嵌入虚拟四面体网格中构成,前者用于碰撞处理和图形渲染,而后者则用于变形计算.切割算法首先分裂真实四面体网格;然后复制包含超过一块真实四面体连通碎片的虚拟四面体,每个复制品包含一块真实四面体碎片;再根据真实四面体之间的连接关系更新虚拟四面体之间的连接关系;最后更新真实四面体网格与虚拟四面体网格之间的镶嵌关系.为了确保仿真系统不被限制在NVIDIA公司的GPU上,GPU加速使用OpenCL实现.仿真测试结果表明,该方法可以在任意多次切割情况下保持变形计算稳定不发散,并且在NVIDIA公司和AMD公司的GPU上都可以正确运行. 相似文献

4.

一种基于OpenCL的高能效并行KNN算法及其GPU验证

《电子技术应用》2016,(2):14-16

近年来数据分类技术已经被广泛应用于各类问题中,作为最重要的分类算法之一,K最近邻法(KNN)也被广泛使用。在过去的近50年,人们就如何提高KNN的并行性能做出巨大努力。基于CUDA的KNN并行实现算法——CUKNN算法证明KNN在GPU上的并行实现比在CPU上串行实现的速度提升数十倍,然而,CUDA在实现过程中包含了大量的冗余计算。提出了一种并行冒泡的新型KNN并行算法,并通过OpenCL,在以GPU作为计算核心的异构系统上进行验证,结果显示提出的方法比CUDA快16倍。相似文献

5.

面向多GPU的图神经网络训练加速

苗旭鹏王驭捷沈佳邵蓥侠崔斌《软件学报》2023,34(9):4407-4420

图神经网络由于其强大的表示能力和灵活性最近取得了广泛的关注. 随着图数据规模的增长和显存容量的限制, 基于传统的通用深度学习系统进行图神经网络训练已经难以满足要求, 无法充分发挥GPU设备的性能. 如何高效利用GPU硬件进行图神经网络的训练已经成为该领域重要的研究问题之一. 传统做法是基于稀疏矩阵乘法, 完成图神经网络中的计算过程, 当面对GPU显存容量限制时, 通过分布式矩阵乘法, 把计算任务分发到每个设备上, 这类方法的主要不足有: (1)稀疏矩阵乘法忽视了图数据本身的稀疏分布特性, 计算效率不高; (2)忽视了GPU本身的计算和访存特性, 无法充分利用GPU硬件. 为了提高训练效率, 现有一些研究通过图采样方法, 减少每轮迭代的计算带价和存储需求, 同时也可以支持灵活的分布式拓展, 但是由于采样随机性和方差, 它们往往会影响训练的模型精度. 为此, 提出了一套面向多GPU的高性能图神经网络训练框架, 为了保证模型精度, 基于全量图进行训练, 探索了不同的多GPU图神经网络切分方案, 研究了GPU上不同的图数据排布对图神经网络计算过程中GPU性能的影响, 并提出了稀疏块感知的GPU访存优化技术. 基于C++和CuDNN实现了该原型系统, 在4个不同的大规模GNN数据集上的实验表明: (1)通过图重排优化, 提高了GPU约40%的缓存命中率, 计算加速比可达2倍; (2)相比于现有系统DGL, 取得了5.8倍的整体加速比. 相似文献

6.

基于OpenCL的NDVI算法

熊英罗琼《计算机光盘软件与应用》2013,(18):99-100

随着计算机技术的不断发展,软件的规模也越来越大。一张遥感图像可达到数G以上,处理起来有时候可能需要数个小时。因此,针对这些大数据量的系统来说,加速比提高一倍,就会使运行时间减少几个小时,这对于系统来说就是一种非常可观的现实,非常值得去实现。本文将以NDVI算法为例,主要介绍了NDVI算法、NDVI的应用和性质、OpenCL介绍。相似文献

7.

Android平台下OpenCL加速的说话人识别系统

张竞丹韩俊刚《计算机与数字工程》2019,47(7)

相似文献

8.

基于OpenCL的GPU加速三维时域有限差分电磁场仿真算法研究

代健褚天舒杨照《数值计算与计算机应用》2014,(1):10-11

提出了一种基于开放运算语言（OpenCL）的GPU加速三维时域有限差分（FDTD）电磁场仿真计算的方法．该方法利用图形处理单元（GPU）的并行处理特性并结合OpenCL接口标准实现了时域卷积完全匹配层（CPML）吸收边界条件的三维FDTD的高性能加速计算．首先设置FDTD仿真参数并动态申请内存空间,然后初始化OpenCL的计算参数,对三维电磁模型基于OpenCL进行FDTD加速仿真．本方法显著提升了FDTD电磁场仿真速度,与利用CPU计算相比速度提升可达5-8倍,且具有CPML吸收边界条件,可以模拟电磁波在自由空间的传播;基于OpenCL编译的语言程序可以运行在CPU或GPU硬件上,并可充分发挥多核CPU的并行计算能力,使得FDTD电磁场仿真具有更广泛的实际应用．相似文献

9.

基于OpenCL机器视觉算法GPU实现

吴进刘应刘镇弢李乔深《计算机工程与设计》2019,40(2)

相似文献

10.

TensorFlow框架中OpenCL算子的实现及集成

郭强程大果孙羽菲周建宇张玉志裴嘉傲甘润东陈锐《数据与计算发展前沿》2022,(2):3-16

【目的】目前,TensorFlow 这一主流机器学习框架与CUDA异构编程环境的组合在学术界与工业界得到大量使用,使用CUDA实现的TensorFlow算子是加速计算的关键。然而,TensorFlow对于OpenCL 这一开放通用的异构编程标准的不支持严重限制了TensorFlow的通用性,并导致OpenCL硬件设备的算力无法充分发挥。【方法】针对此问题,本文深入探索TensorFlow的底层实现,在对TensorFlow代码结构深入分析的基础上实现了OpenCL算子,并且在2.2.0版本的TensorFlow框架实现了OpenCL算子的集成。【结果】基于上述实现,TensorFlow能够借助OpenCL算子在支持OpenCL 1.2的硬件设备上运行。同时,本文提出的优化方法也大幅提升了OpenCL算子的计算效率。【结论】通过实验表明,本文提出的方法能够有效地解决TensorFlow无法应用在OpenCL硬件设备上的问题。相似文献

11.

CNN卷积计算在移动GPU上的加速研究

王湘新时洋文梅《计算机工程与科学》2018,40(1):34-39

卷积神经网络(CNN)凭借其优秀的表现正在诸如图像分类、语音识别等领域里扮演着越来越重要的角色,已经有一些研究人员想要将这个深度学习过程复制到手机上。但是,由于CNN巨大的计算量,移植程序的性能一直难以令人满意。为了探讨如何解决这一问题,借助MXNet这样一个深度学习的框架在手机上实现了CNN的前向过程,并且将注意力放在了使用手机上另一个强大的计算设备——GPU上。最终选择使用OpenCL通用编程框架将前向过程中最耗时的卷积操作利用矩阵乘来完成,并转移到GPU上进行。在此基础之上还针对手机GPU做了一些优化。最终,实验结果显示我们成功地将前向过程的时间降低到了原来时间的一半。相似文献

12.

人工神经网络技术的发展与应用 总被引：3，自引：1，他引：3

汤素丽罗宇锋《电脑开发与应用》2009,22(10):59-61

神经控制是一种新型的控制系统,其在动态模拟、建模和控制方面应用广泛。为了更好地研究人工神经网络技术,对人工神经网络的起源和发展历史作了回顾,阐述了人工神经网络的一般结构特性,讨论了几种常用的人工神经网络的忧缺点以及目前在工程应用中的情况,并用较先进的例子对其应用作了说明,然后对其发展与应用作了展望,以期对人工神经网络的研究与应用提供参考。相似文献

13.

应用人工神经网络确定声波孔隙度 总被引：2，自引：0，他引：2

夏克文宋建平李昌彪《小型微型计算机系统》2004,25(4):716-718

利用声波测井获得的时差求取地层孔隙度是石油测井解释中一项重要任务，传统的方法主要是利用Wyllie实验得到的时间平均公式以及其改进形式或经验公式，均为统计学方法，在具体应用上是很不方便的，优越于统计学理论的人工神经网络方法具有高度的自学习、自适应和抗干扰性等优点，采用带有非线性连接权的二层前馈神经网络能够取代三层BP网络的功能，实际应用表明，应用神经网络能够很好地确定声波孔隙度．相似文献

14.

基于人工示例训练的神经网络集成入侵检测

下载免费PDF全文

徐敏《计算机工程》2012,38(6):198-200

提出一种基于人工示例训练的神经网络集成入侵检测方法。使用不同的训练数据集训练不同的成员网络,以此提高成员网络之间的差异度。在保证成员网络个数的基础上,选择差异度较大的成员网络构成集成,以提高系统的整体性能。实验结果表明,与当前流行的集成算法相比,该方法在保证较高入侵检测率的前提下,可保持较低的误检率,并对未知入侵也具有较高的检测率。相似文献

15.

基于输入特征稀疏化的图神经网络训练加速

马煜昕许胤龙李诚钟锦《计算机系统应用》2024,33(1):245-253

图神经网络(graph neural network, GNN)是处理图数据的重要方法. 由于计算复杂、图数据容量大, 在大规模图上训练图神经网络依赖于CPU-GPU协作和图采样训练方法, 其中图结构和特征数据存储在CPU内存中, 而采样得到的子图及其特征则传输至GPU进行训练. 然而, 这种方法面临着严重的图特征数据加载瓶颈, 显著降低了端到端训练性能, 且图特征占用过多内存, 严重限制了可训练的图规模. 为了解决这些问题, 我们提出了基于输入特征稀疏化的数据加载方法, 显著减少CPU内存占用和跨PCIe总线传输的数据量, 大幅缩短数据加载时间, 加速GNN的训练, 使其可以充分利用GPU计算资源. 针对图特征和GNN计算特性, 我们提出了适用于图特征数据的稀疏化方法, 在压缩比和模型准确度之间达到平衡. 我们在3个常见GNN模型和3个不同规模的数据集上进行了实验评估, 包括最大的公开数据集之一MAG240M. 结果表明, 此方法将特征尺寸减小了一个数量级以上, 并实现1.6–6.7倍的端到端训练加速, 而模型准确度的降低不超过1%. 此外, 在仅使用4个GPU的情况下, 仅需40 min就可以在MAG240M上完成GraphSAGE模型的训练并达到目标准确度. 相似文献

16.

基于人工免疫网络的神经网络集成方法

下载免费PDF全文

张全平吴耿锋《计算机工程》2008,34(23):199-201

提出基于人工免疫网络的神经网络集成方法AINEN。在用Bagging生成神经网络集成之后,将人工免疫网络的原理应用到神经网络集成,组成了一个从微观上看是一个一个的神经网络,而从宏观上看是一个大的人工免疫网络的集成。通过在微观层次上提高神经网络集成的个体之间的异构度,在宏观层次上提高免疫网络的适应度,从而降低集成的泛化误差。AINEN与GASEN方法在标准数据集上进行的实验表明,AINEN能取得更小的泛化误差。相似文献

17.

人工神经网络模型发展及应用综述 总被引：2，自引：0，他引：2

下载免费PDF全文

张驰郭媛黎明《计算机工程与应用》2021,57(11):57-69

人工神经网络与其他学科领域联系日益紧密,人们通过对人工神经网络层结构的探索和改进来解决各个领域的问题.根据人工神经网络相关文献进行分析,综述了人工神经网络算法以及网络模型结构的发展史,根据神经网络的发展介绍了人工神经网络相关概念,其中主要涉及到多层感知器、反向传播神经网络、卷积神经网络以及递归神经网络,描述了卷积神经网... 相似文献

18.

基于人工神经网络的数字识别系统的研究 总被引：2，自引：0，他引：2

王建雄刘应龙《微机发展》2006,16(5):26-27

在社会生活各领域中,存在着含有大量数字信息的文件,实现计算机对数字的自动识别已经成为当今社会的一种需求。基于此,文中提出了一种神经网络的方法来实现数字识别。经实验结果表明,该系统取得了较好的识别精度。相似文献

19.

电力电量预测的神经网络方法

张喆吴知非《数字社区&智能家居》2007,(20)

本文依次将前六个月用电量作为输入值,第七个月用电量作为输出值,建立BP神经网络结构,根据历史数据对神经网络进行训练,并通过预测试验,对预测网络进行检验,结果表明利用神经网络方法对全国用电量进行预测是可行的. 相似文献

20.

面向GPU计算平台的神经网络卷积性能优化

李茂文曲国远魏大洲贾海鹏《计算机研究与发展》2022,59(6):1181-1191

图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication, GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络. 相似文献