期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

工艺参数变化下的基于统计时序分析的时钟偏差安排 总被引：1，自引：0，他引：1

方君陆伟成赵文庆《计算机辅助设计与图形学学报》2007,19(9):1172-1177

针对工艺参数变化的情况,提出一种成品率驱动的时钟偏差安排算法.提出统计时序约束图的概念,利用统计时序分析的结果将时序电路转换为统计时序约束图;将寻找关键环问题转换为最小费用/时间比值环问题,并按比例分配关键环中的时钟偏差的安全余量.实验结果表明,该算法有助于提高集成电路的成品率. 相似文献

2.

CUDA平台的分形图像压缩方法

余莉《小型微型计算机系统》2011,32(7)

考虑到分形图像压缩中,值域块与定义域块之间的匹配能够并行计算这一特点,利用计算统一设备平台CUDA进行GPU加速.提出一种GPU、CPU相结合的四叉树压缩算法,通过GPU加速最耗时的距离计算部分,而四叉树分割、初始化等部分仍采用CPU完成.在GPU加速部分,讨论了单值域块与多值域块的方法,通过分析与实验表明,后者比前者能进一步提高并行性能.与传统的纯CPU方法相比,本文的方法能够显著提高压缩速度. 相似文献

3.

节点内无冗余图像合成方法

刘华海王攀李思昆蔡勋王文珂曾亮《计算机辅助设计与图形学学报》2013,25(5)

为了提高图像合成性能,提出一种基于GPU加速的节点内多GPU图像高效合成方法.首先通过判断帧缓存是否更新生成有效像素表,然后采用GPGPU计算生成有效像素合成索引列表,最后用其指导CPU端图像合成操作,从而完全避免了CPU端的冗余合成计算.理论分析表明,在理想负载平衡条件下,该方法的加速比为图像有效像素百分比与节点内GPU数量的比值.实验结果表明,在节点内配置4个GPU时,针对有效像素比为12％～76％的高分辨率图像,该方法比全图像合成方法的性能提高了3～5倍. 相似文献

4.

面向GPU平台的复杂网络core分解方法研究

张珩崔强侯朋朋武延军赵琛《软件学报》2020,31(4):1225-1239

在复杂网络理论中,core分解是一种最基本的度量网络节点“重要性”并分析核心子图的方法.Core分解广泛应用于社交网络的用户行为分析、复杂网络的可视化、大型软件的代码静态分析等应用.随着复杂网络的图数据规模和复杂性的增大,现有研究工作基于多核CPU环境设计core分解并行算法,由于CPU核数和内存带宽的局限性,已经无法满足大数据量的高性能计算需求,严重影响了复杂网络的分析应用.通用GPU提供了1万以上线程数的高并行计算能力和高于100GB/s访存带宽,已被广泛应用于大规模图数据的高效并行分析,如广度优先遍历和最短路径算法等.为了实现更为高效的core分解,提出面向GPU平台下的复杂网络core分解的两种并行策略.第1种RLCore策略基于图遍历思想,利用GPU高并发计算能力对网络图结构自底向上遍历,逐步迭代设置各节点所属的core层;第2种ESCore策略基于局部收敛思想,对各节点从邻居节点当前值进行汇聚计算更新直至收敛.ESCore相比RLCore能够大大降低遍历过程中GPU线程更新同一节点的同步操作开销,而其算法的迭代次数受收敛率的影响.在真实网络图数据上的实验结果表明,所提出的两个策略在效率和扩展性方面能够大幅优于现有其他方法,相比单线程上的算法高达33.6倍性能提升,且遍历边的吞吐性能(TEPS)达到406万条/s,单轮迭代的ESCore的执行效率高于RLCore. 相似文献

5.

MD模拟GPU并行计算现状研究

《计算机与应用化学》2017,(5)

作为高性能科学计算的典型应用,利用GPU并行加速分子动力学模拟是2007年以来计算化学领域高性能计算的热点。本文概述了支持GPU加速的不同MD软件的特点和其研究进展,重点分析了Amber、GROMACS、ACEMD三个代表性软件的单GPU卡和多GPU卡计算性能,结果表明在配置相同数目GPU卡的情况下,单节点比多节点在计算性能上较有优势,桌面工作站配多块GPU卡是性价比相对较好的MD模拟计算模式。本文还考察了单精度和双精度GPU加速MD的模拟计算结果的准确性,与CPU的计算结果进行了比较,结果表明,GPU的计算结果总体而言是可信的。最后,本文对GPU并行加速MD模拟的研究现状进行总结并对未来发展做了展望。相似文献

6.

面向众核GPU加速系统的网络编码并行化及优化

唐绍华《计算机工程与应用》2014,50(21):79-84

网络编码允许网络节点在数据存储转发的基础上参与数据处理,已成为提高网络吞吐量、均衡网络负载和提高网络带宽利用率的有效方法,但是网络编码的计算复杂性严重影响了系统性能。基于众核GPU加速的系统可以充分利用众核GPU强大的计算能力和有效利用GPU的存储层次结构来优化加速网络编码。基于CUDA架构提出了以片段并行的技术来加速网络编码和基于纹理Cache的并行解码方法。利用提出的方法实现了线性随机编码,同时结合体系结构对其进行优化。实验结果显示,基于众核GPU的网络编码并行化技术是行之有效的,系统性能提升显著。相似文献

7.

未知工艺角下时序违反的机器学习预测

黄鹏程冯超超马驰远《计算机工程与科学》2024,(3):395-399

集成电路设计复杂性的增长以及工艺尺寸的持续缩减给静态时序分析以及设计周期带来了新的严峻挑战。为了提升静态时序分析效率、缩短设计周期,充分考虑FinFET工艺特性以及静态时序分析原理,提出了未知工艺角下时序违反的机器学习预测方法,实现了基于部分工艺角的时序特性来预测另外一部分工艺角的时序特性的目标。基于某工业设计进行实验,结果表明,提出的方法利用5个工艺角时序预测另外31个工艺角时序,可达到小于2 ps的平均绝对误差,远远优于传统方法所需的21个工艺角,显著改善了预测精度和减少了静态时序分析工作量。相似文献

8.

基于CUDA的快速车牌字符识别

王世春王平根《计算机应用与软件》2012,(10):8-10,57

传统的车牌识别研究主要目的是提高识别准确率.利用CUDA技术在准确率不降低的情况下实现识别速度的提高.为此,对常用的SVM分类方法进行改进,使其能够在GPU上实现并行计算,再利用改进后的SVM训练和预测车牌字符数据.实验结果表明,相对于运行在CPU上的LIBSVM方法,经过改进的在GPU上运行的SVM方法能够带来1-30倍训练速度和50-72倍预测速度的提高,且随着样本数量的增加,加速效果会更加显著. 相似文献

9.

光子映射在CUDA中的研究与实现 总被引：1，自引：0，他引：1

林其选王毅刚《计算机系统应用》2010,19(5):174-178

通过修改光子映射算法的实现过程,使得该算法能够通过CUDA完全运行在最新的GPU上,从而能够充分利用GPU强大的并行计算能力,加速光子映射的实现。光子映射在CUDA中的实现主要通过两个方面来完成：构建光子图和估计辐射能。同时为了提高对光子图中的光子信息的查找速度,采用了kd-tree结构来存储光子信息,使得可以通过KNN（K-Nearest Neighbor）快速搜索光子图。在所测试环境中,渲染速度是CPU中的近1O倍。相似文献

10.

锚社区时序网络图生成算法

郑舒文王朝坤《计算机科学》2024,(1):113-123

图数据相关分析任务往往需要合成数据集来检验和评估算法的有效性和高效性。真实世界图数据不仅在拓扑上具有社区结构特征，还往往在时序上呈现出一定的演化特性，社区节点可能在锚定时间窗口内频繁交互。然而，现有合成方法存在一定局限性。大多方法或仅关注网络中的社区结构，或仅关注网络中的时序信息，无法生成节点锚时频繁交互的社区。为克服此局限，提出了锚社区概念及定义以刻画社区内节点锚时频繁交互的特性；接着，基于分布概率生成模型提出了一般时序图生成算法；进一步地，提出了锚社区时序网络图生成算法(GTN-AC),不仅允许用户配置锚定时间窗口，还允许用户指定度数分布和时间戳分布。实验结果表明，相较于基准方法，GTN-AC能在保证较优生成质量的同时拥有较快的生成速度。相似文献

11.

面向多GPU的图神经网络训练加速

苗旭鹏王驭捷沈佳邵蓥侠崔斌《软件学报》2023,34(9):4407-4420

图神经网络由于其强大的表示能力和灵活性最近取得了广泛的关注. 随着图数据规模的增长和显存容量的限制, 基于传统的通用深度学习系统进行图神经网络训练已经难以满足要求, 无法充分发挥GPU设备的性能. 如何高效利用GPU硬件进行图神经网络的训练已经成为该领域重要的研究问题之一. 传统做法是基于稀疏矩阵乘法, 完成图神经网络中的计算过程, 当面对GPU显存容量限制时, 通过分布式矩阵乘法, 把计算任务分发到每个设备上, 这类方法的主要不足有: (1)稀疏矩阵乘法忽视了图数据本身的稀疏分布特性, 计算效率不高; (2)忽视了GPU本身的计算和访存特性, 无法充分利用GPU硬件. 为了提高训练效率, 现有一些研究通过图采样方法, 减少每轮迭代的计算带价和存储需求, 同时也可以支持灵活的分布式拓展, 但是由于采样随机性和方差, 它们往往会影响训练的模型精度. 为此, 提出了一套面向多GPU的高性能图神经网络训练框架, 为了保证模型精度, 基于全量图进行训练, 探索了不同的多GPU图神经网络切分方案, 研究了GPU上不同的图数据排布对图神经网络计算过程中GPU性能的影响, 并提出了稀疏块感知的GPU访存优化技术. 基于C++和CuDNN实现了该原型系统, 在4个不同的大规模GNN数据集上的实验表明: (1)通过图重排优化, 提高了GPU约40%的缓存命中率, 计算加速比可达2倍; (2)相比于现有系统DGL, 取得了5.8倍的整体加速比. 相似文献

12.

图数据库中基于GPU的图分析计算方法

钱裳云邵志远郑然陈继林《计算机工程》2021,47(6):52-59

现有的图数据库对于在线分析操作大多采用基于CPU的分布式图计算引擎（如GraphX）,但CPU核心数量有限的不足会导致计算效率低下,同时集群间的同步也会产生额外的通信开销。通过使用图形处理单元（GPU）对图计算进行加速,设计并实现图处理系统RockGraph。该系统能够根据用户需求从图数据库中提取出包含核心信息的子图,经过数据格式转换后,利用JNI工具调用动态链接库,采用超显存GPU图计算框架进行在线分析,并将计算结果写回图数据库。实验结果表明,与基于CPU的分布式图计算系统相比,RockGraph的图分析效率可提高3倍~5倍。相似文献

13.

基于GPU的并行最小生成树算法的设计与实现*

郭绍忠王伟王磊《计算机应用研究》2011,28(5):1682-1684

针对目前并行Prim最小生成树算法效率不高的问题,在分析现有并行Prim算法的基础上,提出了适于GPU架构的压缩邻接表图表示形式,开发了基于GPU的minreduction数据并行原语,在NVIDIA GPU上设计并实现了基于Prim算法思想的并行最小生成树算法。该算法通过使用原语缩短关键步骤的查找时间,从而获得较高效率。实验表明,相对于传统CPU实现算法和不使用原语的算法,该算法具有较明显的性能优势。相似文献

14.

基于图划分抽样算法的图表示学习

夏鑫高品陈康姜进磊《计算机应用研究》2020,37(9):2586-2590,2599

在基于神经网络的图表示算法中,当节点属性维度过高、图的规模过大时,从内存到显存的数据传输会成为训练性能的瓶颈。针对这类问题,该方法将图划分算法应用于图表示学习中,降低了内存访问的I/O开销。该方法根据图节点的度数,将图划分成若干个块,使用显存缓存池存储若干个特征矩阵块。每一轮训练,使用缓存池中的特征矩阵块,以此来减少内存到显存的数据拷贝。针对这一思想,该方法使用基于图划分的抽样算法,设计显存的缓存池来降低内存的访问,运用多级负采样算法,降低训练中负样本采样的时间复杂度。在多个数据集上,与现有方法对比发现,该方法的下游机器学习准确率与原算法基本一致,训练效率可以提高2~ 7倍。实验结果表明,基于图划分的图表示学习能高效训练模型,同时保证节点表示向量的测试效果。今后的课题可以使用严谨的理论证明,阐明图划分模型与原模型的理论误差。相似文献

15.

基于图形处理器的通用计算模式* 总被引：4，自引：4，他引：0

王磊张春燕《计算机应用研究》2009,26(6):2356-2358

针对GPU图形处理的特点,分析其应用于通用计算的并行处理机制和数据映射,提出了一种GPU通用计算模式的映射机制和一般性设计方法,并针对GPU的吞吐量、数据流处理能力和基本数学运算能力等进行性能测试,为GPU通用计算的算法设计、实现和性能优化提供参考依据。相似文献

16.

基于GPU的遥感影像数据融合IHS变换算法 总被引：5，自引：1，他引：4

下载免费PDF全文

卢俊张保明黄薇李二森《计算机工程》2009,35(7):261-263

提出基于图形处理单元（GPU）的遥感影像IHS融合算法,利用图形硬件的可编程渲染器和其处理数据的并行性,把IHS的正反变换映射到GPU中进行计算。应用RTT和MRT技术实现IHS正反变换中3个分量的并行渲染输出,加速计算过程。实验结果表明,在数据量较大时,该算法的处理速度比基于CPU的算法速度更快。相似文献

17.

Multi-level graph layout on the GPU

Frishman Y Tal A 《IEEE transactions on visualization and computer graphics》2007,13(6):1310-1319

This paper presents a new algorithm for force directed graph layout on the GPU. The algorithm, whose goal is to compute layouts accurately and quickly, has two contributions. The first contribution is proposing a general multi-level scheme, which is based on spectral partitioning. The second contribution is computing the layout on the GPU. Since the GPU requires a data parallel programming model, the challenge is devising a mapping of a naturally unstructured graph into a well-partitioned structured one. This is done by computing a balanced partitioning of a general graph. This algorithm provides a general multi-level scheme, which has the potential to be used not only for computation on the GPU, but also on emerging multi-core architectures. The algorithm manages to compute high quality layouts of large graphs in a fraction of the time required by existing algorithms of similar quality. An application for visualization of the topologies of ISP (Internet Service Provider) networks is presented. 相似文献

18.

基于GPU的全源最短路径算法

邢星星赵国兴骆祖莹方浩《计算机科学》2012,39(3):299-303

针对有向图中每对顶点之间的最短路径问题,基于CPU集群并行算法,根据GPU并行计算加速机制,提出了基于棋盘划分方式的GPU并行算法,以增加算法的并行性与数据的局部性。当有向图规模超过GPU显存限制时,进一步提出了异步并行处理的GPU最短路径算法。实验结果表明,与CPU上单核算法相比,本算法具有如下加速效果:(1)对于节点数少于10000的小规模有向图,可以实现约155倍的加速;(2)对于节点数超过10000的大规模有向图,可实现约25倍的加速。相似文献

19.

图形处理器通用计算的实现与验证

下载免费PDF全文

齐记杨孔庆杨磊《计算机工程与应用》2009,45(33):67-69

讨论了显示卡用于通用科学计算的问题,并以大型矩阵的基本运算问题详细比较了CPU和GPU计算之间的差别。在基本的矩阵运算中,运用适当的矩阵分块,GPU的计算速度比CPU快50倍左右。而且,显示卡低廉的价格为更多科研工作者实现大规模运算提供了可能。相似文献

20.

大规模稀疏矩阵的主特征向量计算优化方法 总被引：1，自引：0，他引：1

王伟陈建平曾国荪俞莉花谭一鸣《计算机科学与探索》2012,6(2):118-124

矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图形处理单元求解得到了广泛关注。分别从应用特征和GPU体系结构特征两方面分析了PEC运算的性能瓶颈,提出了一种面向GPU的稀疏矩阵存储格式——GPU-ELL和一个针对GPU的线程优化映射策略,并设计了相应的PEC优化执行算法。在ATI HD Radeon5850上的实验结果表明,相对于传统CPU,该方案获得了最多200倍左右的加速,相对于已有GPU上的实现,也获得了2倍的加速。相似文献