首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
Stencil计算(模板计算)是科学工程应用中一类常见的嵌套循环算法.分块方法是提高数据局部性和并行性的高效优化技术之一,目前已有大量针对分块方法的探索,但现有工作往往对不同Stencil形状都采用同一处理方法.首先在空间层面引出“自然块”的概念来区分星型Stencil和盒型Stencil的特征,然后提出一个新的针对星型Stencil的2层密铺方案,此方案中自然块和它的后继块可以密铺数据空间区域,这些分块沿着时间维度扩展,能够密铺整个迭代空间.此外,针对星型Stencil设计了一个新颖的“2次更新”优化技术,改善了核内数据重用模式.理论分析表明:此方案相比现有方法有更低的缓存复杂度,实验结果证实了此方案的有效性.  相似文献   

2.
Stencil(模版计算)是一类常见的循环嵌套计算模式,被广泛应用于计算电磁、天气模拟、地球物理、海洋模拟等许多科学和工程模拟应用中.随着现代处理器体系结构的发展,多核和多层存储层次不断加深,研究并行性和局部性成为了提高程序运行速度的主要途径.分块是开发数据局部性和程序并行性的主要技术之一,目前,针对Stencil已提...  相似文献   

3.
Stencil计算是科学应用中的一类重要计算,而分块是提升Stencil计算数据局部性的关键技术.针对现有三维Stencil优化在SW26010处理器上缺少时间分块以及分块参数需手工调优的问题,引入时间分块,提出了面向SW26010处理器的三维Stencil自适应分块参数算法.通过建立性能分析模型,结合硬件计算能力及存...  相似文献   

4.
高效的并行有限差分Stencil 算法对于求解大型线性方程组是十分重要的.针对并行有限差分Stencil 算法中数据局部性差、同步和通信开销大的问题.首先改进传统有限差分Stencil 算法,提出了多层对称遍历有限差分Stencil 算法.然后给出了以迭代空间条块序作为执行序的串行算法,通过沿时间轴对迭代空间进行时滞划分,在不改变迭代算法性质的同时,对迭代空间条块内部多次迭代计算,提高算法的数据局部性.最后提出一种基于迭代空间条块的并行算法,该算法利用改进的多面体模型对迭代空间网格划分,并通过网格条块重排序减少了Cache 缺失率、通信启动和同步次数.理论分析和实验结果表明,该并行模型比传统的区域分解方法和红黑排序并行算法具有更好的数据局部性,并行效率和可扩展性.  相似文献   

5.
宋广辉  郭绍忠  赵捷  陶小涵  李飞  许瑾晨 《软件学报》2023,34(12):5704-5723
混合精度在深度学习和精度调整与优化方面取得了许多进展,广泛研究表明,面向Stencil计算的混合精度优化也是一个很有挑战性的方向.同时,多面体模型在自动并行化领域取得的一系列研究成果表明,该模型为循环嵌套提供很好的数学抽象,可以在其基础上进行一系列的循环变换.基于多面体编译技术设计并实现了一个面向Stencil计算的自动混合精度优化器,通过在中间表示层进行迭代空间划分、数据流分析和调度树转换,首次实现了源到源的面向Stencil计算的混合精度优化代码自动生成.实验表明,经过自动混合精度优化之后的代码,在减少精度冗余的基础上能够充分发挥其并行潜力,提升程序性能.以高精度计算为基准,在x86平台上最大加速比是1.76,几何平均加速比是1.15;在新一代国产申威平台上最大加速比是1.64,几何平均加速比是1.20.  相似文献   

6.
通过调整JPEG图象中的DCT系数可以完成秘密信息的嵌入,但是会加剧图象的分块效应,分析者基于此特性可检测出秘密信息的存在性.本文提出一种保持JPEG图象分块特性的密写方案,秘密信息依然嵌入在量化后的DCT系数上以符合JPEG格式.但在嵌入秘密信息的同时顾及了图象的分块特性,使得嵌入前后的分块特性几乎保持不变,有效地提高了秘密信息的安全性.实验表明,秘密信息负载率与载体图象的质量因子无关,而且质量因子大于40时,该方法具有非常好的统计隐蔽性.  相似文献   

7.
【应用背景】模板计算是CFD(计算流体动力学,Computational Fluid Dynamics)等科学计算的典型算法,其访存性能受到关注。NUMA架构因扩展性好,在以鲲鹏920处理器为代表的ARM架构上普遍被应用。【方法】使用性能分析工具和benchmark程序,对鲲鹏平台的访存和通信子系统进行性能测试。针对典型stencil应用软件CCFD V3.0开展热点分析和性能测试,并建立Roofline模型。【结果】鲲鹏920处理器依托其众核NUMA架构,单节点浮点性能、内存带宽峰值,以及通信时延均优于Intel Xeon E5-2680v2与一款国产处理器。单节点时,CCFD V3.0在鲲鹏平台的运行速度约是Intel平台的2~3倍,是国产处理器的1.5~2倍。【结论】基于ARM架构的鲲鹏平台应用移植简单,其NUMA架构对模板计算一类访存密集性应用具有优势。  相似文献   

8.
基于Lab空间的图像检索算法   总被引:2,自引:0,他引:2       下载免费PDF全文
陈丽雪  陈昭炯 《计算机工程》2008,34(13):224-226
探讨Lab颜色空间内基于颜色的图像检索问题。分析已有的基于Lab色度直方图的检索算法的不足,提出改进的基于Lab空间颜色通道的检索算法,该算法分别将a, b颜色通道非均匀量化成22个等级,用其直方图来表征图像的颜色特征,从而保留了两个颜色通道的特性。设计并实现了基于用户感兴趣图像块的相关反馈技术。实验结果表明,改进算法具有良好的检索结果,采用的相关反馈技术提高了检索性能。  相似文献   

9.
10.
当前对并行空间连接查询的研究主要集中在算法设计上,缺少在并行关系数据库管理系统上的应用实现研究.通过分析并行空间连接算法流程,利用开源并行关系数据库集群项目PL/Proxy,提出了混合式计算迁移模式并扩展了对空间操作的支持,并在其上实现了可扩展的基于空间划分的并行空间连接算法.通过真实数据的实验表明:设计实现的并行空间连接算法在空间数据划分负载均衡的情况下,可实现近线性的加速比;而在空间划分产生数据倾斜严重的情况下,仍具有一定的加速比,同时具备针对空间划分方案改进的可扩展能力.算法的实现方式为进行并行空间数据管理研究提供了一种可行的解决方案.  相似文献   

11.
为满足大规模空间数据库的聚类需求,面向计算机集群,提出一种基于密度的并行聚类算法。该算法根据数据库分布特征进行数据分区,在每一个节点上对数据块并行聚类,在主节点上合并聚类结果。实验结果表明,该算法的计算速度随着节点数的增多呈线性增加,具有较好的延展性。  相似文献   

12.
基于PVM的并行算法研究   总被引:1,自引:0,他引:1  
随着数据库规模的增长,数据挖掘技术变得非常重要,而且从数据库中挖掘隐藏的规则也变得十分必要.提出了一种在数据库中发现关联规则的并行Apriori算法,并在并行虚拟机(PVM)环境下实现了该算法.该算法是通过在处理器间分割数据来实现数据的并行化的.  相似文献   

13.
一种基于并行策略的BP改进算法   总被引:1,自引:0,他引:1  
介绍了BP神经网络的基本结构及原理,分析了其收敛慢的原因.为加快其收敛速度,结合带动量梯度下降法提出一种新的算法(PBBP),用多个学习速率不同但结构相同的网络进行并行训练,在每次迭代后都根据误差找出处于最佳状态的网络,并使其它网络的训练参数作适当变化再进行下一次迭代,直到整个网络的误差减小到允许范围内或达到训练次数要求,加快了其收敛速度,能够很好地脱离平坦区.通过在Matlab里编程进行仿真实验证明,该算法是可行的.  相似文献   

14.
张连明  陈志刚 《计算机科学》2002,29(Z1):198-199
1概述 随着计算机应用的深入,将并行机制和面向对象技术结合是当前软件工程的重要研究方向之一[1,2,6].利用面向对象的特点来实现并行任务的划分、通信、组合和映射,可以降低并行程序设计的难度.  相似文献   

15.
现有的RDF数据分布式并行推理算法大多需要启动多个MapReduce任务,有些算法对于含有多个实例三元组前件的OWL规则的推理效率低下,使其整体的推理效率不高.针对这些问题,文中提出结合TREAT的基于Spark的分布式并行推理算法(DPRS).该算法首先结合RDF数据本体,构建模式三元组对应的alpha寄存器和规则标记模型;在OWL推理阶段,结合MapReduce实现TREAT算法中的alpha阶段;然后对推理结果进行去重处理,完成一次OWL全部规则推理.实验表明DPRS算法能够高效正确地实现大规模数据的并行推理.  相似文献   

16.
本文介绍了一种基于瓦片算法的稠密矩阵并行 QR 分解及其实现方法。瓦片算法的思想是将完整的矩阵分块,并使每个块内的数据连续存储。各个瓦片块先独立进行分解,其他块接收当前块分解产生的数据,来更新自身块内的矩阵。我们分别实现了串行瓦片算法和并行瓦片算法,采用基于 MPI 和 OpenMP 混合并行编程模型,在“元”超级计算机上验证了该并行算法,并与 PLASMA 软件包进行对比,程序效率和可扩展性优于 PLASMA。 在多个节点上运行时,展现了良好的扩展性。  相似文献   

17.
Word Mover's Distance(WMD)是一种度量文本相似度的方法,它将两个文本之间的差异定义为文本的词嵌入向量之间的最小距离.WMD利用词汇表,将文本表示为归一化的词袋向量.文本的单词在语料中所占的比例很小,因此用词袋模型生成的文本向量很稀疏.多个文本可以组成一个高维的稀疏矩阵,这样的稀疏矩阵会生成大量不必要的运算.通过一次性对多个目标文本计算单个源文本的WMD,可以使计算过程高度并行化.针对文本向量的稀疏性,文中提出了一种基于GPU的并行Sinkhorn-WMD算法,采取压缩格式存储目标文本的方式来提高内存利用率,根据稀疏结构减少中间过程的计算.利用预训练词嵌入向量计算单词距离矩阵,对WMD算法进行改进,在两个公开的新闻数据集上进行优化算法的验证.实验结果表明,在NVIDIA TITAN RTX上并行算法与CPU串行相比最高可以达到67.43倍的加速.  相似文献   

18.
针对大规模边界约束优化问题,现有并行变量转换(PVT)算法不适于直接求解。基于此,采用内点法和逐步下降的思想,提出一个并行求解边界约束最优化问题的可行算法。在下降方向满足梯度相关、步长满足Goldstein规则的条件下,证明该算法的收敛性。当约束失效时,该算法退化为求解无约束的PVT算法,从而成为原有算法向约束优化问题的一个推广。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号