首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
高效的并行有限差分Stencil 算法对于求解大型线性方程组是十分重要的.针对并行有限差分Stencil 算法中数据局部性差、同步和通信开销大的问题.首先改进传统有限差分Stencil 算法,提出了多层对称遍历有限差分Stencil 算法.然后给出了以迭代空间条块序作为执行序的串行算法,通过沿时间轴对迭代空间进行时滞划分,在不改变迭代算法性质的同时,对迭代空间条块内部多次迭代计算,提高算法的数据局部性.最后提出一种基于迭代空间条块的并行算法,该算法利用改进的多面体模型对迭代空间网格划分,并通过网格条块重排序减少了Cache 缺失率、通信启动和同步次数.理论分析和实验结果表明,该并行模型比传统的区域分解方法和红黑排序并行算法具有更好的数据局部性,并行效率和可扩展性.  相似文献   

2.
针对网络并行环境的计算能力强而通信相对较慢的实际情况,给出了一种局域网上求解线性方程组的并行Gauss-Seidel迭代算法.该算法将线性方程组的系数矩阵及右端项按行分块,然后将分块的系数矩阵及右端项按卷帘方式存储在各处理机,每次迭代通过循环传送已求出的部分解分量以减少处理机间的通信开销,提高并行算法的效率.试验结果表明该算法具有较高的并行效率和加速比.  相似文献   

3.
几何迭代法,即渐进迭代逼近(progressive-iterative approximation,PIA),作为一种有效的数据拟合方法,吸引了众多研究者的关注,并获得广泛的应用.针对经典LSPIA算法收敛速度较慢的问题,提出一种基于Gauss-Seidel迭代方法的快速PIA算法,称为GS-LSPIA.首先,从给定的...  相似文献   

4.
5.
讨论大规模并行机数据并行语言编译技术中的并行循环迭代分布算法。数据并行语言的数据分布方式有BLOCK,BLOCK(1),BLOCK(N)和:4种,而循环迭代分布是与数据分布对准的,文中给出与这些分布方式对应的循环迭代分布算法,算法允许确定数据分布方式的对准数组的下标可以是任意系数的一阶线性表达式;并行循环的循环增量可以为任意非零整数。  相似文献   

6.
提出了一种新的面向科学计算的构件技术——编译指导的构件并行技术,旨在提高构件间的并行度和数据的局部性,避免通信瓶颈。该技术分为两个阶段:域划分和子构件组合。其中域划分利用了编译时的数据依赖分析技术,子构件纪合利用了所设计的基于区间数据的模糊聚类算法。  相似文献   

7.
基于种群迭代搜索的智能优化算法在农业、交通、工业等很多领域都取得了广泛的应用.但是该类算法迭代寻优的特点使其求解效率通常较低,很难应用到大规模、高维或实时性要求较高的复杂优化问题中.随并行分布式技术的发展,国内外很多学者开始着手研究智能优化算法的并行化.本文首要介绍了并行智能优化算法的基本概念;其次从协同机制、并行模型以及硬件结构3个维度综述了几类常见的并行智能优化算法,详细分析阐述了它们优点及不足;最后对并行智能优化算法的未来研究进行了展望.  相似文献   

8.
卫星遥感图像并行几何校正算法研究   总被引:7,自引:0,他引:7  
几何校正是遥感图像处理过程中的重要环节,具有计算量大、耗时长的特点,导致遥感图像处理的效率低下.该文提出一种分布存储环境下的并行几何校正算法,每个处理器通过计算本地输入子图像在目标图像中的范围,确定其需要进行重采样计算的区域,使计算过程中所需的数据均为本地数据,很好地解决了数据局部性问题.文章利用首尾相连的闭线段近似表示理想的输出图像块边界这一思想,详细讨论了局部输出区域的计算方法,并采用一种新的存储结构用于保存校正后的输出图像块信息.在机群系统上对算法进行实现,结果表明该算法具有良好的并行性能.  相似文献   

9.
张帅  徐顺  刘倩  金钟 《计算机科学》2018,45(10):291-294, 299
分子动力学模拟存在空间和时间的复杂性,并行加速分子的模拟过程尤为重要。基于GPU硬件数据并行架构的特点,组合分子动力学模拟的原子划分和空间划分的并行策略,优化实现了短程作用力计算Cell Verlet算法,并对分子动力学核心基础算法的GPU实现做了优化和性能分析。Cell Verlet算法实现首先采用原子划分的方式,将每个粒子的模拟计算任务映射到每个GPU线程,并采用空间划分的方式将模拟区域进行元胞划分,建立元胞索引表,实现粒子在模拟空间的实时定位;而在计算粒子间的作用力时,引入希尔伯特空间填充曲线方法来保持数据的线性存储与数据的三维空间分布的局部相关性,以便通过缓存加速GPU的全局内存访问;也利用了访存地址对齐和块内共享等技术来优化设计GPU分子动力学模拟过程。实例测试与对比分析显示,当前的算法实现具有强可扩展性和加速比等优势。  相似文献   

10.
并行数据操作算法和查询优化技术   总被引:26,自引:4,他引:22       下载免费PDF全文
李建中 《软件学报》1994,5(10):11-23
本文是并行数据库的查询处理并行化技术和物理设计方法”一文的续篇,继续综述并行数据库系统的另外两个重要研究领域:并行数据操作算法和并行数据库查询优化技术.最后,作为并行数据库系统研究与进展情况综述的结尾,本文将探讨并行数据库系统今后的研究方向和问题.  相似文献   

11.
刘勇  陆林生  何王全 《软件学报》2010,21(Z1):290-297
考虑到硬件管理Cache 多级存储结构在功耗和面积方面的开销过大,众核处理器倾向于采用软件管理的多级存储结构,这就需要软件规划好程序的数据在各级存储上的布局和传输.尝试了一种依赖程序原有循环结构和问题规模的简易数据自动分块方法,根据循环层内的数据访存范围进行相应的分块,避免数据复杂的依赖关系分析,使得该方法易于在编译器中实现.同时可根据需要进一步结合程序变换如循环交换、循环联合和循环分裂等方法得到更佳的分块参数.实验结果表明,在大多数问题规模下与一般分块方法的优化性能相当,但在某些特定问题规模下能够获得较高的优化性能.  相似文献   

12.
The iteration space of a loop nest is the set of all loop iterations bounded by the loop limits. Tiling the iteration space can effectively exploit the available parallelism, which is essential to multiprocessor compiling and pipelined architecture design. Another improvement brought by tiling is the better data locality that can dramatically reduce memory access and, consequently, the relevant memory access energy consumptions. However, previous studies on tiling were based on the data dependence, thus arrays without dependencies such as input arrays (data streams) were not considered. In this paper, we extend the tiling exploration to also accommodate those dependence-free arrays, and propose a stream-conscious tiling scheme for off-chip memory access optimization. We show that input arrays are as important, if not more, as the arrays with data dependencies when the focus is on memory access optimization instead of parallelism extraction. Our approach is verified on TI’s low power C55X DSP with popular multimedia applications, exhibiting off-chip memory access reduction by 67% on average over the traditional iteration space tiling.  相似文献   

13.
基于投影分层技术的嵌套循环空间局部性优化方法   总被引:3,自引:0,他引:3  
从数据访问轨迹入手,探讨了利用数据变换来改善数据访问局部性的本质,提出了一种新的优化数据访问的投影分层技术以及基于它的数据变换框架.该框架主要利用投影技术来优化数据访问的空间局部性,并同时利用数据分层技术来解决因投影而带来的数据重叠问题.该数据变换框架不仅能处理仿射数组下标,而且还能处理许多非仿射的更复杂的数组下标,同时它还能简单直接地确定数据元素的最优存储布局以及优化数据访问的数据变换短阵,并能使访问间距尽量小.实验结果表明它是有效的.  相似文献   

14.
随着大数据时代的到来,如何及时准确地处理海量的图像、视频等多媒体数据已成为相关领域新的挑战.局部敏感哈希算法在处理高维图像特征数据时表现出了良好的性能,使其成为了近年来的研究热点.针对图像检索算法参数的优化选择问题,提出了一种局部敏感哈希图像检索参数优化方法.首先建立面向图像检索的局部敏感哈希算法的性能优化模型,给出其...  相似文献   

15.
图像重采样问题应用广泛,具有计算复杂度高、运行时间长的特点.为了提高处理性能,针对Cluster并行环境,对一种并行几何校正算法进行改进,提出了并行重采样算法PIWA—LOC.采用一种新的存储结构用于保存各计算结点上的不规则输出子图像,并提出线段近似法用于获取不规则输出子图像的边界,使算法的通用性大大提高,适用于具有复杂几何变换的图像重采样问题.实验结果表明,该算法对大图像的重采样问题具有良好的并行性能,且网络带宽越高算法的可扩展性越好.  相似文献   

16.
为了解决雷达数据处理系统数据量日益增大,计算能力逐渐不足的问题,提出两种并行处理方法。第一种方法是对数据处理各步骤中的循环采用多个线程并行处理,属于细粒度并行;第二种方法是根据雷达数据的局部性特征,把雷达探测空域按照径向距离划分成多个部分,由多个子任务并行处理,属于粗粒度并行。实验结果显示,4线程细粒度并行雷达数据处理架构性能是原来的3倍,4任务粗粒度并行架构性能是原来的5倍,证明并行处理技术在雷达数据处理中的有效性,并且任务级的粗粒度并行架构更适合雷达数据处理。  相似文献   

17.
在无线通信系统中,智能反射面(intelligent reflecting surface,IRS)可以调控反射单元的相移来反射信号,用于增强用户信号并抑制窃听者信号,解决基站和用户之间的安全通信问题。针对该问题,以系统加权和保密速率最大化为目标提出一种多IRS辅助多用户多输入单输出(multi user-multiple input single output,MU-MISO)系统的安全通信方案。该方案首先将最大化加权和保密速率问题分解为发射波束形成和人工噪声向量优化、多IRS相位矩阵优化的两个子问题;其次,采用半定松弛、引用文献定理、辅助变量替换、一阶泰勒近似等方法,将每个子问题转换为简单凸问题进行求解;最后,基于交替优化算法依次求解两个凸优化子问题。数值仿真结果表明,与另外三个方案相比,所提方案可以有效增强系统的安全通信性能,并表明了多IRS部署比单个IRS可以实现更好的系统安全性。  相似文献   

18.
指令级并行编译器的数据预取及优化方法   总被引:6,自引:0,他引:6  
微处理器芯片的处理能力越来越强,但是,存储器的速度却远远不能与其匹配,造成了整个系统的性能不理想,为解决这个总理2,编译器发展了局部性优化、数据预取等多种技术,文中将介绍一种用于ILP(Instruction lev-el Parallelism)优化编译器的数据预取技术以及一种利用寄存器堆减少主存访问次数、对程序进行 优化的方法,利用它们可以提高平均存储性能,对科学和工程计算的应用是相当有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号