首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
对于分布内存体系结构的并行计算机而言,如何对计算和数据进行合理划分以增加数据本地化减少处理器间的通信是提高其并行性能的关键,但在数据划分过程中,重分布通信有时不可避免,如何进行合理的数据和计算划分以减少通信并最大限度的利用程序的并行性是并行编译中的一个重要问题。该文主要讨论了一种支持数据重分布的自动进行计算和数据划分的算法。  相似文献   

2.
一种基于线性代数的计算和数据自动分解算法   总被引:1,自引:0,他引:1  
在针对分布内存体系结构的并行识别技术中,如何对计算和数据进行合理分解,以增加数据引用的本地化、减少处理器间的通信是提高并行程序性能的关键。本文通过对Anderson-lam分解算法完整性的补充,给出了一种可实现无通信的计算划分和数据分布算法,并阐述了对该算法在工程实践中的一些优化考虑。  相似文献   

3.
并行化编译中的一种集成优化方法   总被引:1,自引:0,他引:1  
孙彤  李三立  李晓明 《软件学报》1996,7(12):705-713
本文提出了一种面向分布存储器多机系统的并行化编译方法.针对分布存储并行系统的特点,作者采用的基本优化策略是:折衷并行性与数据引用局部性;减少和隐藏通信开销.通过对基于仿射函数的程序分解方式所导致的数据通信性质的分析,得到了适合分布存储结构特殊要求的并行性开发方法.为了在保持并行性的前提下最小化通信数据总量,提出了基于齐次线性方程组求解的程序全局优化分解方法.为了优化数据通信的组织,提高结点代码的效率,又提出了一种以线性不等式组作为工具的更加实用的通信优化和结点代码生成方法.  相似文献   

4.
丁锐  赵荣彩  韩林 《软件学报》2013,24(12):2843-2858
划分是一种自动分配计算和数据到各个处理器的编译技术,是分布存储结构下并行编译的核心问题.以往的划分研究较少从生命期的角度考虑数据分解问题,分解在数组的不同生命期中不一致时会产生冗余通信.为解决上述问题,提出了一种数据分解算法,通过定义-引用图来表示数组的数据流信息,并使用分解映射表为数组不同的生命期建立各自的数据分解.对矩阵求逆等9 个实际用例的实验结果表明,与以往不区分生命期的划分研究相比,使用所提算法能够在寻找数据分解时对并行收益做出更准确的评估,减少了通信冗余,从而提升了自动生成的并行代码的加速比.  相似文献   

5.
针对分布内存结构的并行化将串行程序转变为在各处理节点上运行的SPMD并行程序,节点程序包含该节点所执行的运算和与其它节点交换信息的通信操作。讨论了在已知数据分解和计算划分的前提下生成分布内存结构下的消息传递并行程序的算法,以Lam提出的线性不等式基本框架为基础,在Paraguin工作基础上进行了有效的改进:第一在代码生成算法中引入了数据分布;第二将处理器空间由一维扩展到多维;第三将虚拟处理器到物理处理器的映射关系引入代码生成算法,从而减少了节点间通信的数量,提高了生成并行代码的性能。  相似文献   

6.
在并行优化编译器的并行识别过程中,许多串行代码无法找到全局一致的分解结果,数据重分布无可避免,有必要寻找一种有效的方法求解计算和数据的动态分解。该文研究了单个嵌套循环计算与数据分解算法以及分解结果表示方法,提出一种在多个嵌套循环间求解数据线性一致分布的动态分解算法,结合程序的结构分析和程序的控制流信息,用于通用串行代码的并行分解过程,可以同时给出串行代码的计算划分和数据分布结果。  相似文献   

7.
在并行化编译中,代码生成属于编译器的后端,决定着并行程序的执行效率.数据划分将计算循环中被重定义或没被读引用的数据映射到处理器,按照数据划分生成通信代码会产生冗余通信.提出了利用数组数据流分析求解暴露集,并建立计算划分、循环迭代以及暴露集的不等式限制系统,最后通过FME(fourier Motzkin elimination)消元生成数据分布代码的优化算法.测试结果表明该算法对数据分布的优化效果明显.  相似文献   

8.
若自动生成的并行化代码中包含过多的冗余代码,将导致代码膨胀,同时增加不必要的时间开销。该文通过对计算划分不等式和依赖关系不等式进行傅立叶消元,消除并行化代码中的冗余通信部分,实现通信优化。测试结果表明,与通信优化前的代码相比,消除后的并行代码量减少了10%~30%,处理器数目相同的情况下加速比平均达到1.12。  相似文献   

9.
丁锐  赵荣彩  韩林 《计算机科学》2012,39(3):290-294
计算和数据自动划分是并行化编译中一种自动分配计算和数据到各个处理机的优化技术,划分的结果直接影响程序并行的性能。数组是划分处理的主要对象之一,一些数组分布后的收益不高,但带来的并行约束却能对其它数组的划分产生干扰,导致大量数据重分布通信的产生。现有的划分算法中没有约定数组分布的优先次序,因此无法限制这些数组并行约束的传播,降低了优化编译器后端自动生成并行代码的性能。提出了一种基于主导值的计算和数据自动划分算法:将划分过程中数组对程序并行性的影响量化为主导值,并依据主导值的大小约定数组分布的优先次序,限制干扰数组并行约束的传播速度,提高划分结果的合理性。实验结果表明,算法能够获得良好的划分效果。  相似文献   

10.
分布存储系统中优化通信的冗余计算分割   总被引:1,自引:0,他引:1  
针对并行循环套序列,提出一种冗余计算分割的通信优化方法,根据数据流分析,文中给出用以确定每个循环套的冗余计算量的一般方法,并在此基础上提出冗余计算分割的实现和判定,针对规则依赖的程序,该文还提出了一个高效的冗余计算分割的实现方法,该技术已经在一个并行编译器中实现,试验结果表明,它比传统的通信优化技术有明显的优越性。  相似文献   

11.
并行编译中一种线性数据和计算划分算法   总被引:1,自引:1,他引:0       下载免费PDF全文
对于高性能并行计算机而言,如何找到一种好的计算和数据划分,对数据和计算进行合理划分,增加数据本地化来减少处理器间的通信是提高其并行性能的关键。该文讨论了一种线性的自动进行无数据重组的计算和数据划分算法。  相似文献   

12.
对于分布内存体系结构的并行计算机而言,如何对计算和数据进行合理划分以增加数据本地化减少处理器间的通信是提高其并行性能的关键。本文主要讨论了一种自动实现无数据重组的静态计算和数据划分算法。  相似文献   

13.
龚雪容  生拥宏  沈亚楠 《计算机应用》2006,26(10):2473-2475
着重论述了串行程序并行化过程中的数据收集部分代码的自动生成。提出利用等价类的方法获取数据的最后写关系,并建立包括计算划分、循环迭代和数据最后写关系的不等式限制系统,最后利用FME消元法对不等式限制系统进行消元处理,最终实现数据收集代码的自动生成。  相似文献   

14.
The tensor‐product (TP) model transformation is a recently proposed numerical method capable of transforming linear parameter varying state‐space models to the higher order singular value decomposition (HOSVD) based canonical form of polytopic models. It is also capable of generating various types of convex TP models, a type of polytop models, for linear matrix inequality based controller design. The crucial point of the TP model transformation is that its computational load exponentially explodes with the dimensionality of the parameter vector of the parameter‐varying state‐space model. In this paper we propose a modified TP model transformation that leads to considerable reduction of the computation. The key idea of the method is that instead of transforming the whole system matrix at once in the whole parameter space, we decompose the problem and perform the transformation element wise and restrict the computation to the subspace where the given element of the model varies. The modified TP model transformation can readily be executed in higher dimensional cases when the original TP model transformation fails. The effectiveness of the new method is illustrated with numerical examples. Copyright © 2009 John Wiley and Sons Asia Pte Ltd and Chinese Automatic Control Society  相似文献   

15.
针对大规模数据分类时计算时间长以及分类精度下降等问题,提出使用张量分解求解LDA主题模型参数,实现对海量网络数据的采集、分类、挖掘.该方法使用矩量法将LDA模型求解转化为低维的张量分解问题,通过分解和反射进行参数的传递,运用大数据平台Spark的进行分布式计算.实验结果表明,改进的模型参数计算方法在时间效率和困惑度方面都得到了提升,并且分类信息更加直观,更加适用于大规模网络数据分类工作.  相似文献   

16.
The ability to introduce zeros in a selective fashion makes the Givens Rotations an important zeroing tool in certain structured matrix problems. Evans and Yalamov [2] combined two Givens Rotations in one step to annihilate two elements simultaneously in order to transform the original matrix to a “Z” form pattern. The composite scheme was called the QZ decomposition method and is suitable for parallel computation, which is confirmed by the numerical results [1].

In this paper, firstly the fast computation of the QZ decomposition is given, which eliminates the square roots and reduces the number of multiplications by 37.5%. Finally, the applications of the fast QZ decomposition method to the linear system of equations, least squares problem and the weighted least squares problem are considered.  相似文献   

17.
针对目前比较成熟的基于系统矩阵的有序实Schur分解方法,提出了采用时矩输出拟合来改善降阶系统输出响应逼近程度的改进方法,从而使简化模型具有输出误差更小、计算简便等优点,通过给出的实例仿真证实了这一点.  相似文献   

18.
李涛  张合新  孙鹏 《控制理论与应用》2010,27(11):1537-1542
基于离散时滞分解思想,通过构造一种新的Lyapunov-Krasovskii泛函并结合Jensen不等式技巧,建立了线性矩阵不等式(LMI)形式的时滞相关鲁棒稳定性新判据.该方法允许中立时滞项的系数矩阵存在时变不确定性,增强了系统的鲁棒性能.同时针对分布时滞项难于处理的问题,构造了其分解计算泛函.数值算例表明所得结论的有效性和更低的保守性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号