共查询到18条相似文献,搜索用时 125 毫秒
1.
2.
一种基于线性代数的计算和数据自动分解算法 总被引:1,自引:0,他引:1
在针对分布内存体系结构的并行识别技术中,如何对计算和数据进行合理分解,以增加数据引用的本地化、减少处理器间的通信是提高并行程序性能的关键。本文通过对Anderson-lam分解算法完整性的补充,给出了一种可实现无通信的计算划分和数据分布算法,并阐述了对该算法在工程实践中的一些优化考虑。 相似文献
3.
并行化编译中的一种集成优化方法 总被引:1,自引:0,他引:1
本文提出了一种面向分布存储器多机系统的并行化编译方法.针对分布存储并行系统的特点,作者采用的基本优化策略是:折衷并行性与数据引用局部性;减少和隐藏通信开销.通过对基于仿射函数的程序分解方式所导致的数据通信性质的分析,得到了适合分布存储结构特殊要求的并行性开发方法.为了在保持并行性的前提下最小化通信数据总量,提出了基于齐次线性方程组求解的程序全局优化分解方法.为了优化数据通信的组织,提高结点代码的效率,又提出了一种以线性不等式组作为工具的更加实用的通信优化和结点代码生成方法. 相似文献
4.
划分是一种自动分配计算和数据到各个处理器的编译技术,是分布存储结构下并行编译的核心问题.以往的划分研究较少从生命期的角度考虑数据分解问题,分解在数组的不同生命期中不一致时会产生冗余通信.为解决上述问题,提出了一种数据分解算法,通过定义-引用图来表示数组的数据流信息,并使用分解映射表为数组不同的生命期建立各自的数据分解.对矩阵求逆等9 个实际用例的实验结果表明,与以往不区分生命期的划分研究相比,使用所提算法能够在寻找数据分解时对并行收益做出更准确的评估,减少了通信冗余,从而提升了自动生成的并行代码的加速比. 相似文献
5.
针对分布内存结构的并行化将串行程序转变为在各处理节点上运行的SPMD并行程序,节点程序包含该节点所执行的运算和与其它节点交换信息的通信操作。讨论了在已知数据分解和计算划分的前提下生成分布内存结构下的消息传递并行程序的算法,以Lam提出的线性不等式基本框架为基础,在Paraguin工作基础上进行了有效的改进:第一在代码生成算法中引入了数据分布;第二将处理器空间由一维扩展到多维;第三将虚拟处理器到物理处理器的映射关系引入代码生成算法,从而减少了节点间通信的数量,提高了生成并行代码的性能。 相似文献
6.
7.
在并行化编译中,代码生成属于编译器的后端,决定着并行程序的执行效率.数据划分将计算循环中被重定义或没被读引用的数据映射到处理器,按照数据划分生成通信代码会产生冗余通信.提出了利用数组数据流分析求解暴露集,并建立计算划分、循环迭代以及暴露集的不等式限制系统,最后通过FME(fourier Motzkin elimination)消元生成数据分布代码的优化算法.测试结果表明该算法对数据分布的优化效果明显. 相似文献
8.
9.
计算和数据自动划分是并行化编译中一种自动分配计算和数据到各个处理机的优化技术,划分的结果直接影响程序并行的性能。数组是划分处理的主要对象之一,一些数组分布后的收益不高,但带来的并行约束却能对其它数组的划分产生干扰,导致大量数据重分布通信的产生。现有的划分算法中没有约定数组分布的优先次序,因此无法限制这些数组并行约束的传播,降低了优化编译器后端自动生成并行代码的性能。提出了一种基于主导值的计算和数据自动划分算法:将划分过程中数组对程序并行性的影响量化为主导值,并依据主导值的大小约定数组分布的优先次序,限制干扰数组并行约束的传播速度,提高划分结果的合理性。实验结果表明,算法能够获得良好的划分效果。 相似文献
10.
11.
12.
13.
14.
Szabolcs Nagy Zoltán Petres Péter Baranyi Hideki Hashimoto 《Asian journal of control》2009,11(5):461-475
The tensor‐product (TP) model transformation is a recently proposed numerical method capable of transforming linear parameter varying state‐space models to the higher order singular value decomposition (HOSVD) based canonical form of polytopic models. It is also capable of generating various types of convex TP models, a type of polytop models, for linear matrix inequality based controller design. The crucial point of the TP model transformation is that its computational load exponentially explodes with the dimensionality of the parameter vector of the parameter‐varying state‐space model. In this paper we propose a modified TP model transformation that leads to considerable reduction of the computation. The key idea of the method is that instead of transforming the whole system matrix at once in the whole parameter space, we decompose the problem and perform the transformation element wise and restrict the computation to the subspace where the given element of the model varies. The modified TP model transformation can readily be executed in higher dimensional cases when the original TP model transformation fails. The effectiveness of the new method is illustrated with numerical examples. Copyright © 2009 John Wiley and Sons Asia Pte Ltd and Chinese Automatic Control Society 相似文献
15.
16.
《国际计算机数学杂志》2012,89(3):371-387
The ability to introduce zeros in a selective fashion makes the Givens Rotations an important zeroing tool in certain structured matrix problems. Evans and Yalamov [2] combined two Givens Rotations in one step to annihilate two elements simultaneously in order to transform the original matrix to a “Z” form pattern. The composite scheme was called the QZ decomposition method and is suitable for parallel computation, which is confirmed by the numerical results [1]. In this paper, firstly the fast computation of the QZ decomposition is given, which eliminates the square roots and reduces the number of multiplications by 37.5%. Finally, the applications of the fast QZ decomposition method to the linear system of equations, least squares problem and the weighted least squares problem are considered. 相似文献
17.
针对目前比较成熟的基于系统矩阵的有序实Schur分解方法,提出了采用时矩输出拟合来改善降阶系统输出响应逼近程度的改进方法,从而使简化模型具有输出误差更小、计算简便等优点,通过给出的实例仿真证实了这一点. 相似文献