首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 890 毫秒
1.
关于矩阵张量积计算的研究   总被引:1,自引:1,他引:1  
利用矩阵张量积有关理论,讨论了矩阵张量积的计算问题,分析了算法的复杂性,并研究了并行算法及计算复杂性问题。  相似文献   

2.
对稠密型线性方程组的系数矩阵进行分块LU分解,更充分地利用高速缓存,提高运算效率.对LU分解分块算法进行了研究,用VC+ +6.0对分块算法进行实现,并与标准的LU分解算法进行比较.在大矩阵情况下,分块算法比标准算法运算速度提高50%以上.  相似文献   

3.
负载均衡技术是并行计算系统的关键技术之一,其主要思想是将计算任务合理分配到各节点,以避免由于某个节点的计算速度慢而导致的整个系统的性能瓶颈。为了使系统达到更优的结果,提出了一种基于MPICH的负载均衡模型,构建了一个异构Beawulf并行计算系统,并且用一个适合异构环境的矩阵分块相乘算法进行了性能测试。实验结果表明,此算法比使用传统的矩阵相乘算法执行效率更高。从而证明了系统能够把计算任务高效合理地分配到各个节点。  相似文献   

4.
麻莹莹  马振威  陈钢 《软件学报》2021,32(6):1882-1909
矩阵是工程领域中常用的一种数据结构,在深度学习领域,矩阵乘法是神经网络训练中的核心技术之一,面对大型矩阵的运算问题,分块矩阵技术可将大矩阵运算转换为小矩阵运算以实现并行运算,并且能够大幅度减少矩阵运算步骤并且提高矩阵运算速度.本文首先对目前学术界的矩阵形式化工作进行了系统总结并且分析了矩阵形式化的主要几种方法;其次介绍并完善了基于Coq记录类型的矩阵形式化方法,其中包括提出新的矩阵等价定义、对之前的形式化工作进行了整理和完善,并证明了一组新的引理;在此基础上进一步实现了分块矩阵运算的形式化,讨论了该类型的归纳证明的难点和解决方法;最终实现了矩阵与分块矩阵形式化的不同类型的基础库.  相似文献   

5.
杜秀丽  张薇  陈波 《计算机应用》2018,38(12):3541-3546
基于矩阵置换的分块压缩感知(BCS)引入矩阵置换的策略,使复杂子块和稀疏子块向介于两者中间的稀疏度水平变化,用单一采样率采样时可以减少块效应,但仍存在块间稀疏度均衡效果较差的问题。为了得到更好的重构效果,提出基于波浪式矩阵置换的稀疏度均衡BCS(BCS-RMP)算法。首先,在采样前对图像进行矩阵置换的预处理,通过波浪式置换矩阵对图像各子块的稀疏度进行均衡;然后,采用相同的测量矩阵对子块进行采样,在解码侧进行重构;最后,通过波浪式置换逆矩阵对重构结果进行逆变换得到最终的重构图像。仿真结果表明,与现有矩阵置换算法相比,当选择合适的子块大小和采样率时,所提波浪式矩阵置换算法可有效提高图像的重构质量,且能更准确地体现细节信息。  相似文献   

6.
异构Beowulf系统负载均衡技术的研究与实现   总被引:2,自引:2,他引:0  
负载均衡技术是并行计算系统的关键技术之一,其主要思想是将计算任务合理分配到各节点,以避免由于某个节点的计算速度慢而导致的整个系统的性能瓶颈.为了使系统达到更优的结果,提出了一种基于MPICH的负载均衡模型.构建了一个异构Beowulf并行计算系统,并且用-个适合异构环境的矩阵分块相乘算法进行了性能测试.实验结果表明,此算法比使用传统的矩阵相乘算法执行效率更高.从而证明了系统能够把计算任务高效合理地分配到各个节点.  相似文献   

7.
分块循环三对角方程组的求解在科学与工程计算中有着广泛的应用.本文根据分块循环三对角矩阵的特殊分解,给出了求解分块循环三对角方程组的一种新算法.该算法含有可以选择的参数矩阵,适当选择这些参数矩阵,可以使得计算精度高于追赶法,甚至当追赶法失效时,由该算法仍可得到一定精度的解.而数值算例的结果与理论分析的结果也吻合.  相似文献   

8.
为了解决加密矩阵难以构造的问题,提出一种获得整数矩阵的新算法,利用Gauss-Markov过程生成一个随机序列,将该序列转换为一系列的低阶整数矩阵,从中寻找行列式等于l的整数矩阵,并对这些矩阵进行张量积运算得到高阶加密矩阵,应用于数字图像加密.加密实例和理论分析及对比表明,该算法可自动生成安全性很高的加密矩阵,且加密结果具有良好的随机特性和自相关性,能满足密码学的要求.  相似文献   

9.
在内点算法(IPM)框架基础上,分析具有分块带边结构系数矩阵与箭形结构二次项的二次规划(QP)问题,导出其既约与最简既约修正方程.对既约修正方程系数矩阵进行置换,使其具有箭形分块结构,并结合该结构与解耦技术给出修正方程的并行求解算法,设计QP问题的并行IPM结构.在集群环境下的数值实验结果表明,该算法具有较好的加速比和...  相似文献   

10.
本文详细且全面综述了分块矩阵的概念,主要内容包括用分块矩阵来算矩阵的乘积、利用分块矩阵求逆矩阵、证明矩阵的秩、求矩阵的特征根等方面的问题,使用了大量的例题说明了分块矩阵的技巧可以使高等代数中的很多计算与证明问题简单化。  相似文献   

11.
This paper presents a method for computing the Hessian tensor of loop closing conditions employing the relative coordinate systems for the multibody system dynamics. Based on the efficient Jacobian computation method proposed by Orin et al., the derivatives of Jacobian matrix are evaluated for all combinations of revolute and prismatic joints. It is shown that all cases can be summarized in one simple formula and the Hessian tensor can be computed easily from the elements of the Jacobian matrix.  相似文献   

12.
关于大规模矩阵相乘(MMC)、矩阵求逆(MIC)和矩阵行列式(MDC)的算法在安全外包计算中得到广泛研究与运用,其存在的问题也日益凸显,隐藏原始矩阵中零元素的数目问题就是其中之一。然而,目前学术界关于保护零元素数目的研究较少,现有的研究也仅能保护零元素的位置,没有针对保护零元素的数目同时又能达到高效性的加密方法,这在大规模云计算环境中是很不安全的。针对这个问题,从算法的角度出发,改进了原有的置换矩阵的加密方法,并设计了一种新的安全外包MMC、MIC和MDC的算法。该算法将代数结构扩展到有限域中,首先对初始矩阵进行随机置换,然后进行幺模矩阵变换,并将加密后的矩阵发送给云服务端;云经过计算之后把结果返回给客户端,随后客户端进行解密和验证。通过理论证明,设计的三个协议不仅保护了原始矩阵零元素的数目,而且实现了正确性、隐私性和可验证性的目标。最后,通过实验证明了基于幺模矩阵的加密方法是高效的。  相似文献   

13.
武昱  闫光辉  王雅斐  马青青  刘宇轩 《计算机科学》2018,45(11):298-303, 317
随着高维数据的涌现,张量和张量分解方法在数据分析领域中受到了广泛关注。然而,张量数据的高维度和稀疏特性,导致算法的复杂度较高, 阻碍了张量分解算法在实际中的应用。许多学者通过引入并行计算来提升张量分解算法的计算效率。在现有研究的基础上,给出一种简化计算Khatri-Rao乘积的GPU并行CP张量分解算法,称为ParSCP-ALS。在模拟数据集和真实数据集上的实验结果显示, 相比现有并行算法,文中设计的ParSCP-ALS算法能有效提高CP张量分解的计算效率,其中在Movielens数据集上 的计算时间减少了约58%。  相似文献   

14.
付晨  钟诚  叶波 《计算机应用》2017,37(1):37-41
设计时间序列数据在Hadoop分布式文件系统(HDFS)中的有效存储方式,利用分布式缓存工具Distributed Cache将各子序列分发到Hadoop集群的计算节点上,将动态时间弯曲距离矩阵划分成多个子矩阵,采取并行迭代计算每条反对角线上子矩阵的方法,基于MapReduce编程模型,实现高效并行计算时间序列动态弯曲距离,通过改进剪裁冗余计算方法,设计实现一种数据流多模式相似性搜索并行算法。中国雪深长时间序列数据集的实验结果表明,当每条时间序列的长度达到5000以上时,并行计算动态弯曲距离所需时间少于串行计算所需时间,当每条时间序列的长度达到9000以上时,参与计算的集群节点越多,并行计算所需时间越少;当模式长度达到4000、参与计算的集群节点数达5个以上时,从数据流中并行搜索出与模式匹配的相似子序列所需时间约为串行搜索所需时间的20%。  相似文献   

15.
This paper presents a design methodology for developing efficient distributed-memory parallel programs for block recursive algorithms such as the fast Fourier transform (FFT) and bitonic sort. This design methodology is specifically suited for most modern supercomputers having a distributed-memory architecture with a circuit-switched or wormhole routed mesh or a hypercube interconnection network. A mathematical framework based on the tensor product and other matrix operations is used for representing algorithms. Communication-efficient implementations with effectively overlapped computation and communication are achieved by manipulating the mathematical representation using the tensor product algebra. Performance results for FFT programs on the Intel Paragon are presented. © 1998 John Wiley & Sons, Ltd.  相似文献   

16.
针对复杂系统并行模拟问题的并发式多级矩阵重排算法   总被引:1,自引:0,他引:1  
在解决复杂化工过程优化与模拟问题时,大规模代数差分方程的存在导致大量的计算时间花费在重复求解稀疏大型线性方程组的过程中。随着并行计算和网络技术的发展,为了提高优化或模拟工作的速度,可以通过将非对称矩阵重排为带边块对角形式,从而实现对线性系统的高效并行求解。本文提出一种基于Kernighan-Lin算法的并发式的多层次矩阵重排策略,它以最小化边块为目标,同时保证尽可能小的负荷非平衡性,从而获得好的重排结果。应用该重排策略可以对大型稀疏矩阵进行压缩和并行重排,提高重排算法的效率。在研究过程中应用了基于该技术的并行计算程序对一系列标准矩阵进行了检验,并与一些现有的算法进行了比较,证明了其有效性和可行性。  相似文献   

17.
Based on structural finite element analysis of discrete models, a neurocomputing strategy is developed in this paper. Dynamic iterative equations are constructed in terms of neural networks of discrete models. Determination of the iterative step size, which is important for convergence, is investigated based on the positive definiteness of the finite element stiffness matrix. Consequently, a method of choosing the step size of dynamic equations is proposed and the computational formula of the best step size is derived. The analysis of the computing model shows that the solution of finite element system equations can be obtained by the method of neural network computation efficiently. The proposed method can be used for parallel computation of structural finite element in a large-scale integrated circuit (LSI).  相似文献   

18.
In recent years, Intel promotes its new product Xeon Phi coprocessor, which is similar to the x86 architecture coprocessor. It has about 60 cores and can be regarded as a single computing node, with the computing power that cannot be ignored. This work aims to improve the workload balance by parallel loop self-scheduling scheme performed on Xeon Phi-based computer cluster. The proposed concept is implemented by hybrid MPI and OpenMP parallel programming in C language. Since parallel loop self-scheduling composes of static and dynamic allocation, weighting algorithm is adopted in the static part, while the well-known loop self-scheduling is adopted in dynamic part. The loop block is partitioned according to the weighting of MIC and HOST nodes. Accordingly, Xeon Phi with many-core is adopted to implement parallel loop self-scheduling. Finally, we test the performance in the experiments by four applicable problems: matrix multiplication, sparse matrix multiplication, Mandelbrot set and circuit meet. The experimental results indicate how to do the weight allocation and which scheduling method can achieve the best performance.  相似文献   

19.
研究Android平台中密码运算加速方法,采用运算并行化的思想,利用Android平台的RenderScript并行运算机制实现大整数乘法运算,为椭圆曲线密码等密码运算提供高效快速的基本操作。设计并实现了适合并行处理的大整数乘法运算存储结构和运算执行逻辑,以矩阵的方式分割并处理大整数对象,可以一次同步完成所需的乘法和加法运算,进而得到最终运算结果。实验结果表明,与Android平台原生的Java大整数运算库相比,该方法在执行时间上具有明显优势。  相似文献   

20.
Geometry of single axis motions using conic fitting   总被引:1,自引:0,他引:1  
Previous algorithms for recovering 3D geometry from an uncalibrated image sequence of a single axis motion of unknown rotation angles are mainly based on the computation of two-view fundamental matrices and three-view trifocal tensors. We propose three new methods that are based on fitting a conic locus to corresponding image points over multiple views. The main advantage is that determining only five parameters of a conic from one corresponding point over at least five views is simpler and more robust than determining a fundamental matrix from two views or a trifocal tensor from three views. It is shown that the geometry of single axis motion can be recovered either by computing one conic locus and one fundamental matrix or by computing at least two conic loci. A maximum likelihood solution based on this parametrization of the single axis motion is also described for optimal estimation using three or more loci. The experiments on real image sequences demonstrate the simplicity, accuracy, and robustness of the new methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号