首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 212 毫秒
1.
区域场强计算是电磁频谱管理领域的重要问题,提高其计算性能以适应快速变化的战场环境具有重要的意义.提出了一种基于图形处理器(Graphic Processing Units,GPU)的并行区域场强计算方法.通过合理地划分计算步骤,并且为各个计算步骤定制相应的并行方案,使得设计的并行算法适合GPU的体系架构,并行度高.实验结果表明,该文提出的并行算法可获得高达100倍的加速比,并且具有良好的可扩展性.  相似文献   

2.
并行处理的主要困难在于算法和软件。当前,研究并行程序开发环境(PPDE)是发挥并行机的并行效率、推广并行机的应用的一个非常有效的途径。本文介绍了为Trans-puter阵列系统PD-100并行仿真计算机开发的一种集成式并行程序开发环境R-PPDE。  相似文献   

3.
颜东  陈一虹 《导航》1995,31(1):99-105,60
本文研究的是组合导航系统的实时性数据处理问题。在YEH提出的协方差/信息滤波方法的并行结构基础上,根据我们采用的硬件配置即PC计算机和Transputer晶片机,以及并行结构设计的一般规则,提出了一种改进的协方差/信息滤波的并行结构。我们应用该并行结构对INS/GPS组合导航系统的数据处理进行了算法仿真,通过对串行算法、YEH的算法与本文算法协方差/信息滤波周期的比较,可以看到本文提出的改进的协方  相似文献   

4.
为对CUDA并行程序内核性能进行分析和预测,从而指导并行程序设计及性能优化,提出一种性能预测框架.1)从GPU编程模型和设备架构细节入手,以线程束为研究单位,通过整合与GPU程序用时密切相关的软硬件基本特征,定义了并行空间闲置度、流处理器线程束负载、并行效应因子等高层次性能相关特征.2)基于上述特征,框架针对线程负载均衡型GPU程序,评估内核函数在不同问题规模以及执行配置下的执行时间.3)依据性能评估原理提出了内核函数执行配置参数的优化策略.验证实验结果表明,该框架在两种典型情境下对现有程序性能的平均预测准确率分别达到89%和94%,客观归纳了高层次特征与程序性能间的相关关系,且能定性分析并行算法性能水平.  相似文献   

5.
本文结合Transputer网络的结构特点,提出了一种亲行实现的黑板模型体系结构。其中了引入了“黑板转播器”概念,使得模型具有并行度较高、模块化性能好的特点。基于此体系结构,本文实现了一个可用于实时领域的黑板模型试验床系统CPES,并设计了一种全面支持试验床操作的并行专家系统工具语言-V语言。本文接着对CPES的性能如问题求解速度、并行状态下各项开销情况进行了测试,得到了一些有用结果,并反映出CE  相似文献   

6.
i860和Transputer T805是两种著名的高性能微处理机芯片,在许多分布存储器的并行计算机系统中,它们被广泛用做节点处理机,本文针对i860和T805两种芯片各自的特点,提出一种异种机混合结构的并行机节点设计,即每节点由一个i860加上一个T805构成。在为国防科委承担八·五预研课题“并行处理技术研究”而研制的样机PAR95中,我们采用了这种设计方案,证明这是一种比较合理的设计。本文主要  相似文献   

7.
沈小龙  马金全  胡泽明  李宇东 《电讯技术》2023,63(12):1978-1984
针对当前异构信号处理平台中信号处理应用的调度算法优化目标单一且调度结果中处理器负载不均衡的问题,提出了一种基于蚁群优化算法的负载均衡算法。该算法结合蚁群优化算法的快速搜索能力和组合优化能力,以信号处理应用的调度长度和处理器负载均衡为优化目标,对初始信息素矩阵和蚂蚁的遍历顺序进行改进,提出调度长度启发因子和负载均衡启发因子对处理器选择公式进行改进,利用轮盘赌策略确定信号处理应用各子任务分配的处理器,完成信号处理应用的调度。仿真结果表明,该算法得到调度结果在调度长度和负载均衡方面均有改进,可以充分发挥各处理器性能,提高异构信号处理平台的整体效率。  相似文献   

8.
网络计算环境的动态异构特性要求程序员能根据各节点机的性能和负载情况针对性地编程,各种负载平衡系统也只有根据有效的负载信息进行任务分配和迁移,才能实现负载均衡,获取较高的并行加速比。因此,一个能提供网络计算环境中冬节点机负载信息的支撑软件是必可少的,该软件以某种方式收集环境中各书点机的负载信息,为实现什务的均衡划分、分配和进程迁移提供依据。目前,在众多的并行编程环境中,如:ExpressP4,Linda,PVM,MPI,Condor等,只有Condor提供了异构环境一下动态负载平衡的功能。其中,作为一个具有代表性的系统,PVM…  相似文献   

9.
高性能多核 DSP 的通信以及并行执行是多核系统设计的关键.文章分析了视频目标跟踪算法各模块的资源消耗,对各部分算法提出了并行计算的思路;提出改进的二值化掩膜法提取背景图像;提出辅助并行结构以使负载均衡;研究了 DSP多核通信的进程间通信(IPC)同步机制,运用流水线并行结构,实现三核同步并行处理系统.通过实验,测试了通信延迟时间,并把目标跟踪程序合理地划分到3个 DSP核中,实现并行处理,达到了实时性要求.  相似文献   

10.
刘皓  魏平  肖先赐 《通信学报》2001,22(9):115-121
本文作者用自行研制的一台使用4片TMS320C40的,具有特残四面体结构的数字信号高速并行处理机,实现了MUSIC算法的高速并行计算。在算法实现中,认真分析了算法中对性能影响很大的实对称矩阵特征值提取算法的并行实现问题。本文讨论了对称矩阵特征值提取的串行算法和一各并行算法的特点,结保二者的特点,提出了一种新的高效的并行算法,并通过实验证明文中提出的实对称矩阵特征值取的并行算法确有效,为MUSIC算法的并行计算取得较好的结果打下基础。  相似文献   

11.
本文提出一种有效的Winograd付里叶变换并行算法,该算法具有处理器间负载平衡,并行计算效率高等特点。  相似文献   

12.
Parallel image processing with the block data parallel architecture   总被引:2,自引:0,他引:2  
Many digital signal and image processing algorithms can be speeded up by executing them in parallel on multiple processors. The speed of parallel execution is limited by the need for communication and synchronization between processors. In this paper, we present a paradigm for parallel processing that we call the block data flow paradigm (BDFP). The goal of this paradigm is to reduce interprocessor communication and relax the synchronization requirements for such applications. We present the block data parallel architecture which implements this paradigm, and we present methods for mapping algorithms onto this architecture. We illustrate this methodology for several applications including two-dimensional (2-D) digital filters, the 2-D discrete cosine transform, QR decomposition of a matrix and Cholesky factorization of a matrix. We analyze the resulting system performance for these applications with regard to speedup and efficiency as the number of processors increases. Our results demonstrate that the block data parallel architecture is a flexible, high-performance solution for numerous digital signal and image processing algorithms  相似文献   

13.
Characteristic Basis Function Method (CBFM) is a novel approach for analyzing the ElectroMagnetic (EM) scattering from electrically large objects. Based on dividing the studied object into small blocks, the CBFM is suitable for parallel computing. In this paper, a static load balance parallel method is presented by combining Message Passing Interface (MPI) with Adaptively Modified CBFM (AMCBFM). In this method, the object geometry is partitioned into distinct blocks, and the serial number of blocks is sent ...  相似文献   

14.
The parallelization of the two best-known sequential algorithms, that of W.P. Dotson and J.O. Gobein (1979) and that of L.B. Page and J.E. Perry (PP-F2TDN) (1989) for computing the terminal-pair reliability in a network is discussed. Reduce and Partition (R and P), a novel sequential algorithm which combines the best efficient features of these two algorithms, is presented. It is shown that R and P runs almost twice as fast as the previously known fastest algorithm. A parallel version of R and P is also presented. The execution times of all three parallel algorithms with various numbers of processors for different networks on the BBN Butterfly parallel computer are provided. The parallel algorithms were implemented on a shared-memory parallel computer. In R and P, the greedy approach was used in selecting shortest paths in order to locally minimize the number of subproblems. This selection did not consider the effect of reductions on the subproblems to be generated  相似文献   

15.
序列最小优化(SMO)是一种常见的训练支持向量机(SVM)的算法,但在求解大规模问题时,它需要耗费大量的计算时间。文章提供SMO的一种并行实现方法。并行SMO是利用信息传递接口(MPI)开发的。首先将整个训练数据集分为多个小的子集,然后同时运行多个CPU处理器处理每一个分离的数据集。实验结果表明.当采用多处理器时,在Adult数据集上并行SMO有较大的加速比。  相似文献   

16.
针对可重构密码处理器对于不同域上的序列密码算法兼容性差、实现性能低的问题,该文分析了序列密码算法的多级并行性并提出了一种反馈移位寄存器(FSR)的预抽取更新模型。进而基于该模型设计了面向密码阵列架构的可重构反馈移位寄存器运算单元(RFAU),兼容不同有限域上序列密码算法的同时,采取并行抽取和流水处理策略开发了序列密码算法的反馈移位寄存器级并行性,从而有效提升了粗粒度可重构阵列(CGRA)平台上序列密码算法的处理性能。实验结果表明与其他可重构处理器相比,对于有限域(GF)(2)上的序列密码算法,RFAU带来的性能提升为23%~186%;对于GF(2u)域上的序列密码算法,性能提升达约66%~79%,且面积效率提升约64%~91%。  相似文献   

17.
基于最小生成树的并行分层聚类算法   总被引:2,自引:0,他引:2  
分层聚类技术在图像处理、入侵检测和生物信息学等方面有着极为重要的应用,是数据挖掘领域的研究热点之一.针对目前基于SIMD模型的并行分层聚类算法存在的无法解决存储冲突问题,提出一种基于最小生成树无存取冲突的并行分层聚类算法.算法使用O(p)个并行处理单元,在O(n2/p)的时间内对n个输入数据点进行聚类,与现有文献结论进行的性能对比分析表明,本算法明显改进了现有文献的研究结果,是一种无存储冲突的并行分层聚类算法.  相似文献   

18.
Algorithms to find the directions of arrival (DOAs) of multiple signals from measurements on an array of antenna doublets (ESPRIT method) and their parallel VLSI implementation are discussed. In particular, algorithms that allow large-scale pipelining and use only robust, unitary transformations are identified. This problem is solved by a matrix pencil approach in which the generalized eigenvalues of a pair of data matrices are determined. A modified Stewart Jacobi approach is used for which convergence is improved and parameter computations are simplified. The resulting architecture is a two-layer Jacobi array that can handle all the subproblems: two QR factorizations, two SVDs, and a single generalized Schur decomposition. The mapping of the subproblems on a single parallel array of CORDIC processors is considered  相似文献   

19.
The use of evolutionary algorithms in the boolean synthesis is an attractive alternative to generate interesting and efficient hardware structures, with a high computational load. This paper presents the implementation of a parallel genetic programming (PGP) for boolean synthesis on a GPU-CPU based platform. Our implementation uses the island model, that allows the parallel and independent evolution of the PGP through the multiple processing units of the GPU and the multiple cores of a new generation desktop processors. We tested multiple mapping alternatives of the PGP on the platform in order to optimize the PGP response time. As a result we show that our approach achieves a speedup up to 41 compared to CPU implementation.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号