首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
为了提高GRAPES数值天气预报模式的计算效率,改善动力框架部分的性能,针对广义共轭余差算法(GCR)求解赫姆霍兹方程在GRAPES模式中耗时较大的问题,提出了一种基于CPU+GPU异构并行的预处理广义共轭余差算法。采用不完全LU分解对系数矩阵进行预处理来减少迭代次数,在此基础上实现了OpenMP的细粒度并行和MPI粗粒度并行,OpenMP并行主要是采用循环展开的方式对程序中无数据依赖的循环体使用编译制导来提高程序的性能;MPI并行主要是将数据划分给各个进程,采用非阻塞通信和优化进程通信数据量的方式来提高并行程序的可拓展性。实现了MPI+CUDA异构并行,MPI负责节点间进程通信以及迭代控制,CUDA负责处理计算密集型任务,将GCR中耗时较大的矩阵计算部分移植到GPU上处理,采用访存优化和数据传输优化来减少CPU和GPU间的数据传输开销。实验结果表明:与串行程序相比,OpenMP并行加速比为2.24,MPI并行加速比为3.32,MPI+CUDA异构并行加速比为4.69,实现了异构平台上的广义共轭余差算法性能优化,提高了程序的计算效率。  相似文献   

2.
快速有限脉冲响应(FIR)算法(FFA)突破了传统并行FIR滤波器复杂度随并行度线性增加的局限性,效率大幅提高。然而目前缺少对高并行FFA通用算法和实现架构的研究。该文提出了高效2n并行FFA,并给出了其通用算法形式与实现架构;同时讨论了对于非2n并行FFA的实现架构。通过算法分析和硬件效率评估,本文算法及其实现架构在相同的并行度和性能条件下,比传统并行算法有显著改善,且随着并行度的增加,这种优势更加明显。该算法在高并行FIR滤波器的应用中有很大优势。  相似文献   

3.
提出了一种适合于多指令流多数据流并行机和计算机网络并行实现的快速傅里叶变换的系数矩阵块对角化并行算法。该并行算法的并行度高,且各个并行任务在运算期间不需要互相通信,因而在计算机网络及通信速率和带宽较低的并行计算机上并行实现时效率较高。  相似文献   

4.
在分析基于消息传递的并行应用程序性能时,常用的一种技术是事件跟踪。它要求事件记录的时戳要有可比较性。然而,集群计算机各处理器的时钟往往具有不同的时钟值和不同的漂移率。因此,在分析之前必须对采集的事件记录时戳进行同步。文章介绍了一种逻辑时戳同步方法,通过检测时钟条件违反情况,采用前向和后向分摊技术后移某些事件来修正逻辑错误的时戳,并根据集合通信操作的语义,将集合操作分解成类似于点到点通信的发送-接收对集合,从而将算法扩展到能够处理集合操作。最终,实现了事件的逻辑同步,并平滑了因后移事件而引起的事件不连续跳跃。  相似文献   

5.
并行测试技术是解决当今大规模电路测试难题的一个重要手段.故障分解又是最基本的并行测试方法.详细论述了故障分解的理论和两种故障分解算法的基本模型,并且在实现了一个基于FAN算法的并行测试生成系统的基础上详细说明了故障分解的并行测试生成算法的具体实现.在系统实现中,将故障模拟在全故障集上进行,并对C/S通信进行了多线程处理,取得了比较好的加速效果.  相似文献   

6.
针对现有无线传感器网络信道仿真难以获得高效的执行性能问题,提出并实现了一个基于Nvidia的图形处理器(GPU)+CUDA计算体系的并行信道仿真系统;研发了可驻留于GPU高速片上存储的CUDA树群,以其组织节点,并加速探测可能的发包节点;建立了完全不同于传统信道仿真的CUDA并行信道仿真引擎. 实验结果表明,该系统以高达528.73倍的加速比远胜于相应的中央处理器实现,并线性扩展于网内节点数目.  相似文献   

7.
针对Jacobi迭代的海量计算问题,设计了大规模并行计算算法。通过非阻塞通信函数替代阻塞通信函数、采用虚拟进程拓扑方式改进数据的区块划分,并利用高性能集群系统多计算节点协同处理对Jacobi并行迭代进行了尝试。实现了基于MPI的C语言串行与并行算法,利用Taurus HPC分别对串行、并行,单节点、多节点并行算法进行了系统测试。测试结果表明,进程间数据通信效率是影响并行程序性能的重要因素;跨多节点执行对于海量计算任务可显著提高计算速度;合理的数据区块划分有利于处理器的任务调度,可有效提高Jacobi并行迭代算法的执行效率。  相似文献   

8.
基于图形处理器(GPU)体系架构研究二级光线跟踪技术,使其交互式地绘制出真实感极强的图像.基于二级光线的特性和GPU体系结构的特点,提出以下技术:具有高并行度的加速结构快速构造方法;二级光线包的自适应生成方法;自适应的并行光线跟踪算法;面向优化带宽使用的数据动态管理方法等.实验表明,该方法可以最大限度地发挥图形处理器强大的并行计算能力,有效地使用硬件计算资源和存储资源,从而大大地加快二级光线跟踪的并行计算.  相似文献   

9.
直接数值模拟中三对角方程组并行算法研究   总被引:1,自引:0,他引:1  
为了提高大规模直接数值模拟(DNS)中三对角方程组的并行求解效率,提出了一种并行分裂算法.
该算法基于Wang的分裂算法,采用平均分配策略划分三对角方程组,利用非阻塞通信模式取代阻塞通信模
式,以原有空间存储新的计算结果.在Linux集群服务器上进行了两种不同规模三对角方程组的实现,并研
究了不同节点数目与计算规模下的计算时间和加速比.结果表明,该算法的计算与通信重叠度高,计算步
骤和存储开销小,具有较高的并行计算效率.在百兆网络条件下,从1×105规模矩阵开始具有明显并行优
势,并且随矩阵规模增大,加速比不断提高.该算法适用于大规模三对角矩阵的并行计算.  相似文献   

10.
面向图形和图像处理的轻核阵列机结构   总被引:1,自引:1,他引:0  
提出一种适用于图形和图像处理的高效并行阵列机结构。该结构的处理单元有单指令多数据(SIMD)和多指令多数据(MIMD)两种运行模式,兼有异步执行机制、硬件的多线程管理器和高效通信机制。这些机制使得此种阵列机能够实现效率很高的线程级并行运算、数据级并行运算和操作级并行运算。尤其值得指出的是,此种阵列机的流处理性能可以达到或接近专用集成电路的性能。该结构还能有效实现静态与动态数据流计算。  相似文献   

11.
为实现卷积神经网络数据的高度并行传输与计算,生成高效的硬件加速器设计方案,提出了一种基于数据对齐并行处理、多卷积核并行计算的硬件架构设计和探索方法. 该方法首先根据输入图像尺寸对数据进行对齐预处理,实现数据层面的高度并行传输与计算,以提高加速器的数据传输和计算速度,并适应多种尺寸的输入图像;采用多卷积核并行计算方法,使不同的卷积核可同时对输入图片进行卷积,以实现卷积核层面的并行计算;基于该方法建立硬件资源与性能的数学模型,通过数值求解,获得性能与资源协同优化的高效卷积神经网络硬件架构方案. 实验结果表明: 所提出的方法,在Xilinx Zynq XC7Z045上实现的基于16位定点数的SSD网络(single shot multibox detector network)模型在175 MHz的时钟频率下,吞吐量可以达到44.59帧/s,整板功耗为9.72 W,能效为31.54 GOP/(s·W);与实现同一网络的中央处理器(CPU)和图形处理器(GPU)相比,功耗分别降低85.1%与93.9%;与现有的其他卷积神经网络硬件加速器设计相比,能效提升20%~60%,更适用于低功耗嵌入式应用场合.  相似文献   

12.
针对数字接收机中如何全数字地实现位同步,设计了一种内插位同步法。利用内插与Gardner算法相结合的原理设计位同步,通过System Generator进行建模仿真,并直接生成代码下载到FPGA实现位同步。利用QPSK信号进行仿真分析,FPGA硬件协同仿真进行验证。实验结果表明,内插位同步法具有很好的位同步效果。  相似文献   

13.
OFDM电力线载波通信系统的定时同步改进方法   总被引:1,自引:0,他引:1  
讨论了正交频分复用(OFDM)电力线载波通信系统的定时同步方法,在传统算法的基础上,提出了一种针对多径情况下的定时同步的改进算法. Matlab仿真结果表明,该算法可以明显改善电力线载波通信系统在多径信道下的系统性能,并具有复杂度低、硬件开销少等特点.  相似文献   

14.
提出基于平方根-卡尔曼滤波算法的时钟同步算法,在保证算法收敛的前提下对时钟偏差和偏斜进行最优估计。算法中提出通信能耗与时钟精度的关系模型,在满足一定精度的前提下校准时钟,既能保证时钟的稳定和精准,又能较少地占用带宽资源,节约通信能耗。最后通过网络模拟器模拟实验论证了算法的性能。  相似文献   

15.
为实现微小卫星快速协同工作,满足星间通信链路对扩频信号捕获算法提出的高灵敏度与快速捕获的要求,对常用捕获算法的原理进行分析,针对传统信号捕获方法存在的捕获灵敏度低、捕获时间长、信噪比要求高等缺陷,提出一种适用于星间链路的FFT快速捕获算法,该算法在传统FFT码相位捕获法的基础上通过多路并行架构、特殊同步序列、降速率抽取、非相干累加等优化策略对传统算法的捕获灵敏度及捕获速度进行改善。基于对改进算法的可行性进行检验,首先通过理论公式推导了算法的极限灵敏度、抗干扰能力与理论捕获时间,其次,在MATLAB软件中设置典型任务环境对算法的各项性能进行仿真,最终通过搭建硬件测试平台对算法进行性能实测。仿真及硬件测试表明:该算法相对于传统捕获算法性能有明显提升,改进算法的极限捕获灵敏度可达-130 dBm,捕获时间小于100 ms,符合卫星通信环境设计需求,并已在自主研制的天平二号卫星的星间通信机中验证了其可行性;改进算法还可通过调节算法的并行路数、非相干累加次数等算法要素兼容不同应用环境需要。  相似文献   

16.
Based on the frame structure of intermediate data rate (IDR) modem for satellite communication, a new method for searching frame synchronization called group frame synchronization is proposed. At the same time, a candidate scheme in the classical frame synchronization and two candidate schemes in the group frame synchronization are presented, and the circuits for each scheme are designed in order to abstract the frame alignment signals from received data. Their implementation complexity and performances are also computed and given. Based on the analysis and performance comparison, a reasonable scheme is chosen and then verified through software simulation and hardware impletentation.  相似文献   

17.
混沌信号是确定性非线性系统产生的极其复杂的不确定的信号,具有对初始条件的极端敏感性。将混沌信号引入保密通信系统的设计,具有保密能力强,系统简单等优点。而混沌同步是实现混沌保密通信的重要条件。研究多涡卷混沌系统的同步技术,设计多涡卷混沌保密通信系统,能进一步提高混沌系统的保密性能,增加破译难度。通过采用相互耦合法、自适应同步法对多涡卷混沌系统进行同步的仿真研究,设计正确的同步驱动函数和选择恰当的参数,两个混沌系统能达到同步。对其同步性能进行比较,可以发现自适应同步法的同步建立的时间较短,而耦合同步法的误差较小,两者各有优缺点。在混沌保密通信系统的设计中应按具体要求适当地选择混沌系统的同步方法。  相似文献   

18.
提出了一种认知异步跳频通信系统同步方案.通过采用两套可选的跳频图案,在当前发射跳期间,认知下一跳两个频点的状况,自适应选择下一跳频点进行信息传输,进一步提高了异步跳频通信系统的抗干扰能力;仿真结果表明,在同步概率大于95%时,新方案将用户容量提高了5倍多; 通过引入循环前缀,实现了接收机跳频图案的自适应识别,并解决了跳频信号位同步信息不易提取的难题; 最后还给出了异步跳频通信系统和认知异步跳频通信系统的同步性能分析.  相似文献   

19.
虚拟仪器技术就是利用高性能的模块化硬件,结合高效灵活的软件来完成各种测试、测量和自动化的应用。灵活高效的软件能够创建完全自定义的用户界面,模块化的硬件能方便地提供全方位的系统集成,标准的软硬件平台能满足对同步和定时应用的需求。介绍了基于时间法的虚拟相位差计的设计与实现。该虚拟相位差计是基于图形化编程语言LabVIEW开发的,运用了两种设计方案实现。具有执行数据采集、显示、周期和相位差的计算等功能。仿真结果证明虚拟相位差计可以准确的测量出不同信号的相位差。  相似文献   

20.
To solve the carrier recovery problem with large frequency offset in short burst communication systems using shaped-offset quadrature phase shift keying(SOQPSK), a joint pilot and demodulation soft information assisted carrier synchronization algorithm is proposed. First, coarse synchronization based on a few short pilot sequences is carried out. Then, further fine search is done around the coarse synchronization estimation region. The precise carrier synchronization parameters are obtained based on the maximum-mean-square soft output of SOQPSK. Simulation results show that at Eb/N0≥0dB the proposed algorithm can eliminate large carrier offsets by as much as half the symbol rate, resist phase confusion and achieve effective carrier synchronization with 30 pilot bits and low computation complexity, achieving a BER performance which is very near the optimal coherent demodulation performance. When BER is in the region of 10-2~10-5, SNR degradation is below 0.3dB.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号