首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
基于OpenCL的数字相控阵雷达干扰模拟   总被引:1,自引:0,他引:1       下载免费PDF全文
针对现代战争复杂电磁环境以及数字相控阵雷达干扰信号生成数据量大、多波束等难点,利用图形处理器(GPU)带宽高,运算能力强的特点,使用OpenCL异构编程框架实现数据级并行策略,设计了基于OpenCL的五种典型数字干扰并行算法。算法根据GPU的读写机制进行优化设计,充分发掘了现有GPU的并行计算能力。实验结果表明:基于GPU的数据并行计算程序与中央处理器(CPU)平台相比较,加速比最大可达3.25,提高了相关雷达回波模拟设备的速度,基本满足数字相控阵雷达信号处理的实时性要求。  相似文献   

2.
基于通用GPU并行计算技术,结合遥感图像数据融合处理特点,利用NVIDIA公司的CUDA编程框架,在其GPU平台上对BROVEY变换和YIQ变换融合算法进行了并行研究与实现.实验结果表明,随着遥感图像融合算法的计算复杂度、融合处理的问题规模逐渐增加,GPU并行处理的加速性能优势也逐渐增大,GPU通用计算技术在遥感信息处理领域具有广阔的应用前景.  相似文献   

3.
雷达信号处理算法的高性能实现是雷达系统中的关键技术。传统雷达信号处理算法的高性能加速主要依赖DSP和FPGA等专用设备,而它们具有开发周期长、调试难度大、成本高等缺点。GPU作为通用设备,特别适合处理雷达信号这种大规模数据。目前,GPU加速雷达信号处理的成果大多集中在SAR成像等应用领域,针对脉冲多普勒雷达相关研究还比较少。为了满足雷达回波数据对吞吐量和处理实时性的高要求,提出了基于网格跨步并行的细粒度并行化、基于多CUDA流的粗粒度并行化和基于并行扫描的数据预处理等优化技术。 从性能测试和误差分析等多角度评估了算法的实时性和准确性,在所使用的硬件平台上相比于传统CPU实现达到了300倍以上的加速比,并优于其它已有的CUDA加速的脉冲多普勒雷达信号处理算法。  相似文献   

4.
研究动态模式识别算法在GPU并行计算平台的实现。随着GPGPU(通用计算图形处理器)硬件的发展,基于GPU的大规模并行计算技术将有效地处理动态模式识别算法带来的海量计算问题。文中通过介绍动态模式识别算法,对算法中涉及的巨大计算量进行分析,并针对性地对其中密集计算部分进行并行化分解,移除原算法中在执行中存在的依赖关系,最终得到算法在特定的GPU平台———Jacket上的并行计算实现。实例验证表明,相比于原CPU串行程序,在GPU上运行的并行化程序能实现明显加速,因而具有很好的工程应用价值。  相似文献   

5.
为提升三维重建任务的执行速度,解决行业现实应用对时效性的需求,提出一种无人机影像并行处理与特征提取算法,基于CPU与GPU两种计算架构在三维重建的两个阶段并行加速处理。一是基于CPU的并行处理策略,针对多核处理器采用OpenMP多线程机制,对无人机影像进行并行加载,为后续处理提供高效数据源;二是基于GPU的并行处理策略,通过改进SIFTGPU算法在GPU上以并行方式对图像进行特征提取,为快速重建提供特征输入。真实数据的实验结果表明,与现有算法相比,在图像处理速度上提升了2倍,特征点数量提升了4倍的同时,提取速度提升了11倍。  相似文献   

6.
载机与空中目标间的相对高机动,会引起机载脉冲多普勒雷达长时间相参积累时目标在频率上跨越多个多普勒滤波器单元,导致目标的相参积累能量降低;利用目标航迹预测加速度或载机自身加速度,在目标回波的距离频域进行线性相位补偿的方法,实现了机动目标的速度走动补偿,有效地提高了目标相参积累信噪比;该方法显著改善了雷达对机动目标的检测性能,具有运算量小、易于工程实时处理等特点;仿真数据验证了理论分析的结果和算法的有效性。  相似文献   

7.
基于CUDA的并行粒子群优化算法的设计与实现   总被引:1,自引:0,他引:1  
针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题, 进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析, 结合目前被广泛使用的基于GPU的并行计算技术, 设计实现了一种并行PSO方法。本方法的执行基于统一计算架构(CUDA), 使用大量的GPU线程并行处理各个粒子的搜索过程来加速整个粒子群的收敛速度。程序充分使用CUDA自带的各种数学计算库, 从而保证了程序的稳定性和易写性。通过对多个基准优化测试函数的求解证明, 相对于基于CPU的串行计算方法, 在求解收敛性一致的前提下, 基于CUDA架构的并行PSO求解方法可以取得高达90倍的计算加速比。  相似文献   

8.
传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言(OpenCL)框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于OpenCL的传递闭包并行算法。利用本地存储器优化的并行子矩阵乘算法来优化计算步骤,提高图形处理器(GPU)的存储器利用率,降低数据获取延迟。通过分块矩阵乘并行计算算法实现大数据量的矩阵乘,提高GPU计算核心的利用率。数据结果表明,与CPU串行算法、基于开放多处理的并行算法和基于统一设备计算架构的并行算法相比,传递闭包并行算法在OpenCL架构下NVIDIA GeForce GTX 1070计算平台上分别获得了593.14倍、208.62倍和1.05倍的加速比。  相似文献   

9.
针对SAR成像中图像模糊并伴有噪声的问题,结合噪声可见性函数,提出了一种SAR图像增强快速算法。该算法在图像分层的基础上,结合人眼视觉特性,引入噪声可见性函数,实现细节层图像的增益控制。根据GPU架构和存储结构特点,并行计算各个像素在基本层和细节层上的处理过程,完成该算法的并行优化设计与实现。实验结果表明,该算法能够有效提高图像质量,增强图像细节;同时,能够充分利用GPU的并行计算能力,有效提高SAR图像增强的实时性。  相似文献   

10.
GPU加速的生物序列比对   总被引:1,自引:1,他引:0  
为了精确高效地进行生物序列比对,提出一种GPU加速的Smith-Waterman算法.该算法使用菱形数据布局以更充分地利用GPU的并行处理能力;使用查询串分批处理技术来支持上百兆规模的序列比对;同时引入树形算法,以优化最大匹配值的计算.将该算法在一块NVIDIA GeForce GTX285显卡上实现,并使用多组不同规模的生物序列进行了比对实验.实验结果表明,与CPU上的串行算法相比,采用文中算法最高可获得120倍以上的性能提升.  相似文献   

11.
压缩技术被广泛应用于数据存储和传输中,然而由于其内在的串行特性,大多数已有的基于字典的压缩与解压缩算法被设计在CPU上串行执行。为了探究使用图形处理器(graphic processing unit,GPU)对压缩与解压缩过程潜在性能的提升,结合合并内存访问与并行组装的技术,基于CUDA(compute unified device archi-tecture)平台研究了两种并行压缩与解压缩方法:基于字典的无状态压缩和基于字典的LZW压缩。实验结果表明,与传统的单核实现比较,所提方法能够显著改善已有的基于字典的串行压缩与解压缩算法的性能。  相似文献   

12.
随着GPU通用计算能力的不断发展,一些新的更高效的处理技术应用到图像处理领域.目前已有一些图像处理算法移植到GPU中且取得了不错的加速效果,但这些算法没有充分利用CPU/GPU组成的异构系统中各处理单元的计算能力.文章在研究GPU编程模型和并行算法设计的基础上,提出了CPU/GPU异构环境下图像协同并行处理模型.该模型充分考虑异构系统中各处理单元的计算能力,通过图像中值滤波算法,验证了CPU/GPU环境下协同并行处理模型在高分辨率灰度图像处理中的有效性.实验结果表明,该模型在CPU/GPU异构环境下通用性较好,容易扩展到其他图像处理算法.  相似文献   

13.
基于matlab的雷达信号处理仿真系统   总被引:2,自引:1,他引:1  
为提高设计雷达信号处理系统的效率,在matlab软件平台上结合数字信号处理理论建立了雷达信号处理模型,并在此基础上进行了仿真.系统对线性调频信号、非线性调频信号等常用雷达信号的产生和处理过程进行了计算机仿真,雷达信号处理主要体现为时域和频域的脉冲压缩,包括加权前、后脉冲压缩波形的比较.系统具有显示的直观性、实时性与逼真性,而且具有很强的扩展性,可用于与雷达信号处理有关的教学与科研、试验分析.典型仿真范例及结果表明用matlab仿真雷达信号处理系统是方便和高效的.  相似文献   

14.
陈颖  林锦贤  吕暾 《计算机应用》2011,31(3):851-855
随着图形处理器(GPU)性能的大幅度提升以及可编程性的发展,已经有许多算法成功地移植到GPU上.LU分解和Laplace算法是科学计算的核心,但计算量往往很大,由此提出了一种在GPU上加速计算的方法.使用Nvidia公司的统一计算设备架构(CUDA)编程模型实现这两个算法,通过对CPU与GPU进行任务划分,同时利用GP...  相似文献   

15.
采用FPGA技术实现雷达数字脉压,克服了DSP处理速度有限、实时性差的问题。本文以自行研制的雷达信号处理PCI卡为平台,详细介绍了数字脉压在FPGA芯片上实现的原理和过程,对脉压中的匹配滤波器进行了优化设计,解决了FP-GA资源相对有限的问题。最后说明了利用FPGA进行数字脉压的优势,为雷达数字脉压的工程实现提出了一条新思路。  相似文献   

16.
弧相容算法是约束满足问题的基本压缩求解空间算法之一,很多优秀的高级算法都以高性能的弧相容算法作为核心.近年来,以GPU为计算工具加速并行计算被用来尝试解决许多问题.基于GPU和基本的并行算法,提出一种适合GPU运算的约束网络表示模型N-E,给出其生成算法BuildNE.结合细粒度的弧相容算法——AC4,基于N-E模型提出AC4的并行化算法AC4\\+GPU与改进算法AC4\\+GPU+,使弧相容算法得以扩展到GPU上执行.实验结果验证了该算法的可行性,与AC4算法的比较,其在一些规模较小的问题上取得了10%~50%的加速,在一些规模较大的问题上则加速1~2个数量级.为今后进一步在GPU上以并行形式解决其他约束满足问题提供了一种核心算法方案.  相似文献   

17.
Real‐time rendering of large‐scale engineering computer‐aided design (CAD) models has been recognized as a challenging task. Because of the constraints of limited graphics processing unit (GPU) memory size and computation capacity, a massive model with hundreds of millions of triangles cannot be loaded and rendered in real‐time using most of modern GPUs. In this paper, an efficient GPU out‐of‐core framework is proposed for interactively visualizing large‐scale CAD models. To improve efficiency of data fetching from CPU host memory to GPU device memory, a parallel offline geometry compression scheme is introduced to minimize the storage cost of each primitive by compressing the levels of detail (LOD) geometries into a highly compact format. At the rendering stage, occlusion culling and LOD processing algorithms are integrated and implemented with an efficient GPU‐based approach to determine a minimal scale of primitives to be transferred for each frame. A prototype software system is developed to preprocess and render massive CAD models with the proposed framework. Experimental results show that users can walkthrough massive CAD models with hundreds of millions of triangles at high frame rates using our framework. Copyright © 2016 John Wiley & Sons, Ltd.  相似文献   

18.
密钥协商算法目前被广泛运用于包括TLS/SSL在内的各种安全协议中,以支持通信双方在不被保护的信道中建立共享秘密。特别是在TLS 1.3中,为保证前向安全性(forward secrecy),移除了利用静态RSA公钥加密算法进行密钥交换的方式,仅保留Diffie Hellman (DH)密钥协商算法,并引入了一个新的密钥协商算法X25519/448。相比于TLS 1.3其他两类DH密钥协商算法(有限域DH和基于NIST-P曲线的椭圆曲线DH),X25519/448的计算量更小且参数的选取过程公开,更受产业界青睐。事实上,包括OpenSSH在内的众多开源项目已经将X25519/448作为默认的密钥协商算法。虽然X25519/448的计算量相对较小,但是在云计算、电子交易等大规模并发请求的场景下,它所依赖的椭圆曲线点乘运算仍然是性能瓶颈。本文利用图形处理器(Graphics Processing Unit,GPU)针对X25519/448进行了多层次的性能优化,同时考虑了可能的计时攻击威胁,完成性能的最大化。所实现的X25519/448在桌面级GPU GTX 1080达到每秒2860412/357944次操作,在嵌入式GPU Tegra X2上达到每秒155459/17909次操作,性能远远超过CPU、FPGA和同类GPU平台实现。其中,Tegra X2上的X25519实现分别是ARM CPU的8.5倍和FPGA的13.2倍,体现了GPU在嵌入式密码计算领域的强大潜能。  相似文献   

19.
本文介绍了一个基于高速定点DSP的雷达信号处理实验系统的设计和研制.其中包括雷达中频信号采集.多种雷达信号的设计和产生。雷达回波的脉冲压缩处理、动目标显示、动目标检测和恒虚警处理。实验系统以ADI公司最新推出的Blackiln系列高速定点DSP芯片BF53x为核心,在多任务管理软件VDK的控制下.各软件模块以独立线程的方式并行工作.每个模块的参数及相互之间的连接方式通过PC上的LabView软件界面进行设置。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号