期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

袁三男王孟彬张艳秋陶倩昀《上海电力学院学报》2021,37(3):271-276

针对高效视频编码(HEVC)实时编码高清视频和超高清视频而带来视频编码速度慢、计算复杂度高的问题,提出了基于异构多核CPU+GPU处理平台上的并行实时编码算法以及在GPU中基于率失真优化快速搜索算法,以提高视频编码的速度和降低计算复杂度。经实验验证,所提算法简单且有效,在不牺牲率失真性能的前提下,使编码速度得到明显提升,并进一步接近了实时编码的要求。相似文献

2.

异构多处理平台并行实时编码算法研究

袁三男王孟彬陶倩昀张艳秋《上海电力学院学报》2022,38(2):158-162

针对以CPU为处理平台的H.265/HEVC串并行编码效率较低的问题,设计了一种基于异构多核CPU+GPU处理平台的并行实时编码算法。按照CPU和GPU互不相同的硬件特性分配任务,降低了时间复杂度,同时使CPU和GPU的协作能力获得了提升,计算资源得到了更加合理的利用。视频编码并行化设计提高了编码效率,高清视频的编码速度最高可达26.31帧/s,实现了高清视频的实时编码。相似文献

3.

基于指导语句的CUDA程序性能分析工具研究与实现

李建江路川张磊《电子科技大学学报(自然科学版)》2012,41(2):280-284

近年来,GPU的快速发展与NVIDIA公司推出的CUDA技术,推动着GPU在高性能计算领域中的应用。研究并实现CUDA程序性能分析工具,对充分利用GPU的计算优势和提高CUDA架构下并行程序的执行性能具有重要的意义。该文分析了GPU硬件平台的特点和CUDA并行编程模型,结合CPU集群环境下并行程序的性能分析,设计并实现了一种基于指导语句的CUDA程序性能分析工具,并实验验证了其在不同GPU硬件平台上的有效性。相似文献

4.

快照成像光谱仪快速光谱重构算法

张宇朱帅帅赵梁玉林杰金鹏《哈尔滨工业大学学报》2017,49(3):29-34

为实现对光谱数据的快速实时处理,针对快照式傅里叶成像光谱仪,提出一种基于GPU的并行化光谱重构算法.通过分析快照式成像光谱仪的工作原理和数据特性,结合CUDA并行计算架构,对光谱重构算法可并行部分最大程度并行化,并针对并行计算中的内存分配等方面进行优化处理,实现并行化的光谱重构算法.实验结果表明:基于GPU的并行化光谱重构算法,相对CPU串行化算法,精度相同的情况下,计算效率提升了约25倍.利用GPU加速程序的并行部分,可以极大地提高光谱重构的效率,使得快照式成像光谱仪更加适用于实时测量当中. 相似文献

5.

基于异构多核的LLC缓冲管理策略

方娟张希蓓刘士建《北京工业大学学报》2019,30(5):421-427

针对异构多核架构下,大量共享末级缓存（last level cache,LLC）空间被GPU应用程序占据,导致系统性能降低的问题,提出了一种基于异构多核的LLC缓冲管理策略buffer-for-GPU（BFG）.该策略在共享末级缓存旁侧建立一个与其结构相同的缓冲buffer,缓存不敏感GPU消息直接访问buffer而不访问LLC.针对CPU应用程序和GPU应用程序不同的特性,采用合理的替换策略,增加cache命中率.结果表明：BFG使CPU和GPU每一时钟周期内所执行的指令数（instruction per cycle,IPC）分别平均提升2.48%和9.30%,CPU应用程序命中率平均提升70.45%.BFG可以有效地过滤GPU请求,为CPU应用程序腾出LLC空间,从而提高系统性能.

相似文献

6.

弹载雷达信号处理SoC的设计与实现

闵俊红苏涛郝珊珊《空军雷达学院学报》2013,(1):1-5,10

为满足系统实时性要求,给出了一种弹载雷达信号处理系统的可编程SoC设计方案.它以SoC技术为基础,将雷达信号处理所需的专用功能模块尽可能地集成到一块芯片中,提高了芯片的通用性.将A/D采样、数字下变频、脉冲压缩、动目标检测、求模和恒虚警等功能模块集成到一片内嵌CPU硬核的FPGA芯片上进行测试验证,同时通过性能改善策略,提高了片上系统性能,满足了信号处理实时性要求.测试分析表明:该芯片具有快速的处理能力、较大的数据存储容量以及功耗较小的优点,且芯片中各模块间具有很高的通信速度. 相似文献

7.

基于GPU加速的雷暴追踪外推方法研究

王兴王新苗春生王介君《南京师范大学学报》2015,(1):035-42

基于气象雷达的雷暴识别与追踪是临近预报中重要的方法之一. 为解决传统算法实时性差的问题,运用OpenCL构建异构计算模型对算法进行并行化改进. 通过对算法分支结构优化、OpenCL设备内存优化,以及针对VLIW的优化,分步阐述算法优化的过程和原理. 这些方法不仅使得基于光流的计算速度大幅提升,还可为其他基于OpenCL异构计算的优化提供参考. 以AMD两代不同架构的GPU和Intel XEON CPU作为测试平台测试,结果表明,改进后的算法程序在硬件同等功耗的情况下,计算速度提高了10至18倍. 相似文献

8.

基于CUDA GPU的中期冲突探测加速算法研究

杨波梁海军《四川大学学报(工程科学版)》2012,44(Z1):133-137

中期冲突探测(MTCD)是空中交通管制的重要决策支持工具。针对Prandini概率型中期冲突探测算法存在计算速度慢、探测精度不够高的缺点,提出基于GPU CUDA的加速算法。利用CUDA线程并行处理能力和GPU的计算能力,对算法进行了重新设计与优化。通过仿真实验,证明了在NVIDIA Geforce 8800GTS显卡上可得到50倍以上的加速性能,可以满足大型空管自动化系统20 min内中期冲突探测的实时性和精度要求。相似文献

9.

宽带信号匹配滤波的GPU实现及性能优化

周航蔡志明王希敏《西安电子科技大学学报(自然科学版)》2015,42(3):135-140,191

从宽带相关的角度推导了基于小波变换的匹配滤波算法及基于快速傅里叶变换(FFT)算法,并分析了算法复杂度,提出了基于图形处理器(GPU)的可配置宽带匹配滤波的软件实现和理论预测与函数实测结合的优化方法.通过优化线程块的维度、绑定纹理寄存器来改进内核函数性能,再使用计算统一设备架构(CUDA)库来降低FFT与极值搜索的时延,并进行了性能优化设计.在性能测试中,文中方法在GPU平台的实现相比8核CPU平台的实现具有3.3倍加速比,其处理时延能够满足宽带匹配滤波的实时性需求. 相似文献

10.

大能束数蒙特卡洛热辐射计算的CUDA并行算法

季经纬郝耀华张静瑶李金鸽《中国矿业大学学报》2011,40(6)

研究了基于CUDA（Compute unified device architecture）技术的蒙特卡洛热辐射计算算法.以油池火的火焰辐射计算为例,采用计算能力值为1.1,1.2,2.1的3种GPU为硬件,探讨了CUDA在蒙特卡洛热辐射计算中的效率.研究发现,当计算采用的线程数为最大值,线程块数为MP个数的整数倍,GPU的计算能力值较大时,计算速度可以得到较大的提升.经过优化后,在计算500万个能束数时,采用计算能力值为1.1,1.2,2.1的GPU运行时间只需0.44,0.167和0.084s,分别比单个CPU的运行时间快了62,167和333倍.结果证明对蒙特卡洛法进行CU-DA并行化改进,在保证计算精度的同时可以极大地提高计算效率. 相似文献

11.

OLAP中基于GPU的中位数计算算法

吴振鹏张健范星奇李翠平《山东大学学报(工学版)》2021,51(3):7-14

针对联机分析处理(online analytical processing,OLAP)中的整体型聚集函数中位数,提出基于图形处理单元(graphics processing unit,GPU)的GPU-Median算法,通过对数据进行划分,分段排序,不断裁剪全局中位数之前的数据,对未裁剪的数据进行合并,得到最终的中位数... 相似文献

12.

基于GPU的大图数据上的关键字检索算法

林鹤翔乔连鹏袁野王国仁《浙江大学学报(工学版)》2022,56(2):271-279

在传统图上关键字检索问题研究的基础上,基于图形处理器（GPU）设计新的关键字检索算法. 基于Steiner tree语义定义关键字检索问题,针对该问题结合传统多源最短路径算法在CPU上设计基本算法,由于CPU架构特性,该算法无法直接移植到GPU上. 提出GPU上的基本检索算法,分析它相对于CPU版本的优势和仍然存在的不足. 为了提升算法查询速度,反思GPU上基本检索算法的不足之处,提出基于索引的优化技术,利用单源最短路径算法的松弛更新思想、关键字独立性和内部整体性,设计GPU上的高效关键字检索算法. 扩展该算法思想,对r-cliques关键字检索问题提出GPU上的优化思路. 通过分析算法复杂度并在真实数据集上进行实验,证明该GPU算法的正确性和有效性,并证明算法在较大规模图数据上仍有较强的计算性能. 相似文献

13.

基于多核计算的雷达并行仿真结构

王磊卢显良陈明燕张伟张顺生《电子科技大学学报(自然科学版)》2014,43(1):113-118

针对顺序仿真结构下回波生成与信号处理环节软件仿真速度慢等瓶颈问题,提出一种基于多核处理器共享内存的多数据链路计算模型,通过构建多数据链路并行仿真的方法提升软件仿真效率。根据同一调度间隔内各雷达事件相互独立的特性,从数据划分、任务分配、时间同步及负载监测与度量等层面上进行阐述。仿真结果表明,该方法与传统的雷达串行仿真相比,数据帧处理平均时间可以降低37.5%,数据帧处理加速比曲线表现出良好的仿真加速特性,大大缩减雷达系统仿真时间。相似文献

14.

一种密集信号环境下雷达脉冲分选方法 总被引：2，自引：0，他引：2

魏娟杨万麟植强王松煜《电子科技大学学报(自然科学版)》2005,34(3):323-327

针对电子战所面临的高密度,占空比大,脉冲重叠丢失率高的信号环境,构建了一个实时的脉冲信号预分选系统,改进了基于概率统计的分选算法,并提出一个剔除TOA倍数及加和关系的算法,通过试验证明了该系统和算法的可行性。通过硬件电路进行了具体实现,该系统能实时的对雷达脉冲序列进行分选,并在密集的信号环境下具有良好的分选正确率。相似文献

15.

基于异构多核构架的红外与可见光实时融合系统

熊伟《四川大学学报(工程科学版)》2015,47(Z2):118-124

描述了一个自主研制的基于异构多核构架的红外与可见光图像实时融合传输系统的设计与实现方案。本系统是具有异构多核并行计算机体系结构的嵌入式高速实时图像融合处理系统,选择基于ARM与DSP组合异构双核处理器TMS320DM6467T作为中心处理单元,充分利用ARM端的传输控制功能与DSP端的超强计算能力相结合的特点,发挥两种处理器构架的性能优势。提出并实现基于“灰度世界”算法的红外图像增强方式,同时使用拉普拉斯金字塔变换对红外与可见光图像进行实时融合。实验结果表明,采用该异构多核构架的图像实时融合传输系统能够良好地解决多源图像融合算法的大数据量计算处理与系统实时性要求之间的矛盾,提高了多传感器实时图像融合处理与传输系统的处理效率和性能。相似文献

16.

稀布阵雷达信号处理系统的硬件实现

杜春鹏王启智孙实泽《空军雷达学院学报》2010,24(1):5-8,11

为满足稀布阵综合脉冲孔径雷达（SIAR）工程应用的需求,针对SIAR信号处理数据量很大的特点,提出了一种基于FPGA和DSP相结合的高性能信号处理硬件平台解决方案,从而实现了SIAR的实时信号处理．该硬件平台现已应用于某雷达,设计满足需求,性能稳定可靠．相似文献

17.

Heterogeneous parallel computing accelerated iterative subpixel digital image correlation

HUANG JianWen ZHANG LingQi JIANG ZhenYu DONG ShouBin CHEN Wei LIU YiPing LIU ZeJia ZHOU LiCheng TANG LiQun 《中国科学:技术科学(英文版)》2018,(1)

Parallel computing techniques have been introduced into digital image correlation(DIC) in recent years and leads to a surge in computation speed. The graphics processing unit(GPU)-based parallel computing demonstrated a surprising effect on accelerating the iterative subpixel DIC, compared with CPU-based parallel computing. In this paper, the performances of the two kinds of parallel computing techniques are compared for the previously proposed path-independent DIC method, in which the initial guess for the inverse compositional Gauss-Newton(IC-GN) algorithm at each point of interest(POI) is estimated through the fast Fourier transform-based cross-correlation(FFT-CC) algorithm. Based on the performance evaluation, a heterogeneous parallel computing(HPC) model is proposed with hybrid mode of parallelisms in order to combine the computing power of GPU and multicore CPU. A scheme of trial computation test is developed to optimize the configuration of the HPC model on a specific computer. The proposed HPC model shows excellent performance on a middle-end desktop computer for real-time subpixel DIC with high resolution of more than 10000 POIs per frame. 相似文献

18.

CUDA架构下的快速Wallis影像增强算法

肖汉吴庆双冯娜《沈阳工业大学学报》2011,33(3):293-298

针对图像增强通常需要较大的计算量、用传统方法难于进行实时处理的问题,提出了一种基于图形处理器加速的Wallis变换影像增强方法.借助于图形处理器较强的运算能力,利用CUDA并行计算架构在PC机上实现了快速Wallis图像滤波算法,包括图形处理器（GPU）上任务分解、大规模计算核心的分解方法,结合使用共享存储器、全局存储器对算法进行加速,使用线程块内的共享存储器较好地解决了同一计算子空间的各线程同步问题.对比了CPU和GPU计算Wallis影像变换的时间,结果表明,随着图像分辨率的增大,Wallis并行算法可以把计算速度提高40倍.该方法具有较好的实时性,可大大提高图像增强过程的处理速度,显著地减少了计算时间. 相似文献

19.

基于ShuffleNetv2-YOLOv3模型的静态手势实时识别方法

辛文斌郝惠敏卜明龙兰媛黄家海熊晓燕《浙江大学学报(工学版)》2021,55(10):1815-1824

针对移动端平台下计算资源有限、存储空间小的特点,提出高效的ShuffleNetv2及YOLOv3集成网络静态手势实时识别方法,以减小模型对硬件的计算能力需求. 通过将轻量化网络ShuffleNetv2代替Darknet-53作为主干网络,减小模型的计算复杂度. 引入CBAM注意力机制模块,加强网络对空间和通道的关注度. 采用K-means聚类算法,重新生成Anchors的长宽比和数量,使重新生成的Anchors尺寸对目标进行精确定位来提高模型的检测精度. 实验结果表明,提出算法在手势识别上的平均识别准确率为99.2%,识别速度为44帧/s,单张416×416图片在GPU上的推理时间为15 ms,CPU上的推理时间为58 ms,模型所占内存为15.1 MB. 该方法具有识别精度高、识别速度快、内存占用率低等优点,有利于模型在移动终端上部署. 相似文献

20.

FPGA和多DSP系统的并行RX探测算法

赵宝玮相里斌吕群波张桂峰曾晓茹郭文记《西安电子科技大学学报(自然科学版)》2014,41(3):152-156

针对高光谱图像异常目标探测过程运算量大、结果不能实时应用的问题,在FPGA和多数字信号处理的硬件平台上实现了RX并行处理算法．结合RX算法的原理与特征,研究了该算法的并行特性;通过计算机仿真验证了RX算法并行化的可行性及特点;该平台通过FPGA完成高光谱图像数据立方体的奇异值分解降维,降低了数据处理量和传输量;通过多数字信号处理完成RX算法的并行化,实现了高光谱图像异常目标探测的快速处理．用该系统处理64波段280×800大小的高光谱图像数据,得到探测结果仅需4.86s,能够满足高光谱遥感应用中异常目标探测的载荷平台在线处理和探测结果的快速获取及应用的需求．相似文献