共查询到16条相似文献,搜索用时 78 毫秒
1.
物联网与移动互联网的快速发展对高性能计算的需求愈发强烈,异构芯片往往比通用处理器有更好的计算能力,面对不同厂商的各种异构加速器,OpenCL作为业界标准统一了各种异构芯片的开发方式.FPGA在很多领域因其高性能、低功耗的特点成为异构芯片的佼佼者,但是目前对基于Xilinx FPGA的SoC尚无OpenCL的支持.本文以OpenCL规范为基础,为Xilinx Zynq SoC提供了OpenCL编程所需的依赖环境,实验结果表明,该环境为此类SoC开发省去了至少7个与硬件相关的开发步骤,使其易用性与开发效率有很大改善. 相似文献
2.
如今,图像处理算法的复杂度越来越高,图像处理的数据量越来越大,图像处理的实时性显得十分重要。为了解
决图像预处理、视频流数据实时性存在的问题,给出了一种基于FPGA和OV5640以Sobel算子进行边缘检测的图像采集与处
理系统设计方法,FPGA将OV5640摄像头采集到的视频流数据传送至SDRAM,由Sobel算子模板处理后通过VGA显示视频
图像。该设计基于Intel公司的Cyclone IV系列FPGA芯片EP4CE10F17C8进行了验证。实验结果表明,基于FPGA和Sobel边
缘检测算法,使用流水线设计和乒乓操作,可实现视频流数据处理的实时性。 相似文献
3.
4.
张伟 《数字社区&智能家居》2014,(20):4810-4812
图像边缘是图像识别信息最集中的地方,Sobel算法是基于一阶导数的边缘检测,通过逼近导数来找到边缘。FPGA(Field Programmable Gate Array)即现场可编程门列阵,是在可编程逻辑器件(Programmable Logic Device)基础上发展的一种产物。该文即是采用FPGA技术实现基于Sobel算子的边缘检测算法。 相似文献
5.
HMAC算法作为主流消息认证算法之一,面临着以纯软件方式运行速度慢,以传统的FPGA硬件实现方式更新维护困难的问题。针对上述问题,设计了HMAC-SHA256算法的定制计算架构并基于OpenCL以高层次描述方式进行了实现。具体包括计算路径优化、存储结构与查找表优化、HMAC-SHA256全流水结构设计。基于OpenCL的计算任务分组优化、数据存储优化、数据通道矢量化等手段实现了HMAC-SHA256算法的FPGA定制计算架构。实验结果表明:在Intel Stratix 10 FPGA平台上,所实现的HMAC-SHA256吞吐率达到174.236Gbps,与Intel Core I7-10700 CPU相比,性能提升了656%,能效提升了1514%;与NVIDIA GTX 1650 SUPER GPU相比,性能提升了14%,能效提升了288%。 相似文献
6.
朱高锋 《电子制作.电脑维护与应用》2022,(3):3-6
现代视频图像分辨率更高、数据量更大,对于实时视频处理系统的实时性要求更为严格.本文提出了一种基于Sobel算子的实时视频处理与显示系统,该系统采用自顶而下的模块化设计方法,通过Vivado软件,对各模块采用现场可编程门阵列(field programmable gate array,FPGA)硬件进行编程与加速实现.结... 相似文献
7.
基于FPGA的Sobel边缘检测应用 总被引:5,自引:1,他引:5
针对目前数字图像处理速度慢的问题,提出了一种基于FPGA器件的Sobel边缘检测实现方案.Sobel边缘检测分别在FPGA和MATLAB上仿真实现,仿真结果表明,该方案可以大幅提高Sobel边缘检测的速度,并且获得了很好的边缘检测效果.最后列举了一个基于FPGA器件的Sobel边缘检测的应用实例. 相似文献
8.
边沿检测技术作为数字图像处理领域的重要一支,在目标匹配,交通管控,国防安全等多个领域有着广泛的应用,能够精确高效地实现边沿检测对于后续进行更高层次的图像识别以及图像处理有着密切的联系;为了实现实时有效的图像边沿检测提出了基于FPGA结合Sobel算法的实时图像边沿检测系统,硬件使用流水线结合并行处理的解决方案,能够有效提高图像处理的速度;算法设计采用Sobel算法,不但简化了运算同时获得了不错的检测效果;实验结果显示,系统可高效地达成实时图像边沿检测的设计目的,而且提升了图像的处理效率与边沿检测的效果,便于满足后续图像处理的要求。 相似文献
9.
随着计算机技术的不断发展,软件的规模也越来越大。一张遥感图像可达到数G以上,处理起来有时候可能需要数个小时。因此,针对这些大数据量的系统来说,加速比提高一倍,就会使运行时间减少几个小时,这对于系统来说就是一种非常可观的现实,非常值得去实现。本文将以NDVI算法为例,主要介绍了NDVI算法、NDVI的应用和性质、OpenCL介绍。 相似文献
10.
在数字货币、区块链、云端数据加密等领域,传统以软件方式运行的数据加解密存在计算速度慢、占用主机资源、功耗高等问题,而以Verilog/VHDL等方式实现的现场可编程门阵列(FPGA)加解密系统又存在开发周期长、维护升级困难等问题。针对3DES算法,提出一种基于OpenCL的FPGA加速器设计方案。设计具有48轮迭代的流水并行结构,在数据传输模块中采用数据存储调整、数据位宽改进策略提高内核实际带宽利用率,在算法加密模块中采用指令流优化策略形成流水线并行架构,同时采用内核矢量化、计算单元复制策略进一步提高内核性能。实验结果表明,该加速器在Intel Stratix 10 GX2800上可获得111.801 Gb/s的吞吐率,与Intel Core i7-9700 CPU相比性能提升372倍,能效提升644倍,与NvidiaGeForce GTX 1080Ti GPU相比性能提升20%,能效提升9倍。 相似文献
11.
随着GPU计算能力及可编程性的不断增强,采用GPU作为通用加速器对应用程序进行性能加速已经成为提升程序性能的主要模式。直方图生成算法是计算机视觉的常用算法,在图像处理、模式识别、图像搜索等领域都有着广泛的应用。随着图像处理规模的扩大和实时性要求的提高,通过GPU提升直方图生成算法性能的需求也越来越强。在GPU计算平台关键优化方法和技术的基础上,完成了直方图生成算法在GPU计算平台上的实现及优化。实验结果表明,通过使用直方图备份、访存优化、数据本地化及规约优化等优化方法,直方图生成算法在AMD HD7850 GPU计算平台上的性能相对于优化前的版本达到了1.8~13.3倍的提升;相对于CPU版本,在不同数据规模下也达到了7.2~210.8倍的性能提升。 相似文献
12.
基于OpenCL的图像积分图算法优化研究 总被引:1,自引:0,他引:1
图像积分图算法在快速特征检测中有着广泛的应用,通过GPU对其进行性能加速有着重要的现实意义。然而由于GPU硬件架构的复杂性和不同硬件体系架构间的差异性,完成图像积分图算法在GPU上的优化,进而实现不同GPU平台间的性能移植是一件非常困难的工作。在分析不同CPU平台底层硬件架构的基础上,从片外访存带宽利用率、计算资源利用率和数据本地化等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响。并在此基础上实现了基于OpenCL的图像积分图算法。实验结果表明,优化后的算法在AMD和NVIDIA CPU上分别取得了11.26和12.38倍的性能加速,优化后的GPU kernel比NVIDIA NPP库中的相应函数也分别取得了55.01%和65.17%的性能提升。验证了提出的优化方法的有效性和性能可移植性。 相似文献
13.
基于改进Sobel算法的实时边缘检测系统 总被引:1,自引:0,他引:1
针对传统的Sobel边缘检测算存在对噪声敏感和缺乏自适应能力等缺点,提出了一种结合中值滤波与自适应阈值的改进So-bel边缘检测算法。并使用Verilog HDL语言在FPGA上实现了基于该算法的实时边缘检测系统。实验结果表明,该系统对环境有很强的适应能力,能够实时有效地提取出图像边缘。 相似文献
14.
图像重映射(Remap)算法是典型的图像变化算法。在图像放缩、扭曲、旋转等领域有着广泛的应用。随着图片规模和分辨率的不断提高,对图形映射算法的性能提出了越来越高的要求。本文在充分考虑不同GPU平台硬件体系结构差异的基础上,系统研究了在OpenCL框架下图像映射(Remap)算法在不同GPU平台上的高效实现方式。并从片外内存访存优化,向量化计算,减少动态指令等多个优化角度考察了不同优化方法在不同GPU平台上对性能的影响,提出了在不同GPU平台间实现性能移植的可能性。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD HD5850GPU上相对于CPU版本取得114.3~491.5倍的加速比,相对于CUDA版本(现有GPU算法的实现)得到1.01~1.86的加速比,在NIVIDIA C2050 GPU上相对CPU版本取得100.7~369.8倍的加速比,相对于CUDA版本得到0.95~1.58的加速比。有效验证了本文提出的优化方法的有效性和性能可移植性。 相似文献
15.
Kmeans算法是无监督机器学习中一种典型的聚类算法,是对已知数据集进行划分和分组的重要方法,在图像处理、数据挖掘、生物学领域有着广泛的应用。随着实际应用中数据规模的不断变大,对Kmeans算法的性能也提出了更高的要求。在充分考虑不同硬件平台体系架构差异的基础上,系统地研究了Kmeans算法在GPU和APU平台上实现与优化的关键技术:片上全局同步高效实现,冗余计算减少全局同步次数,线程任务重映射,局部内存重用等,实现了Kmeans算法在不同硬件平台上的高性能与性能移植。实验结果表明,优化后的算法在考虑数据传输时间的前提下,在AMD HD7970 GPU上相对于CPU版本取得136.975~170.333倍的加速比,在AMD A10-5800K APU上相对于CPU版本取得22.2365~24.3865倍的加速比,有效验证了优化方法的有效性和平台的可移植性。 相似文献
16.
OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。在分析了不同GPU平台底层硬件架构的基础上,从Global Memory的访存效率、GPU计算资源的有效利用率及其硬件资源的限制等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响;并在此基础上实现了基于OpenCL的拉普拉斯图像增强算法。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD和NVIDIA GPU上都取得了3.7~136.1倍、平均56.7倍的性能加速,优化后的kernel比NVIDIA NPP库中相应函数也取得了12.3%~346.7%、平均143.1%的性能提升,验证了提出的优化方法的有效性和性能可移植性。 相似文献