共查询到20条相似文献,搜索用时 171 毫秒
1.
合成孔径雷达(SAR)成像具有数据量巨大、算法比较复杂等特点.如何实时实现SAR成像的相关算法是嵌入式高性能计算领域一个值得研究的问题.FPGA以其高性能、可重构等优势,被越来越多地应用到嵌入式高性能计算领域中作为一种高效低成本的解决方案.针对SAR成像中多普勒调频率估计的经典算法--PGA算法,以FPGA作为实现平台,通过对算法的本质的挖掘,提出了适于FPGA实时实现的对于经典算法的改进算法.同时也阐述了将改进算法映射到FPGA实现的设计过程.实验结果表明,改进的算法较经典的PGA算法明显地减少了迭代次数,在SOC中通过硬件的运算精度能够满足系统的要求. 相似文献
2.
目的 在微小飞行器系统中,如何实时获取场景信息是实现自主避障及导航的关键问题。本文提出了一种融合中心平均Census特征与绝对误差(AD)特征、基于纹理优化的半全局立体匹配算法(ADCC-TSGM),并利用统一计算设备架构 (CUDA)进行并行加速。方法 使用沿极线方向的一维差分计算纹理信息,使用中心平均Census特征及AD特征进行代价计算,通过纹理优化的SGM算法聚合代价并获得初始视差图;然后,通过左右一致性检验检查剔除粗略视差图中的不稳定点和遮挡点,使用线性插值和中值滤波对视差图中的空洞进行填充;最后,利用GPU特性,对立体匹配中的代价计算、半全局匹配 (SGM)计算、视差计算等步骤使用共享内存、单指令多数据流 (SIMD)及混合流水线进行优化以提高运行速度。结果 在Quarter Video Graphics Array (QVGA)分辨率的middlebury双目图像测试集中,本文提出的ADCC-TSGM算法总坏点率较Semi-Global Block Matching (SGBM)算法降低36.1%,较SGM算法降低28.3%;平均错误率较SGBM算法降低44.5%,较SGM算法降低49.9%。GPU加速实验基于NVIDIA Jetson TK1嵌入式计算平台,在双目匹配性能不变的情况下,通过使用CUDA并行加速,可获得117倍以上加速比,即使相较于已进行SIMD及多核并行优化的SGBM,运行时间也减少了85%。在QVGA分辨率下,GPU加速后的运行帧率可达31.8 帧/s。结论 本文算法及其CUDA加速可为嵌入式平台提供一种实时获取高质量深度信息的有效途径,可作为微小飞行器、小型机器人等设备进行环境感知、视觉定位、地图构建的基础步骤。 相似文献
3.
4.
针对基于FPGA开展的计算机硬件实验,本文提出了远程计算机硬件实验系统,系统由实验客户端、嵌入式实验服务器和FPGA实验板三部分组成,为了解决系统中目标FPGA的远程配置这一关键问题,本文着力研究FPGA的边界扫描配置模式以及它的实现算法,编写运行在嵌入式实验服务器端的C语言程序,成功实现了对目标FPGA的配置. 相似文献
5.
6.
7.
8.
有效地利用现场可编程门阵列(FPGA)的任务运行空间是提高可重构系统性能的重要因素.针对嵌入式实时任务的运行特性,提出一种带有时间维的三维任务空间的动态定位算法.将时间因素与任务运行空间紧密结合,从而有效降低了任务放置算法的时间复杂度. 相似文献
9.
10.
基于Hausdorff距离的图像匹配算法鲁棒性较好,但计算代价较大,软件实现方案很难满足实时性要求。为了解决这个问题,本文在基于局部Hausdorff距离的图像匹配算法基础上提出了一种鲁棒而实时的FPGA实现方案。为了充分有效利用FPGA的硬件资源,首先对传统串行算法进行并行性分析,提出了一个并行算法;然后以此为基础设计了一种三段式粗粒度流水体系结构,并将其映射到FPGA上进行实现。实验结果表明,该系统在性能上优于其它相关工作,与PC(Pentium42.8GHz)上的软件实现方案相比可以达到接近50倍的加速比。 相似文献
11.
随着嵌入式系统在网络化控制中的广泛的应用,该文提出了一种将基于MATLAB/Simulink开发的控制算法,利用Simulink/Real-time Workshop,实现Simulink下的方框图移植到嵌入式系统上运行的方法。构建了以ARM7TDM1为核心运行uClinux操作系统的嵌入式控制系统平台,并建立了智能网络化控制的软硬件接口,同时提供了现场操作控制的手段。通过基于PID算法的直流电机调速控制试验验证了方框图在嵌入式系统上运行的可行性。这种方法为用户提供了一种更为方便快捷的途径,将用控制系统设计软件(如MATLAB/Simulink)开发的控制算法在一个实时的硬件平台上实现,以便观察与实际的控制对象相连时,控制算法的性能,从而快速找到理想的控制方案,同时可通过网络实现远程控制,缩短了开发周期,降低开发成本。 相似文献
12.
针对嵌入式系统中的单处理器和单ASIC体系结构,将软硬件划分问题抽象为MKP模型,通过扩展其边界的维数,引入二维的贪婪算法来解决软硬件划分问题。算法旨在满足硬件面积约束、功耗约束和存储空间需求约束的前提下使系统的运行时间最优,算法的时间复杂度降低到O(log n·log n)。算法基于代表功能块粒度的控制数据流图(CFG),摒弃了传统的面向软件或硬件的方法,给出了一种新的选择初始状态的方法,该方法将关键节点映射到软件,其余的用硬件实现,因缩小了算法的搜索空间,从而进一步提高了算法的运行速度。最后进行对比实验,实验结果证明该算法在运行时间和稳定性方面均优于遗传算法和模拟算法。 相似文献
13.
14.
针对将TCP/IP协议栈运用在嵌入式成像系统中作为通信方式时所存在的传输速度较低的不足,提出一种将数据封装在自定义以太网帧中进行传输的通信方式,并针对这种方式实现了网卡的驱动,定义了3种帧格式它们分别用于启动曝光、数据传输、数据重传等,设计一种基于状态机的控制协议实现相机的控制及图像数据的传输,最终在硬件平台上实现基于这种方法的成像系统。实验测试表明在NiosII嵌入式处理器工作在150MHz、uCosII操作系统条件下,基于自定义以太网帧的传输方式能将图像数据的传输速率提升4倍以上,这种方式特别适用于传输速率要求较高且资源有限的嵌入式程序成像系统。 相似文献
15.
深度强化学习(Deep Reinforcement Learning, DRL)是机器学习领域的一个重要分支,用于解决各种序贯决策问题,在自动驾驶、工业物联网等领域具有广泛的应用前景。由于DRL具备计算密集型的特点,导致其难以在计算资源受限且功耗要求苛刻的嵌入式平台上进行部署。针对DRL在嵌入式平台上部署的局限性,采用软硬件协同设计的方法,设计了一种面向DRL的FPGA加速器,提出了一种设计空间探索方法,在ZYNQ7100异构计算平台上完成了对Cartpole应用的在线决策任务。实验结果表明,研究在进行典型DRL算法训练时的计算速度和运行功耗相对于CPU和GPU平台具有明显的优势,相比于CPU实现了12.03的加速比,相比于GPU实现了28.08的加速比,运行功耗仅有7.748W,满足了深度强化学习在嵌入式领域的在线决策任务。 相似文献
16.
基于UML的软硬件协同设计方法 总被引:1,自引:0,他引:1
嵌入式系统软硬件协同设计中关键步骤之一是软硬件划分。文中通过介绍现有嵌入式系统的协同设计方法,如:VULCAN,COSYMA和POLIS,指出了现有方法的缺点,提出了一种改进的基于UML的新方法。使用UML建立系统模型,根据UML的图例,采用二叉树的结构,计算出每个步骤的成本;采用改进的遗传算法,加快收敛的速度,提高解的质量。在算法库和成本库中对系统的软硬件进行划分,通过协同综合,达到协同仿真和验证的目的。 相似文献
17.
运动控制高速实时串行总线研究 总被引:2,自引:0,他引:2
现场总线技术引入数控系统成为PC与数字伺服驱动与IO设备数据交换的接口。提出一种运动控制高速实时串行现场总线RTSB。给出了总线型广播方式的拓扑结构,提出了RTSB的工业控制应用的参考模型,给出了RTSB的报文结构及通讯机制,提出了RTSB的主控卡设计原理、用户层接口及RTSB基于Windows平台的驱动程序结构。RTSB实现了由非实时操作系统实现硬实时功能,为实现控制系统的高速、高精度性能奠定了基础。 相似文献
18.
针对嵌入式系统特点,构建了一种基于嵌入式RTOS的图形显示系统(ERGS)架构,设计了一种基于服务器/客户端的异步回调模型和请求/应答处理机制,结合ERGS特点提出了一种改进的基于消息的发布/订阅模型和相应的路由规则。并在实时操作系统VxWorks实现了ERGS。实验结果表明,在相同的嵌入式平台上,ERGS相对于传统图形显示系统性能有较大提升,特别是启用GPU硬件加速时,ERGS图形系统性能大幅度提升。 相似文献
19.
快速傅利叶变换(fast Fourier transform,FFT)算法是对实时数字信号进行快速分析处理的一个基本方法。针对多核嵌入式实时环境下并行FFT算法进行了研究,以有效提高实时信号处理的速度。提出了一种新的静态多项式FFT算法,充分利用静态多项式奇偶项的不同特点直接代入数据计算,免去了层层迭代的计算过程,减少了运算过程中的通信提高并行性能。对该算法思想本文在理论进行了严密论证,通过嵌入式实时平台上运行测试和仿真实验,证实了在数据分段较短的约束条件下,该多项式静态算法较经典的FFT并行算法在时间复杂度上有一定优势。本文结论:多项式静态FFT算法能够有效提高并行FFT运行速度。 相似文献
20.
针对地铁视频监控一直缺乏一种有效的人群密度分类器的问题,提出了基于人群密度估计算法—Fast SqueezeNet的人群密度分类器,用于在地铁嵌入式计算平台有限的硬件资源限制下,实现对地铁车厢内人群的密度估计.该算法基于轻型卷积神经网络SqueezeNet,结合权值稀疏化和结构稀疏化方法,具有如下3点优势:1)以原始图像作为输入,并在处理的过程中自动提取纹理特征用于拥挤人群密度的估计;2)SqueezeNet经过权值稀疏化后,具有更少的模型参数,可以灵活的布置在安谋(ARM)等具有有限硬件资源的嵌入式平台上;3)结构稀疏化方法使得SqueezeNet具有更快的前向预测速度,提高其在地铁嵌入式平台上的图像处理效率.在3个人群密度数据集PETS_2009,Mall和ShangHai metro上,采用Fast SqueezeNet算法的三分类人群密度分类器,与基于卷积神经网络和单纯的权值稀疏化SqueezeNet网络的分类器进行对比实验研究,结果表明:在预测准确率、参数规模和运行时间3个维度上,基于Fast SqueezeNet的分类器均表现出了较好的性能,有效地克服了地铁车厢拥挤人群中存在的高密度、高耦合、透视变形等图像识别难题对估计结果的影响.最后,在ARM嵌入式平台上的实验表明基于Fast SqueezeNet的分类器可以在有限的硬件资源下,快速准确的得到预测结果,满足高速运行的地铁列车日常使用需求. 相似文献