首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
稠密深度图在自动驾驶和机器人等领域至关重要,但是现今的深度传感器只能产生稀疏的深度测量,所以有必要对其进行补全.在所有辅助模态中, RGB图像是常用且易得的信息.现今的许多方法都采用RGB和稀疏深度信息结合进行补全.然而它们绝大部分都是利用通道拼接或逐元素求和简单的对两种模态的信息进行融合,没有考虑到不用场景下不同模态特征的置信度.提出一种以输入深度稀疏分布为指导,结合双模态信息量的动态门控融合模块,通过动态产生融合权重的方式对两个模态特征进行更高效的结合.并且根据不同模态的数据特征设计了精简的网络结构.实验结果表明所提出模块和改进的有效性,提出的网络在两个有挑战性的公开数据集KITTI depth completion和NYU depth v2上,使用了很少的参数量达到了先进的结果,取得了性能和速度的优秀平衡.  相似文献   

2.
针对RGB图像的实例分割任务在图像目标物体纹理相近但类别不同的区域可能出现分割错误的问题,引入Depth信息,结合RGB-D图像的三维几何结构特点,提出一种以双金字塔特征融合网络为框架的RGB-D实例分割方法.所提出的方法通过构建两种不同复杂度的金字塔深度卷积神经网络分别提取不同梯度分辨率大小的RGB特征及Depth特征,将对应分辨率大小的两种特征相加输入区域候选网络,以此改变输入区域候选网络层的共享特征,共享特征再经过分类、回归与掩码网络分支输出定位与分类结果,从而实现RGB-D图像的实例分割.实验结果表明,所提出的双金字塔特征融合网络模型能够完成RGB-D图像的实例分割任务,有效学习到深度图像与彩色图像之间的互补信息,与不包含Depth信息的Mask R-CNN相比,平均精度提高7.4%.  相似文献   

3.
张康  安泊舟  李捷  袁夏  赵春霞 《软件学报》2023,34(1):444-462
近年来随着计算机视觉领域的不断发展,三维场景的语义分割和形状补全受到学术界和工业界的广泛关注.其中,语义场景补全是这一领域的新兴研究,该研究以同时预测三维场景的空间布局和语义标签为目标,在近几年得到快速发展.对近些年该领域提出的基于RGB-D图像的方法进行了分类和总结.根据有无使用深度学习将语义场景补全方法划分为传统方法和基于深度学习的方法两大类.其中,对于基于深度学习的方法,根据输入数据类型将其划分为基于单一深度图像的方法和基于彩色图像联合深度图像的方法.在对已有方法分类和概述的基础上,对语义场景补全任务所使用的相关数据集进行了整理,并分析了现有方法的实验结果.最后,总结了该领域面临的挑战和发展前景.  相似文献   

4.
针对目前因缺少配对的"缺失-完整"RGB-D数据集而不能直接训练端对端深度图像补全模型的问题,提出基于随机掩码构造对应的缺失-完整数据,结合真实数据集与合成数据集交替训练模型的策略.基于随机掩码生成不同缺失比例的深度图像,并且利用合成数据集构造具有可靠真值的深度图像缺失数据,从而得到具有可靠数据的缺失-完整RGB-D数据集.以此策略为基础,搭建融合对应RGB图像特征的多尺度深度图像补全网络,该网络分别从RGB图像特征提取分支和深度图像特征提取分支提取不同尺度的RGB图像特征和深度图像特征,再经过特征融合分支在不同尺度上对RGB图像特征和深度图像特征进行融合,进而能够充分地学习RGB图像丰富的语义信息和深度图像的信息补全缺失深度.在NYU-Depth V2数据集的实验表明,该方法在不同缺失比例的深度图像补全任务中,阈值精度平均值为0.98,平均相对误差约为0.061,与现有基于神经网络和优化稀疏方程组的方法相比,其在阈值精度上平均提升了0.02,平均相对误差平均下降了0.027.  相似文献   

5.
三维图像分类能有效克服二维彩色图像分类易受光照变化、阴影、物体遮挡以及环境变化等因素的干扰。利用压缩感知的方法研究Kinect相机获取的带深度信息的RGB-D图像分类问题。该方法首先利用下采样和PCA的方法分别对RGB图像和深度图像进行特征提取;再将所提取的特征信息融合;然后利用压缩感知方法对融合后的特征信息进行稀疏分解并分类。最后,利用该方法对6类蔬菜、7类水果及文件夹和相机等共15类RGB-D图像进行分类实验,比较了压缩感知方法和SVM分类器的RGB-D图像分类精度,并对比分析了深度信息对图像分类精度的影响。实验表明,压缩感知方法对RGB-D图像分类精度高于SVM的精度,且加入深度信息的RGB-D图像分类精度高于RGB图像的精度。  相似文献   

6.
随着城市汽车数量的持续增长,街道停车难已经成为一个热点问题。解决街道停车问题的关键在于准确预测街道未来的停车位信息。移动群智感知方式(CrowdSensing)通过在车辆上安装声呐以感知路边的停车位情况,是一种低成本、高效益的感知停车位的方式,然而这种方式感知的停车位数据在时间上存在高稀疏性问题,传统模型无法直接用于预测。针对此问题,提出了一种基于Transformer的停车位序列补全和预测网络,此网络通过编码器生成缺失停车位序列的记忆,进而解码器以自回归的方式补全停车位序列中缺失的部分,同时预测出未来的停车位信息。实验结果表明,所提方法在两个高缺失的街道停车位数据集上的补全和预测效果都优于传统的机器学习和深度学习方法。  相似文献   

7.
张思源  王国胤  刘群  王如琪 《控制与决策》2022,37(12):3240-3250
图像补全是数字图像处理领域的一项重要研究内容,大面积不规则缺失图像的补全是近年来的研究热点.然而,现有的图像补全技术存在一些局限性,基于生成式对抗网络的方法忽略了图像的边缘结构信息,存在无法还原精细细节的问题;基于局部判别器的方法不能处理非矩形的缺失图像,存在补全任务不符合实际应用场景的问题等.鉴于此,结合多粒度认知计算的思想,提出基于多粒度特征融合的边缘判别器,充分学习不同粒度的边缘结构信息,提高生成图像边缘和真实图像边缘的一致性,生成结构更加清晰的补全图像.同时,引入边缘空间衰减损失,以提高边缘区域像素的连续性.此外,利用注意力机制将补全区域的像素作为有效像素,优化局部判别器使其能够处理非矩形缺失图像.在Places2和Paris Streetview等公共数据集上的实验结果表明,补全大面积不规则缺失图像时,所提出方法能够取得比其他图像补全方法更好的效果,一定程度上表明了边缘结构信息在图像补全研究中的重要性.  相似文献   

8.
在基于深度学习的单目图像深度估计方法中, 卷积神经网络在下采样过程中会出现图像深度信息丢失的情况, 导致物体边缘深度估计效果不佳. 提出一种多尺度特征融合的方法, 并采用自适应融合的策略, 根据特征数据动态调整不同尺度特征图的融合比例, 实现对多尺度特征信息的充分利用. 由于空洞空间金字塔池化(ASPP)在单目深度估计任务中, 会丢失图像中的像素点信息, 影响小物体的预测结果. 通过在对深层特征图使用ASPP时融合浅层特征图的丰富特征信息, 提高深度估计结果. 在NYU-DepthV2室内场景数据集的实验结果表明, 本文所提方法在物体边缘处有更准确的预测, 并且对小物体的预测有明显的提升, 均方根误差(RMSE)达到0.389, 准确率(δ <1.25)达到0.897, 验证了方法的有效性.  相似文献   

9.
莫宏伟  田朋 《控制与决策》2021,36(12):2881-2890
视觉场景理解包括检测和识别物体、推理被检测物体之间的视觉关系以及使用语句描述图像区域.为了实现对场景图像更全面、更准确的理解,将物体检测、视觉关系检测和图像描述视为场景理解中3种不同语义层次的视觉任务,提出一种基于多层语义特征的图像理解模型,并将这3种不同语义层进行相互连接以共同解决场景理解任务.该模型通过一个信息传递图将物体、关系短语和图像描述的语义特征同时进行迭代和更新,更新后的语义特征被用于分类物体和视觉关系、生成场景图和描述,并引入融合注意力机制以提升描述的准确性.在视觉基因组和COCO数据集上的实验结果表明,所提出的方法在场景图生成和图像描述任务上拥有比现有方法更好的性能.  相似文献   

10.
三维室内场景修复补全是计算机图形学、数字几何处理、3D计算机视觉中的重要问题.针对室内场景修复补全中难以处理大规模点云数据的问题,本文提出了一种基于类别-实例分割的室内点云场景修复补全框架.该框架包括点云场景分割模块和点云形状补全模块,前者由基于PointNet的类别分割网络和基于聚类的实例分割模块完成,后者由基于编码器-解码器结构的点云补全网络实现.本文框架以缺失的室内场景点云数据为输入,首先根据"类别-实例"分割策略,采用PointNet对室内场景进行类别分割,并利用基于欧式距离的聚类方法进行实例分割得到室内各家具点云,然后借助点云补全网络将分割出的缺失家具点云逐一进行形状补全并融合进原始场景,最终实现室内点云场景的修复.其中,为了实现缺失家具点云形状的补全,本文提出了一种基于编码器-解码器结构的点云补全网络,首先通过输入变换和特征变换对齐缺失的家具点云数据采样点位置与特征信息;然后借助权共享多层感知器和PointSIFT特征提取模块对各采样点提取形状特征和近邻点特征信息,并利用最大池化层与多层感知器编码提取出采样点的特征码字;最后将采样点特征码字加上网格坐标数据作为解码器的输入,解码器使用两个连续的三层感知器折叠操作将网格数据转变成完整的点云补全数据.实验结果表明,本文提出的点云补全网络能够较好地补全室内场景中缺失的家具结构形状,同时基于该网络的场景修复补全框架能够有效修复大型室内点云场景.  相似文献   

11.
现有基于深度学习的显著性检测算法主要针对二维RGB图像设计,未能利用场景图像的三维视觉信息,而当前光场显著性检测方法则多数基于手工设计,特征表示能力不足,导致上述方法在各种挑战性自然场景图像上的检测效果不理想。提出一种基于卷积神经网络的多模态多级特征精炼与融合网络算法,利用光场图像丰富的视觉信息,实现面向四维光场图像的精准显著性检测。为充分挖掘三维视觉信息,设计2个并行的子网络分别处理全聚焦图像和深度图像。在此基础上,构建跨模态特征聚合模块实现对全聚焦图像、焦堆栈序列和深度图3个模态的跨模态多级视觉特征聚合,以更有效地突出场景中的显著性目标对象。在DUTLF-FS和HFUT-Lytro光场基准数据集上进行实验对比,结果表明,该算法在5个权威评估度量指标上均优于MOLF、AFNet、DMRA等主流显著性目标检测算法。  相似文献   

12.
Image‐based rendering (IBR) techniques allow capture and display of 3D environments using photographs. Modern IBR pipelines reconstruct proxy geometry using multi‐view stereo, reproject the photographs onto the proxy and blend them to create novel views. The success of these methods depends on accurate 3D proxies, which are difficult to obtain for complex objects such as trees and cars. Large number of input images do not improve reconstruction proportionally; surface extraction is challenging even from dense range scans for scenes containing such objects. Our approach does not depend on dense accurate geometric reconstruction; instead we compensate for sparse 3D information by variational image warping. In particular, we formulate silhouette‐aware warps that preserve salient depth discontinuities. This improves the rendering of difficult foreground objects, even when deviating from view interpolation. We use a semi‐automatic step to identify depth discontinuities and extract a sparse set of depth constraints used to guide the warp. Our framework is lightweight and results in good quality IBR for previously challenging environments.  相似文献   

13.
遥感图像场景分类对土地资源管理具有重要意义,然而高分辨率遥感图像中地物分布复杂,图像中存在着与当前场景无关的冗余信息,会对场景的精确分类造成影响.对此,提出一种基于脉冲卷积神经网络(SCNN)稀疏表征的场景分类方法.从稀疏表征出发,利用脉冲神经元的稀疏脉冲输出特性,设计脉冲卷积神经网络,去除遥感图像中与场景无关的冗余信息,实现对图像的稀疏表征;提出基于脉冲输出交叉熵损失函数的反向传播算法,在该算法的基础上利用梯度下降训练脉冲卷积神经网络,优化网络参数,实现遥感图像场景分类;通过实验验证方法的有效性,将所提出方法应用于Google和UCM两个遥感图像数据集,并与传统的卷积神经网络(CNN)进行对比.实验结果表明,所提出方法可以对遥感图像进行稀疏表征,实现场景分类;相对于卷积神经网络,所提出方法在遥感图像场景分类任务上更具有优势.  相似文献   

14.
从深度图RGB-D域中联合学习RGB图像特征与3D几何信息有利于室内场景语义分割,然而传统分割方法通常需要精确的深度图作为输入,严重限制了其应用范围。提出一种新的室内场景理解网络框架,建立基于语义特征与深度特征提取网络的联合学习网络模型提取深度感知特征,通过几何信息指导的深度特征传输模块与金字塔特征融合模块将学习到的深度特征、多尺度空间信息与语义特征相结合,生成具有更强表达能力的特征表示,实现更准确的室内场景语义分割。实验结果表明,联合学习网络模型在NYU-Dv2与SUN RGBD数据集上分别取得了69.5%与68.4%的平均分割准确度,相比传统分割方法具有更好的室内场景语义分割性能及更强的适用性。  相似文献   

15.
目的 目标检测是遥感智能解译中重要的研究方向之一,大多数目标检测算法难以实现密集排列的旋转目标的高精度检测。提出了一种基于关键点与引导向量预测的目标检测算法,实现高精度旋转目标检测的同时,还可对目标的朝向进行表征。方法 首先提出了一种新的旋转目标建模方式,将目标检测分解成中心点、头部顶点、引导向量以及目标宽度的参数回归以更贴合检测目标;其次设计旋转椭圆高斯核,能够更好地拟合遥感目标的形状,从而提升关键点的预测精度;最后通过预测中心点指向头部顶点的引导向量,完成同一个目标内中心点与头部顶点的匹配,从而生成一个精准的带方向的旋转矩形检测框。结果 在大长宽比舰船目标的HRSC(high-resolution ship collections)数据集上的实验结果表明,相比于其他主流的目标检测算法,本文算法获得了更好的检测结果,在VOC 2007(visual object classes)和VOC 2012的平均精度分别达到了90.78%和97.85%。在小长宽比飞机目标UCAS-AOD(UCAS-high resolution aerial object detection dataset)数据集上达到了98.81%的平均精度。实验结果表明了本文算法的可行性与有效性。结论 本文算法利用椭圆高斯核计算中心点与头部顶点,并设计引导向量对点匹配关系进行约束,实现了旋转目标的方向检测。  相似文献   

16.
改进U-Net的高分辨率遥感图像轻量化分割   总被引:1,自引:0,他引:1  
胡伟  文武  魏敏 《计算机系统应用》2022,31(12):135-146
针对传统图像分割方法分割效率低下,遥感图像特征复杂多样,复杂场景下分割性能受到限制等问题,在基于U-Net网络架构的基础上,提出一种能够较好提取遥感图像特征并兼顾效率的改进U-Net模型.首先,以EfficientNetV2作为U-Net的编码网络,增强特征提取能力,提高训练和推理效率,然后在解码部分使用卷积结构重参数化方法并结合通道注意力机制,几乎不增加推理时间的前提下提升网络性能,最后结合多尺度卷积融合模块,提高网络对不同尺度目标的特征提取能力和更好地结合上下文信息.实验表明,改进的网络在遥感图像分割性能提升的同时分割效率也提高.  相似文献   

17.
张艳  杜会娟  孙叶美  李现国 《计算机工程》2021,47(9):252-258,265
在遥感图像目标检测领域,多数目标检测算法针对小目标检测时效果不佳,为此,提出一种多尺度特征融合的遥感图像目标检测算法。利用SSD算法的基础网络进行特征提取,形成特征图金字塔。设计特征图融合模块,融合浅层特征图的位置信息和深层特征图的语义信息,从而保留丰富的上下文信息。设计冗余信息去除模块,通过卷积操作进一步提取特征图中的特征,并对特征信息进行筛选,以减少特征图融合时带来的混叠效应。在遥感图像数据集NWPU VHR-10上的实验结果表明,该算法的平均检测精度高达93.9%,其针对遥感图像小目标的检测性能优于Faster R-CNN和SSD等算法。  相似文献   

18.
3D models of objects and scenes are critical to many academic disciplines and industrial applications. Of particular interest is the emerging opportunity for 3D graphics to serve artificial intelligence: computer vision systems can benefit from synthetically-generated training data rendered from virtual 3D scenes, and robots can be trained to navigate in and interact with real-world environments by first acquiring skills in simulated ones. One of the most promising ways to achieve this is by learning and applying generative models of 3D content: computer programs that can synthesize new 3D shapes and scenes. To allow users to edit and manipulate the synthesized 3D content to achieve their goals, the generative model should also be structure-aware: it should express 3D shapes and scenes using abstractions that allow manipulation of their high-level structure. This state-of-the-art report surveys historical work and recent progress on learning structure-aware generative models of 3D shapes and scenes. We present fundamental representations of 3D shape and scene geometry and structures, describe prominent methodologies including probabilistic models, deep generative models, program synthesis, and neural networks for structured data, and cover many recent methods for structure-aware synthesis of 3D shapes and indoor scenes.  相似文献   

19.
高分辨率遥感影像含有丰富的地理信息. 目前基于传统神经网络的语义分割模型不能够对遥感影像中小物体进行更高维度的特征提取, 导致分割错误率较高. 本文提出一种基于编码与解码结构特征连接的方法, 对DeconvNet网络模型进行改进. 模型在编码时, 通过记录池化索引的位置并应用于上池化中, 能够保留空间结构信息; 在解码时, 利用编码与解码对应特征层连接的方式使模型有效地进行特征提取. 在模型训练时, 使用设计的预训练模型, 可以有效地扩充数据, 来解决模型的过拟合问题. 实验结果表明, 在对优化器、学习率和损失函数适当调整的基础上, 使用扩充后的数据集进行训练, 对遥感影像验证集的分割精确度达到95%左右, 相对于DeconvNet和UNet网络模型分割精确度有显著提升.  相似文献   

20.
何也  张旭东  吴迪 《图学学报》2020,41(6):922-929
摘 要:光场相机可以仅在一次拍摄中记录场景的空间和角度信息,所生成的图像与传统 二维图像相比包含了更多的信息,在深度估计任务方面更具有优势。为了利用光场图像获取高 质量的场景深度,基于其多视角的表征方式,提出了一种具有多通道信息高效融合结构的特征 融合网络。在人为选择特定视角的基础上,使用不同尺寸卷积核来应对不同的基线变化;同时 针对光场数据的多路输入特点搭建了特征融合模块,并利用双通道的网络结构整合神经网络的 前后层信息,提升网络的学习效率并减少信息损失。在 new HCI 数据集上的实验结果显示,该 网络在训练集上的收敛速度较快,可以在非朗伯场景中实现精确的深度估计,并且在 MSE 指 标的平均值表现上要优于所对比的其他先进的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号