首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 312 毫秒
1.
温静  杨洁 《计算机工程》2023,49(2):222-230
现有单目深度估计算法主要从单幅图像中获取立体信息,存在相邻深度边缘细节模糊、明显的对象缺失问题。提出一种基于场景对象注意机制与加权深度图融合的单目深度估计算法。通过特征矩阵相乘的方式计算特征图任意两个位置之间的相似特征向量,以快速捕获长距离依赖关系,增强用于估计相似深度区域的上下文信息,从而解决自然场景中对象深度信息不完整的问题。基于多尺度特征图融合的优点,设计加权深度图融合模块,为具有不同深度信息的多视觉粒度的深度图赋予不同的权值并进行融合,融合后的深度图包含深度信息和丰富的场景对象信息,有效地解决细节模糊问题。在KITTI数据集上的实验结果表明,该算法对目标图像预估时σ<1.25的准确率为0.879,绝对相对误差、平方相对误差和对数均方根误差分别为0.110、0.765和0.185,预测得到的深度图具有更加完整的场景对象轮廓和精确的深度信息。  相似文献   

2.
由于在深度卷积网络中,深度估计的最终结果往往只利用到了网络的高层特征信息,对于底层特征的信息难以利用。为了解决这个问题,提出融合多层次特征的CNN(Convolutional Neural Network)深度估计方法。高层特征一般包含了图像整体的空间结构信息,而底层特征往往会包含大量的物体细节信息。网络对于底层特征的信息利用不足,造成深度估计的效果比较模糊。为了解决这一问题,采用融合多层次特征的方法,通过设定特定的网络结构,结合反卷积和池化方法,融合不同层次的CNN特征,使得网络能够同时利用底层与高层信息进行深度估计。通过在KITTI与ApolloScape数据集上的实验证明,该方法有效地提高了深度估计的精度。  相似文献   

3.
叶星余  何元烈  汝少楠 《机器人》2021,43(2):203-213
提出了一种基于生成式对抗网络(GAN)和自注意力机制(self-attention mechanism)的单目视觉里程计方法,命名为SAGANVO(SAGAN visual odometry).该方法将生成式对抗网络学习框架应用于深度估计和视觉里程计任务中,通过GAN生成逼真的目标帧来准确求解出场景的深度图和6自由度位姿.与此同时,为了提高深度网络对场景细节、边缘轮廓的学习能力,将自注意力机制结合到网络模型中.最后,在公开数据集KITTI上展现了所提出的模型和方法的高质量结果,并与现有方法进行了对比,证明了SAGANVO在深度估计和位姿估计中的性能优于现有的主流方法.  相似文献   

4.
在室内单目视觉导航任务中,场景的深度信息十分重要.但单目深度估计是一个不适定问题,精度较低.目前, 2D激光雷达在室内导航任务中应用广泛,且价格低廉.因此,本文提出一种融合2D激光雷达的室内单目深度估计算法来提高深度估计精度.本文在编解码结构上增加了2D激光雷达的特征提取,通过跳跃连接增加单目深度估计结果的细节信息,并提出一种运用通道注意力机制融合2D激光雷达特征和RGB图像特征的方法.本文在公开数据集NYUDv2上对算法进行验证,并针对本文算法的应用场景,制作了带有2D激光雷达数据的深度数据集.实验表明,本文提出的算法在公开数据集和自制数据集中均优于现有的单目深度估计.  相似文献   

5.
针对传统视觉SLAM在动态场景下容易出现特征匹配错误从而导致定位精度下降的问题,提出了一种基于动态物体跟踪的语义SLAM算法。基于经典的视觉SLAM框架,提取动态物体进行帧间跟踪,并利用动态物体的位姿信息来辅助相机自身的定位。首先,算法在数据预处理中使用YOLACT、RAFT以及SC-Depth网络,分别提取图像中的语义掩膜、光流向量以及像素深度值。其次,视觉前端模块根据所提信息,通过语义分割掩膜、运动一致性检验以及遮挡点检验算法计算概率图以平滑区分场景中的动态特征与静态特征。然后,后端中的捆集调整模块融合了物体运动的多特征约束以提高算法在动态场景中的位姿估计性能。最后,在KITTI和OMD数据集的动态场景中进行对比验证。实验表明,所提算法能够准确地跟踪动态物体,在室内外动态场景中具备鲁棒、良好的定位性能。  相似文献   

6.
何也  张旭东  吴迪 《图学学报》2020,41(6):922-929
摘 要:光场相机可以仅在一次拍摄中记录场景的空间和角度信息,所生成的图像与传统 二维图像相比包含了更多的信息,在深度估计任务方面更具有优势。为了利用光场图像获取高 质量的场景深度,基于其多视角的表征方式,提出了一种具有多通道信息高效融合结构的特征 融合网络。在人为选择特定视角的基础上,使用不同尺寸卷积核来应对不同的基线变化;同时 针对光场数据的多路输入特点搭建了特征融合模块,并利用双通道的网络结构整合神经网络的 前后层信息,提升网络的学习效率并减少信息损失。在 new HCI 数据集上的实验结果显示,该 网络在训练集上的收敛速度较快,可以在非朗伯场景中实现精确的深度估计,并且在 MSE 指 标的平均值表现上要优于所对比的其他先进的方法。  相似文献   

7.
动态场景下的非均匀盲去模糊是一个极具挑战性的计算机视觉问题。虽然基于深度学习的去模糊算法已经取得很大进展,但仍存在去模糊不彻底和细节丢失等问题。针对这些问题,提出了一种基于残差注意力和多特征融合的去模糊网络。与现有的单分支网络结构不同,所提网络由两个独立的特征提取子网组成。主干网络采用基于U-Net结构的编码器-解码器网络来获取不同层级的图像特征,并使用残差注意力模块对特征进行筛选,从而自适应地学习图像的轮廓特征和空间结构特征。另外,为了补偿主干网络中下采样操作和上采样操作造成的信息损失,进一步利用具有大感受野的深层次加权残差密集子网来提取特征图的细节信息。最后,使用多特征融合模块逐步融合原分辨率模糊图像以及主干网络和加权残差密集子网生成的特征信息,使得网络能够以整体的方式自适应地学习更有效的特征来复原模糊图像。为了评估网络的去模糊效果,在基准数据集GoPro数据集和HIDE数据集上进行了测试,结果表明所提方法能够有效复原模糊图像。与现有方法相比,提出的去模糊算法在视觉效果上和客观评价指标上均取得了很好的去模糊效果。  相似文献   

8.
针对现有自监督学习的单目图像深度估计在分辨率较大情况下存在边缘模糊、物体轮廓不清晰等问题,本文提出一种结合视觉Transformer的多尺度通道注意力融合单目图像深度估计网络.首先,设计编码器-解码器模型,将视觉Transformer结构作为编码器在多个尺度上提取特征.其次,设计残差通道注意力融合的解码器,优化提取到的多尺度特征并实现上下级特征融合以提高上下文信息的利用率.最后,在多个尺度下对单目图像进行深度估计.本文提出的算法在KITTI数据集上进行实验.实验结果表明,所提出算法的深度图像质量和物体轮廓信息均高于现有算法,其绝对相对误差、平方相对误差和均方根误差分别达到了0.119、0.857和4.571,在不同阈值下的准确度达到了0.959、0.995和0.999,验证了所提算法的正确性和有效性.  相似文献   

9.
目前大量被提出的关于单目视觉深度估计网络研究中其网络结构庞大臃肿,在实际部署中会存在占用大、延迟高的问题.针对以上问题,本文提出了基于可学习步长的量化策略的轻量化深度估计网络.该网络采取特征金字塔(FPN)的网络结构对图片不同尺度的特征信息进行提取.并结合内存优化,对网络的特征提取部分采用深度可分离卷积,使得网络相对于...  相似文献   

10.
以多视图几何原理为基础,有效结合卷积神经网络进行图像深度估计和匹配筛选,构造无监督单目视觉里程计方法.针对主流深度估计网络易丢失图像浅层特征的问题,构造一种基于改进密集模块的深度估计网络,有效地聚合浅层特征,提升图像深度估计精度.里程计利用深度估计网络精确预测单目图像深度,利用光流网络获得双向光流,通过前后光流一致性原则筛选高质量匹配.利用多视图几何原理和优化方式求解获得初始位姿和计算深度,并通过特定的尺度对齐原则得到全局尺度一致的6自由度位姿.同时,为了提高网络对场景细节和弱纹理区域的学习能力,将基于特征图合成的特征度量损失结合到网络损失函数中.在KITTI Odometry数据集上进行实验验证,不同阈值下的深度估计取得了85.9%、95.8%、97.2%的准确率.在09和10序列上进行里程计评估,绝对轨迹误差在0.007 m.实验结果验证了所提出方法的有效性和准确性,表明其在深度估计和视觉里程计任务上的性能优于现有方法.  相似文献   

11.
为了提高利用深度神经网络预测单图像深度信息的精确度,提出了一种采用自监督卷积神经网络进行单图像深度估计的方法.首先,该方法通过在编解码结构中引入残差结构、密集连接结构和跳跃连接等方式改进了单图像深度估计卷积神经网络,改善了网络的学习效率和性能,加快了网络的收敛速度;其次,通过结合灰度相似性、视差平滑和左右视差匹配等损失度量设计了一种更有效的损失函数,有效地降低了图像光照因素影响,遏制了图像深度的不连续性,并能保证左右视差的一致性,从而提高深度估计的鲁棒性;最后,采用立体图像作为训练数据,无需目标深度监督信息,实现了端到端的单幅图像深度估计.在TensorFlow框架下,用KITTI和Cityscapes数据集进行实验,结果表明,与目前的主流方法相比,该方法在预测深度的精确度方面有较大提升,拥有更好的深度预测性能.  相似文献   

12.
针对现有无人机(Unmanned Aerial Vehicle,UAV)风场估计方法中存在的计算复杂、需额外搭载传感器等问题,提出基于粗糙集遗传神经网络的无人机受风状态估计方法。该方法利用粗糙集分析方法对无人机上采集的姿态信息数据集进行约简;利用遗传算法全局搜索能力强的特点优化神经网络的初始权值;用简化的无人机数据集训练神经网络即得到所需神经网络风场估计模型。仿真结果表明,该方法具有较高的识别率以及较短的训练时间,证明了其在无人机风场估计上应用的有效性。  相似文献   

13.
针对利用深度学习方法对街道图像进行深度估计,提出采用语义分割的方法解决深度图出现边界模糊等问题;估计深度通过左右视角图生成视差图进行无监督的训练。在网络模型中添加语义分割层,采取多个空洞卷积并行的结构增加感受野,同时减少了图像下采样的次数,降低了由于下采样带来的信息损失,使得的结果更加准确。这也是在深度估计中首次与空洞卷积相结合增加准确率。通过对KITTI街道数据集进行训练,与现有结果相比,除了增加检测准确性,降低错误率之外,使得效果图中的物体更加清晰,并且在效果图中还保留了一些原模型中被忽视掉的细节信息,将原始图像更加完整的表现出来。  相似文献   

14.
目的双目视差估计可以实现稠密的深度估计,因而具有重要研究价值。而视差估计和光流估计两个任务之间具有相似性,在两种任务之间可以互相借鉴并启迪新算法。受光流估计高效算法RAFT(recurrent all-pairs field transforms)的启发,本文提出采用单、双边多尺度相似性迭代查找的方法实现高精度的双目视差估计。针对方法在不同区域估计精度和置信度不一致的问题,提出了左右图像视差估计一致性检测提取可靠估计区域的方法。方法采用金字塔池化模块、跳层连接和残差结构的特征网络提取具有强表征能力的表示向量,采用向量内积表示像素间的相似性,通过平均池化得到多尺度的相似量,第0次迭代集成初始视差量,根据初始视差单方向向左查找多尺度的相似性得到的大视野相似量和上下文3种信息,而其他次迭代集成更新的视差估计量,根据估计视差双向查找多尺度的相似性得到的大视野相似量和上下文3种信息,集成信息通过第0次更新的卷积循环神经网络和其他次更新共享的卷积循环神经网络迭代输出视差的更新量,多次迭代得到最终的视差估计值。之后,通过对输入左、右图像反序和左右翻转估计右图视差,对比左、右图匹配点视差差值的绝对值和...  相似文献   

15.
场景的深度估计问题是计算机视觉领域中的经典问题之一,也是3维重建和图像合成等应用中的一个重要环节。基于深度学习的单目深度估计技术高速发展,各种网络结构相继提出。本文对基于深度学习的单目深度估计技术最新进展进行了综述,回顾了基于监督学习和基于无监督学习方法的发展历程。重点关注单目深度估计的优化思路及其在深度学习网络结构中的表现,将监督学习方法分为多尺度特征融合的方法、结合条件随机场(conditional random field,CRF)的方法、基于序数关系的方法、结合多元图像信息的方法和其他方法等5类;将无监督学习方法分为基于立体视觉的方法、基于运动恢复结构(structure from motion,SfM)的方法、结合对抗性网络的方法、基于序数关系的方法和结合不确定性的方法等5类。此外,还介绍了单目深度估计任务中常用的数据集和评价指标,并对目前基于深度学习的单目深度估计技术在精确度、泛化性、应用场景和无监督网络中不确定性研究等方面的现状和面临的挑战进行了讨论,为相关领域的研究人员提供一个比较全面的参考。  相似文献   

16.
ABSTRACT

Nowadays, depth estimation from a single image is a task that has been successfully addressed by Convolutional Neural Network (CNN) architectures. In this regard, several authors have taken advantage of depth datasets publicly available to the scientific community to train their CNN-based methods. From a project of Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago has emerged KITTI (acronym derived from the institutions' names) as one of the most popular public datasets providing depth estimates associated to RGB (Red, Green, Blue) images. Regarding the depth data in KITTI and typically in many other datasets, these include monocular or stereo RGB images associated with depth images obtained via laser, stereo cameras or a combination of both. These images and depth data have been collected by driving around outdoor urban environments with cameras looking forward to the horizon. In contrast, in this work, we are interested in CNN-based depth estimation in a single aerial image for which depth datasets are not available. In addition, popular CNN architectures for depth estimation in a single-image struggle to estimate depth in aerial scenes due to the fact that the camera angle and object appearance in aerial imagery are significantly different. Nevertheless, we propose to harvest the depth information available in KITTI in order to tackle the problem of depth estimation in a single aerial image. To this end, our approach is a two-step methodology based on patch processing that is later used as input for a set of proposed CNN architectures. Our results indicate that this approach is promising, and those datasets such as KITTI may indeed be exploited in other domains, especially where the data acquisition may be expensive or difficult to be carried out such as for aerial scenes.  相似文献   

17.
摘 要:针对传统方法在单目视觉图像深度估计时存在鲁棒性差、精度低等问题,提出一 种基于卷积神经网络(CNN)的单张图像深度估计方法。首先,提出层级融合编码器-解码器网络, 该网络是对端到端的编码器-解码器网络结构的一种改进。编码器端引入层级融合模块,并通过 对多层级特征进行融合,提升网络对多尺度信息的利用率。其次,提出多感受野残差模块,其 作为解码器的主要组成部分,负责从高级语义信息中估计深度信息。同时,多感受野残差模块 可灵活地调整网络感受野大小,提高网络对多尺度特征的提取能力。在 NYUD v2 数据集上完 成网络模型有效性验证。实验结果表明,与多尺度卷积神经网络相比,该方法在精度 δ<1.25 上 提高约 4.4%,在平均相对误差指标上降低约 8.2%。证明其在单张图像深度估计的可行性。  相似文献   

18.
王程  张骏  高隽 《中国图象图形学报》2020,25(12):2630-2646
目的 光场相机一次成像可以同时获取场景中光线的空间和角度信息,为深度估计提供了条件。然而,光场图像场景中出现高光现象使得深度估计变得困难。为了提高算法处理高光问题的可靠性,本文提出了一种基于光场图像多视角上下文信息的抗高光深度估计方法。方法 本文利用光场子孔径图像的多视角特性,创建多视角输入支路,获取不同视角下图像的特征信息;利用空洞卷积增大网络感受野,获取更大范围的图像上下文信息,通过同一深度平面未发生高光的区域的深度信息,进而恢复高光区域深度信息。同时,本文设计了一种新型的多尺度特征融合方法,串联多膨胀率空洞卷积特征与多卷积核普通卷积特征,进一步提高了估计结果的精度和平滑度。结果 实验在3个数据集上与最新的4种方法进行了比较。实验结果表明,本文方法整体深度估计性能较好,在4D light field benchmark合成数据集上,相比于性能第2的模型,均方误差(mean square error,MSE)降低了20.24%,坏像素率(bad pixel,BP)降低了2.62%,峰值信噪比(peak signal-to-noise ratio,PSNR)提高了4.96%。同时,通过对CVIA (computer vision and image analysis) Konstanz specular dataset合成数据集和Lytro Illum拍摄的真实场景数据集的定性分析,验证了本文算法的有效性和可靠性。消融实验结果表明多尺度特征融合方法改善了深度估计在高光区域的效果。结论 本文提出的深度估计模型能够有效估计图像深度信息。特别地,高光区域深度信息恢复精度高、物体边缘区域平滑,能够较好地保存图像细节信息。  相似文献   

19.
吴启宇  谢非  黄磊  刘宗熙  赵静  刘锡祥 《控制与决策》2022,37(12):3278-3288
中国象棋对弈机器人系统实现的关键包括棋局识别定位和自主行棋策略.\:首先,针对棋局识别与定位问题,提出一种基于单目相机与深度相机视觉融合的棋局识别定位方法.\:该方法利用立体棋子三维特征获取棋子位置,与二维图像识别结果融合计算定位,以提高棋子的识别定位精度.\:其次,针对行棋策略问题,提出一种基于深度神经网络与蒙特卡洛树搜索的决策方法.\:该方法利用具有终局特征判断的蒙特卡洛树进行搜索,使用优化的随机行棋策略指导模拟行棋,训练具有多尺度及残差结构的策略价值网络模型.\:最后,通过自对弈获取训练数据,通过智能体对抗验证、更新模型参数.\:实验表明,相较于单目视觉识别,所提出方法具有更高的精确度和稳定性,识别率达到97%;相较于基准剪枝搜索算法,所提出方法对弈时最多赢得82%的对局,且所需运算时间缩短41%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号