首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
摘 要:针对传统方法在单目视觉图像深度估计时存在鲁棒性差、精度低等问题,提出一 种基于卷积神经网络(CNN)的单张图像深度估计方法。首先,提出层级融合编码器-解码器网络, 该网络是对端到端的编码器-解码器网络结构的一种改进。编码器端引入层级融合模块,并通过 对多层级特征进行融合,提升网络对多尺度信息的利用率。其次,提出多感受野残差模块,其 作为解码器的主要组成部分,负责从高级语义信息中估计深度信息。同时,多感受野残差模块 可灵活地调整网络感受野大小,提高网络对多尺度特征的提取能力。在 NYUD v2 数据集上完 成网络模型有效性验证。实验结果表明,与多尺度卷积神经网络相比,该方法在精度 δ<1.25 上 提高约 4.4%,在平均相对误差指标上降低约 8.2%。证明其在单张图像深度估计的可行性。  相似文献   

2.
针对现有深度学习图像修复方法对不同尺度特征的感知和表达能力存在不足的问题,提出一种利用多尺度通道注意力与分层残差网络的图像修复模型.首先采用U-Net作为生成器的主干网络,实现对破损图像的编码与解码操作;然后通过在编码器与解码器中分别构建多尺度的分层残差结构,以增强网络提取和表达破损图像特征的能力;最后在编码器与解码器间的跳跃连接中嵌入扩张的多尺度通道注意力模块,以提高模型对编码器中图像低级特征的利用效率.实验结果表明,在人脸、街景等数据集的破损图像修复上,该模型在主观视觉感受和客观评价指标方面均优于其他经典的图像修复方法.  相似文献   

3.
在室内单目视觉导航任务中,场景的深度信息十分重要.但单目深度估计是一个不适定问题,精度较低.目前, 2D激光雷达在室内导航任务中应用广泛,且价格低廉.因此,本文提出一种融合2D激光雷达的室内单目深度估计算法来提高深度估计精度.本文在编解码结构上增加了2D激光雷达的特征提取,通过跳跃连接增加单目深度估计结果的细节信息,并提出一种运用通道注意力机制融合2D激光雷达特征和RGB图像特征的方法.本文在公开数据集NYUDv2上对算法进行验证,并针对本文算法的应用场景,制作了带有2D激光雷达数据的深度数据集.实验表明,本文提出的算法在公开数据集和自制数据集中均优于现有的单目深度估计.  相似文献   

4.
针对现有的图像语义分割算法存在的因细节信息丢失导致分割效果不佳的问题,论文提出一种基于DeepLabV3+的改进算法。论文的深度学习网络分为编码器和解码器模块,在编码器模块使用改进的ResNet_101和空洞空间金字塔池化结构提取多尺度特征,在解码器模块结合多个输出,并且融合图像低层信息,解决目标细节丢失问题。为验证论文算法的有效性,在PASCAL VOC 2012数据集上进行实验,结果表明,改进后的算法在物体细节处理方面得到了良好效果,性能方面有所提升。  相似文献   

5.
单目图像深度估计是一个病态问题,究其原因在于单一图像中缺乏深度信息。随着深度学习技术的不断发展,深度神经网络在单目图像深度估计领域取得了一定的突破。现有的深度网络模型采用编码-解码结构,编码器往往采用全卷积的方式来获取特征图像,但提取的特征图像往往不能很好地反映图像原有的信息。因此,通过对图像编码器进行改进,对提取的不同尺度下的特征进行融合,使得特征图像能更好地反映原有的图像信息。并且在训练时,在左右一致性损失的基础上引入Wasserstein距离损失对模型进行约束。实验结果表明,模型在KITTI数据集上具有较好的表现,预测得到的深度图像具有较高的准确性。  相似文献   

6.
温静  杨洁 《计算机工程》2023,49(2):222-230
现有单目深度估计算法主要从单幅图像中获取立体信息,存在相邻深度边缘细节模糊、明显的对象缺失问题。提出一种基于场景对象注意机制与加权深度图融合的单目深度估计算法。通过特征矩阵相乘的方式计算特征图任意两个位置之间的相似特征向量,以快速捕获长距离依赖关系,增强用于估计相似深度区域的上下文信息,从而解决自然场景中对象深度信息不完整的问题。基于多尺度特征图融合的优点,设计加权深度图融合模块,为具有不同深度信息的多视觉粒度的深度图赋予不同的权值并进行融合,融合后的深度图包含深度信息和丰富的场景对象信息,有效地解决细节模糊问题。在KITTI数据集上的实验结果表明,该算法对目标图像预估时σ<1.25的准确率为0.879,绝对相对误差、平方相对误差和对数均方根误差分别为0.110、0.765和0.185,预测得到的深度图具有更加完整的场景对象轮廓和精确的深度信息。  相似文献   

7.
在基于深度学习的单目图像深度估计方法中, 卷积神经网络在下采样过程中会出现图像深度信息丢失的情况, 导致物体边缘深度估计效果不佳. 提出一种多尺度特征融合的方法, 并采用自适应融合的策略, 根据特征数据动态调整不同尺度特征图的融合比例, 实现对多尺度特征信息的充分利用. 由于空洞空间金字塔池化(ASPP)在单目深度估计任务中, 会丢失图像中的像素点信息, 影响小物体的预测结果. 通过在对深层特征图使用ASPP时融合浅层特征图的丰富特征信息, 提高深度估计结果. 在NYU-DepthV2室内场景数据集的实验结果表明, 本文所提方法在物体边缘处有更准确的预测, 并且对小物体的预测有明显的提升, 均方根误差(RMSE)达到0.389, 准确率(δ <1.25)达到0.897, 验证了方法的有效性.  相似文献   

8.
针对计算机视觉理解单目图像立体结构的问题,进行了单目图像深度估计算法的研究。提出了一种基于监督学习方法的室外单目图像深度估计算法,其采用语义标注信息指导深度估计过程,融合绝对深度特征、相对深度特征以及位置特征作为深度特征向量,采用LLOM学习深度特征向量与深度值之间的关系。实验结果显示,该算法对路面、草地以及建筑物类等深度渐进变化的图像块,可获得较满意的深度估计结果。本算法为单目图像深度估计开辟了一个全新的有效途径。  相似文献   

9.
基于Transformer的视觉目标跟踪算法能够很好地捕获目标的全局信息,但是,在对目标特征的表述上还有进一步提升的空间.为了更好地提升对目标特征的表达能力,提出一种基于混合注意力的Transformer视觉目标跟踪算法.首先,引入混合注意力模块捕捉目标在空间和通道维度中的特征,实现对目标特征上下文依赖关系的建模;然后,通过多个不同空洞率的平行空洞卷积对特征图进行采样,以获得图像的多尺度特征,增强局部特征表达能力;最后,在Transformer编码器中加入所构建的卷积位置编码层,为跟踪器提供精确且长度自适应的位置编码,提升跟踪定位的精度.在OTB100、VOT2018和LaSOT等数据集上进行大量实验,实验结果表明,通过基于混合注意力的Transformer网络学习特征间的关系,能够更好地表示目标特征.与其他主流目标跟踪算法相比,所提出算法具有更好的跟踪性能,且能够达到26帧/s的实时跟踪速度.  相似文献   

10.
图像骨架是一种紧凑、直观的图像表示方法。目前,现有基于深度学习的二值像素图像骨架提取算法存在骨架断裂问题。提出了一种基于全尺度融合侧输出残差Unet网络(FFSR-Unet)的骨架提取算法,该算法通过融合编码器和解码器不同层级间的特征,实现了前景对象不同形状尺度的特征交互,同时采用阶梯式残差块以增强网络对深层与浅层语义的提取能力。该算法在Pixel SkelNetOn Challenge数据集上的F1-score可以达到0.854 8,能够超越现有算法的提取结果。  相似文献   

11.
现有基于深度学习的多模态医学图像融合方法存在全局特征表示能力不足的问题。对此,提出一种基于局部全局特征耦合与交叉尺度注意的医学图像融合方法。该方法由编码器、融合规则和解码器三部分组成。编码器中采用并行的卷积神经网络(CNN)和Transformer双分支网络分别提取图像的局部特征与全局表示。在不同尺度下,通过特征耦合模块将CNN分支的局部特征嵌入Transformer分支的全局特征表示中,最大程度地结合互补特征,同时引入交叉尺度注意模块实现对多尺度特征表示的有效利用。编码器提取待融合原始图像的局部、全局以及多尺度特征表示,根据融合规则融合不同源图像的特征表示后再输入到解码器中生成融合图像。实验结果表明,与CBF、PAPCNN、IFCNN、DenseFuse和U2Fusion方法相比,该方法在特征互信息、空间频率、边缘信息传递因子、结构相似度、感知图像融合质量这5个评价指标上分别平均提高6.29%、3.58%、29.01%、5.34%、5.77%,融合图像保留了更清晰的纹理细节和更高的对比度,便于疾病的诊断与治疗。  相似文献   

12.
目前基于Transformer的目标跟踪算法主要利用Transformer来融合深度卷积特征,忽略了Transformer在特征提取和解码预测方面的能力。针对上述问题,提出一种基于视觉Transformer的双流目标跟踪算法。引入基于注意力机制的Swin Transformer进行特征提取,通过移位窗口进行全局信息建模。使用Transformer编码器对目标特征和搜索区域特征进行充分融合,使用解码器学习目标查询中的位置信息。分别对编解码器中的双流信息进行目标预测。在决策层面上进一步地加权融合得到最终跟踪结果,并使用多监督策略。该算法在LaSOT、TrackingNet、UAV123和NFS四个具有挑战性的大规模跟踪数据集上取得了先进的结果,分别达到67.4%、80.9%、68.6%和66.0%的成功率曲线下面积,展示了其强大的潜力。此外,由于避免了复杂的后处理步骤,能够端到端进行目标跟踪,跟踪速度可达42?FPS。  相似文献   

13.
针对传统图像去雾算法容易受到先验知识制约以及颜色失真等问题,提出了一种结合注意力机制的多尺度特征融合图像去雾算法.该算法首先通过下采样操作得到多个尺度的特征图,然后在不同尺度的特征图之间采用跳跃连接的方式将编码器部分的特征图与解码器部分的特征图连接起来以进行特征融合.同时,在网络中加入一个由通道注意力子模块和像素注意力...  相似文献   

14.
使用深度学习方法进行单目深度估计时,由于使用多级下采样会出现重建结果细节信息缺失、边缘轮廓模糊等问题.为此,提出一种基于高分辨率网络的自监督单目深度估计方法.首先,通过并行连接使得特征图在编码过程中始终保持高分辨率表示,以充分地保留细节信息;其次,为了提高编码器的学习能力,在编码部分引入注意力模块,对图像特征进行筛选和提炼;最后,针对深度估计的多义性问题,利用非相邻帧图像之间的一致性,设计了一种有效的损失函数,并使用可靠性掩膜来消除动点和遮挡点的干扰.在TensorFlow框架下采用KITTI和Cityscapes数据集进行实验,实验结果表明,与已有深度估计方法相比,该方法不仅能够保留预测深度的边缘信息,而且能够提高预测深度的准确性,可达到0.119的平均相对误差.  相似文献   

15.
由于文档图像的布局复杂、目标对象尺寸分布不均匀,现有的检测算法很少考虑多模态信息和全局依赖关系,提出了基于视觉和文本的多模态文档图像目标检测方法。首先探索多模态特征的融合策略,为利用文本特征,将图像中文本序列信息转换为二维表征,在文本特征和视觉特征初次融合之后,将其输入到骨干网络提取多尺度特征,并在提取过程中多次融入文本特征实现多模态特征的深度融合;为保证小物体和大物体的检测精度,设计了一个金字塔网络,该网络的横向连接将上采样的特征图与自下而上生成的特征图在通道上连接,实现高层语义信息和低层特征信息的传播。在大型公开数据集PubLayNet上的实验结果表明,该方法的检测精度为95.86%,与其他检测方法相比有更高的准确率。该方法不仅实现了多模态特征的深度融合,还丰富了融合的多模态特征信息,具有良好的检测性能。  相似文献   

16.
现有的红外与可见光图像融合算法通常从单一尺度提取图像特征,导致融合图像无法全面保留原始特征信息.针对上述问题,提出一种基于多尺度和注意力机制的自编码网络结构实现红外与可见光图像融合.首先,采用密集连接和多尺度注意力模块构建编码器网络,并引入自注意力机制增强像素间的依赖关系,充分提取红外图像的显著目标和可见光图像的细节纹理;然后,特征融合阶段采用基于通道与空间的联合注意融合网络,进一步融合图像典型特征;接着,设计基于像素、结构相似性和色彩的混合损失函数指导网络训练,进一步约束融合图像与源图像的相似性;最后,通过对比实验的主观和客观评价结果,验证所提出算法相比于其他代表性融合算法具有更优异的图像融合能力.  相似文献   

17.
研究深度估计和语义分割的图像之间的互利关系,提出了一种联合语义分割的自监督单目深度估计方法 USegDepth.语义分割和深度估计任务通过共享编码器,实现语义引导.为了进一步提高编码器的跨多任务性能,设计了多任务特征提取模块,堆叠该模块构成共享编码器,解决有限感受野和缺乏跨通道交互导致的模型特征表示能力欠佳问题,进一步提升模型精度.同时,提出跨任务交互模块,通过双向的跨域信息交互细化特征表示,提升深度估计表现,特别是光度一致性监督有限的弱纹理区域和物体边界.通过在KITTI数据集上的训练和全面评估,实验结果显示所提的USegDepth模型方法的均方相对误差相比于SGDepth降低了0.176个百分点,在阈值为1.253的阈值精度达到了98.4%,证明了USegDepth在深度预测上具有较高的准确率.  相似文献   

18.
针对自监督单目深度估计生成的深度图边界模糊、伪影过多等问题,提出基于全尺度特征融合模块(FSFFM)和链式残差池化模块(CRPM)的深度网络编解码结构.在解码时,将编码器得到的高分辨率和相同分辨率特征与之前解码器得到的低分辨率特征以及上一级逆深度图进行融合,使网络学习到的特征既包含全局信息又包含局部信息.使用CRPM从融合特征中获取背景上下文信息,最终得到更精确的深度图.在KITTI数据集上进行了实验,与之前工作相比,该方法深度值绝对误差降低了7.8%,阈值为1.25的精确度提高了1.1%,其结果优于现有大多数自监督单目深度估计算法.  相似文献   

19.
目的 在基于深度学习的红外与可见光图像融合方法中,多尺度分解是一种提取不同尺度特征的重要方式。针对传统多尺度分解方法里尺度设置粗糙的问题,提出了一种基于八度(octave)卷积的改进图像融合算法。方法 融合方法由4部分组成:编码器、特征增强、融合策略和解码器。首先,使用改进后的编码器获取源图像的多尺度上的低频、次低频和高频特征。这些特征会被从顶层到底层进行强化。其次,将这些特征按照对应的融合策略进行融合。最后,融合后的深度特征由本文设计的解码器重构为信息丰富的融合图像。结果 实验在TNO和RoadScene数据集上与9种图像融合算法进行比较。主观评价方面,所提算法可以充分保留源图像中的有效信息,融合结果也符合人的视觉感知;客观指标方面,在TNO数据集上所提算法在信息熵、标准差、视觉信息保真度、互信息和基于小波变换提取局部特征的特征互信息5个指标上均有最优表现,相较于9种对比方法中最优值分别提升了0.54%,4.14%,5.01%,0.55%,0.68%。在RoadScene数据集上所提算法在信息熵、标准差、视觉信息保真度和互信息4个指标上取得了最优值,相较9种对比方法的最优值分别提升了...  相似文献   

20.
透明物体是日常生活中常见的事物,具有独特的视觉特性,这些特性使得标准的视觉3D传感器较难对其进行准确的深度估计.在大多数情况下,视觉3D传感器捕获的深度信息表现为透明物体后面的背景的深度值或大面积的深度缺失.为了对深度图像中透明物体的深度缺失进行快速修复,提出一种基于语义分割和多尺度融合的透明物体深度图像快速修复的方法,使用轻量级实时语义分割预测出透明物体的遮罩,剔除深度场景图像中该部分的错误深度信息,对彩色图像和剔除错误信息后的深度图像进行多尺度的特征提取和特征融合,完成对透明物体的深度图像快速修复.本文在Clear Grasp数据集上算法进行了效果验证.该数据集包含了5万多组RGB-D图像.实验结果表明,文中方法对透明物体深度的修复在度量指标MAE, δ1.05和δ1.25上,分别取得了0.027, 72.98和98.04的结果,均优于现有方法,并且在效率上有较好的提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号