首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 203 毫秒
1.
摘 要:针对传统方法在单目视觉图像深度估计时存在鲁棒性差、精度低等问题,提出一 种基于卷积神经网络(CNN)的单张图像深度估计方法。首先,提出层级融合编码器-解码器网络, 该网络是对端到端的编码器-解码器网络结构的一种改进。编码器端引入层级融合模块,并通过 对多层级特征进行融合,提升网络对多尺度信息的利用率。其次,提出多感受野残差模块,其 作为解码器的主要组成部分,负责从高级语义信息中估计深度信息。同时,多感受野残差模块 可灵活地调整网络感受野大小,提高网络对多尺度特征的提取能力。在 NYUD v2 数据集上完 成网络模型有效性验证。实验结果表明,与多尺度卷积神经网络相比,该方法在精度 δ<1.25 上 提高约 4.4%,在平均相对误差指标上降低约 8.2%。证明其在单张图像深度估计的可行性。  相似文献   

2.
梅旭璋  江红  孙军 《计算机工程》2020,46(3):267-272,279
视网膜血管的结构信息对眼科疾病的诊断具有重要的指导意义,对视网膜血管图像进行高效正确的分割成为临床的迫切需求。传统的人工分割方法耗时较长且易受个人主观因素的影响,分割质量不高。为此,提出一种基于密集注意力网络的图像自动分割算法。将编码器-解码器全卷积神经网络的基础结构与密集连接网络相结合,以充分提取每一层的特征,在网络的解码器端引入注意力门模块,对不必要的特征进行抑制,提高视网膜血管图像的分割精度。在DRIVE和STARE眼底图像数据集上的实验结果表明,与其他基于深度学习的算法相比,该算法的敏感性、特异性、准确率和AUC值均较高,分割效果较好。  相似文献   

3.
针对以往医学图像分割网络中卷积的感受野太小以及Transformer的特征丢失问题,提出了一种端到端的轻量化上下文Transformer医学图像分割网络(lightweight context Transformer medical image segmentation network,CoT-TransUNet)。该网络由编码器、解码器以及跳跃连接三部分组成。对于输入图像,编码器使用CoTNet-Transformer的混合模块,采用CoTNet作为特征提取器来生成特征图。Transformer块则把特征图编码为输入序列。解码器通过一个级联上采样器,将编码后的特征进行上采样。该上采样器级联了多个上采样块,每个上采样块都采用CARAFE上采样算子。通过跳跃连接实现编码器与解码器在不同分辨率上的特征聚合。CoT-TransUNet通过在特征提取阶段采用全局与局部上下文信息相结合的CoTNet;在上采样阶段采用具有更大感受野的CARAFE算子。实现了生成更好的输入特征图,以及基于内容的上采样,并保持轻量化。在多器官分割任务的实验中,CoT-TransUNet取得了优于其他网络的性能。  相似文献   

4.
角膜神经图像的自动分割对于糖尿病神经病变等疾病的诊断与筛查至关重要。针对由于角膜神经图像存在对比度低且包含非神经结构而造成分割效率较低的问题,在ResU-Net结构基础上引入多尺度残差、注意力机制、多尺度图像输入与多层损失函数输出模块,提出一种基于注意力机制的角膜神经分割算法。多尺度残差模块通过在残差模块中加入多尺度表征信息以提高卷积层提取多尺度特征的能力,而注意力机制模块在双重注意力作用下,利用网络对编码器与解码器中的目标特征进行权重优化,使得在增强图像目标区域特征的同时抑制背景及噪声区域,并采用多尺度图像输入与多层函数输出模块以监督网络中每一层的特征学习。实验结果表明,与主流分割算法相比,该算法的分割效果更优,且曲线下面积与敏感度分别可达到0.990和0.880。  相似文献   

5.
现有的基于深度学习的红外和可见光图像融合方法大多基于人工设计的融合策略,难以为复杂的源图像设计一个合适的融合策略.针对上述问题,文中提出基于GhostNet的端到端红外和可见光图像融合方法.在网络结构中使用Ghost模块代替卷积层,形成一个轻量级模型.损失函数的约束使网络学习到适应融合任务的图像特征,从而在特征提取的同时完成融合任务.此外,在损失函数中引入感知损失,将图像的深层语义信息应用到融合过程中.源图像通过级联输入深度网络,在经过带有稠密连接的编码器提取图像特征后,通过解码器的重构得到融合结果.实验表明,文中方法在主观对比和客观图像质量评价上都有较好表现.  相似文献   

6.
密集连接卷积神经网络(DenseNet)是一种新型深度卷积神经网络架构,通过建立不同层间的连接关系,来确保网络层与层间最大程度的信息传输。在文本远程监督关系抽取任务中,针对现有神经网络方法使用浅层网络提取特征的局限,设计了一种基于密集连接方式的深度卷积神经网络模型。该模型采用五层卷积神经网络构成的密集连接模块和最大池化层作为句子编码器,通过合并不同层次的词法、句法和语义特征,来帮助网络学习特征,从而获取输入语句更丰富的语义信息,同时减轻深度神经网络的梯度消失现象,使得网络对自然语言的表征能力更强。模型在NYT-Freebase数据集上的平均准确率达到了82.5%,PR曲线面积达到了0.43。实验结果表明,该模型能够有效利用特征,并提高远程监督关系抽取的准确率。  相似文献   

7.
王璐  姚宇 《计算机应用》2022,(S2):230-236
针对医学超声影像中图像受斑点噪声干扰、细节信息丢失、目标边界模糊等问题,提出一种基于特征融合和注意力机制的超声影像分割网络,整体结构采用编码器-解码器网络结构。首先,使用编码器模块对图像进行上下文特征提取,提取全局特征信息;然后,设计多尺度特征提取模块,捕获更广泛的语义信息;最后,在解码器模块中加入双注意力机制,沿空间和通道两个维度细化特征信息,加强对超声心动图影像中左心室区域的关注,使模型对有噪声的输入图像具有鲁棒性。实验结果表明,所提出的网络在超声心动图心尖四腔心数据集上的实验分割结果的Dice系数达到93.11%,平均交并比(mIoU)为86.80%,较传统的U-Net卷积神经网络分别提升了3.06个百分点和3.95个百分点,有效获取了左心室区域细节信息和边界信息,取得了较好的分割结果。  相似文献   

8.
针对传统方法在单目图像深度估计时精度低、速度慢等问题,提出一种全卷积编码-解码网络模型,该模型将稀疏的深度样本集和RGB图像作为输入,编码层由Resnet和一个卷积层组成,解码层由两个上采样层和一个双线性上采样层组成,上采样层采用上卷积模块和上投影模块交叉使用,有效降低了棋盘效应并保留了预测深度图像的边缘信息。同时,模型中使用了全卷积,使得参数减少,提升了预测速度。在NYU-Depth-v2数据集上验证了网络模型的有效性与优越性。实验结果表明,在仅使用RGB图像进行深度预测的情况下,与多尺度卷积神经网络相比,该模型在精度[δ<1.25]上提高约4%,均方根误差指标降低约11%;与仅使用RGB图像相比,添加100个空间随机深度样本,均方根误差降低约26%。  相似文献   

9.
目前,深度全卷积网络在图像语义分割领域已经取得了瞩目的成就,但特征图的细节信息在多次下采样过程中会大量损失,对分割精度造成影响。针对该问题设计了一个用于图像语义分割的深度全卷积网络。该网络采用“编码器-解码器”结构,在编码器后端引入空洞卷积以降低细节信息的损失,在解码过程中融合对应尺寸的低阶语义特征,并在解码器末端融入全局特征以提升模型的分割精度。使用数据增强后的CamVid数据集对网络进行训练和测试,测试结果达到了90.14%的平均像素精度与71.94%的平均交并比。实验结果表明,该网络能充分利用低阶特征与全局特征,有效提升分割性能,并在区域平滑方面有很好的表现。  相似文献   

10.
针对单目深度估计网络庞大的参数量和计算量,提出一种轻量金字塔解码结构的单目深度估计网络,可以在保证估计精度的情况下降低网络模型的复杂度、减少运算时间。该网络基于编解码结构,以端到端的方式估计单目图像的深度图。编码端使用ResNet50网络结构;在解码端提出了一种轻量金字塔解码模块,采用深度空洞可分离卷积和分组卷积以提升感受野范围,同时减少了参数量,并且采用金字塔结构融合不同感受野下的特征图以提升解码模块的性能;此外,在解码模块之间增加跳跃连接实现知识共享,以提升网络的估计精度。在NYUD v2数据集上的实验结果表明,与结构注意力引导网络相比,轻量金字塔解码结构的单目深度估计网络在误差RMS的指标上降低约11.0%,计算效率提升约84.6%。  相似文献   

11.
闫善武  肖洪兵  王瑜  孙梅 《图学学报》2023,44(1):95-103
针对目前视频异常检测不能充分利用时序信息且忽视正常行为多样性的问题,提出了一种融合行 人时空信息的异常检测方法。以卷积自编码器为基础,通过其中的编码器和解码器对输入帧进行压缩和还原,并 根据输出帧与真实值的差异实现异常检测。为了加强视频连续帧之间的特征信息联系,引入残差时间移位模块和 残差通道注意力模块,分别提升网络对时间信息和通道信息的建模能力。考虑到卷积神经网络(CNN)过度的泛化 性,在编解码器各层的跳跃连接之间加入记忆增强模块,限制自编码器对异常帧过于强大的表示能力,提高网络 的异常检测精度。此外,通过一种特征离散性损失来修正目标函数,有效区分不同的正常行为模式。在 CUHK Avenue 和 ShanghaiTech 数据集上的实验结果表明,该方法在满足实时性要求的同时,优于当前主流的视频异常 检测方法。  相似文献   

12.
为了提高利用深度神经网络预测单图像深度信息的精确度,提出了一种采用自监督卷积神经网络进行单图像深度估计的方法.首先,该方法通过在编解码结构中引入残差结构、密集连接结构和跳跃连接等方式改进了单图像深度估计卷积神经网络,改善了网络的学习效率和性能,加快了网络的收敛速度;其次,通过结合灰度相似性、视差平滑和左右视差匹配等损失度量设计了一种更有效的损失函数,有效地降低了图像光照因素影响,遏制了图像深度的不连续性,并能保证左右视差的一致性,从而提高深度估计的鲁棒性;最后,采用立体图像作为训练数据,无需目标深度监督信息,实现了端到端的单幅图像深度估计.在TensorFlow框架下,用KITTI和Cityscapes数据集进行实验,结果表明,与目前的主流方法相比,该方法在预测深度的精确度方面有较大提升,拥有更好的深度预测性能.  相似文献   

13.
Haq  Nuhman Ul  Khan  Ahmad  Rehman  Zia ur  Din  Ahmad  Shao  Ling  Shah  Sajid 《Multimedia Tools and Applications》2021,80(14):21771-21787

The semantic segmentation process divides an image into its constituent objects and background by assigning a corresponding class label to each pixel in the image. Semantic segmentation is an important area in computer vision with wide practical applications. The contemporary semantic segmentation approaches are primarily based on two types of deep neural networks architectures i.e., symmetric and asymmetric networks. Both types of networks consist of several layers of neurons which are arranged in two sections called encoder and decoder. The encoder section receives the input image and the decoder section outputs the segmented image. However, both sections in symmetric networks have the same number of layers and the number of neurons in an encoder layer is the same as that of the corresponding layer in the decoder section but asymmetric networks do not strictly follow such one-one correspondence between encoder and decoder layers. At the moment, SegNet and ESNet are the two leading state-of-the-art symmetric encoder-decoder deep neural network architectures. However, both architectures require extensive training for good generalization and need several hundred epochs for convergence. This paper aims to improve the convergence and enhance network generalization by introducing two novelties into the network training process. The first novelty is a weight initialization method and the second contribution is an adaptive mechanism for dynamic layer learning rate adjustment in training loop. The proposed initialization technique uses transfer learning to initialize the encoder section of the network, but for initialization of decoder section, the weights of the encoder section layers are copied to the corresponding layers of the decoder section. The second contribution of the paper is an adaptive layer learning rate method, wherein the learning rates of the encoder layers are updated based on a metric representing the difference between the probability distributions of the input images and encoder weights. Likewise, the learning rates of the decoder layers are updated based on the difference between the probability distributions of the output labels and decoder weights. Intensive empirical validation of the proposed approach shows significant improvement in terms of faster convergence and generalization.

  相似文献   

14.
Most existing underwater image enhancement methods only focus on enhancing a single image. However, underwater images taken in the same scene often exhibit similar degradation characteristics, which can provide richer complementary information to each other. In this paper, a novel underwater image co-enhancement based on physical-guided Transformer interaction (UICE-PTI), which adopts a multi-scale encoder–decoder structure to effective mine the rich semantic information, is proposed. Specifically, considering that the degradation of underwater image is directly related to scene depth, the Dark Channel Prior-guided Transformer (DCPT) module is embedded into the framework before the preliminary feature extraction. Then, the convolution operation in the preliminary feature extraction is proposed for the local degradation of the underwater image. After that, considering the non-local and heterogeneous degradation of the underwater images across different channels and pixels, the CS-Transformer block with second-order statistics is proposed, which incorporates both channel and spatial Transformer modules. Furthermore, considering the rich complementary information between images of the same scene for enhancement, the Feature Transformer Interaction Module (FTIM) is proposed to capture the correlation between two branches in the network bottleneck layer. Additionally, the proposed UICE-PTI can also be extended to underwater stereo image enhancement. Finally, the experimental results demonstrate the superior performance of the proposed UICE-PTI and the effectiveness of each module.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号