首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
目的 卷积神经网络广泛应用于目标检测中,视频目标检测的任务是在序列图像中对运动目标进行分类和定位。现有的大部分视频目标检测方法在静态图像目标检测器的基础上,利用视频特有的时间相关性来解决运动目标遮挡、模糊等现象导致的漏检和误检问题。方法 本文提出一种双光流网络指导的视频目标检测模型,在两阶段目标检测的框架下,对于不同间距的近邻帧,利用两种不同的光流网络估计光流场进行多帧图像特征融合,对于与当前帧间距较小的近邻帧,利用小位移运动估计的光流网络估计光流场,对于间距较大的近邻帧,利用大位移运动估计的光流网络估计光流场,并在光流的指导下融合多个近邻帧的特征来补偿当前帧的特征。结果 实验结果表明,本文模型的mAP(mean average precision)为76.4%,相比于TCN(temporal convolutional networks)模型、TPN+LSTM(tubelet proposal network and long short term memory network)模型、D(&T loss)模型和FGFA(flow-guided feature aggregation)模型分别提高了28.9%、8.0%、0.6%和0.2%。结论 本文模型利用视频特有的时间相关性,通过双光流网络能够准确地从近邻帧补偿当前帧的特征,提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。  相似文献   

2.
目的 传统的半监督视频分割多是基于光流的方法建模关键帧与当前帧之间的特征关联。而光流法在使用过程中容易因遮挡、特殊纹理等情况产生错误,从而导致多帧融合存在问题。为了更好地融合多帧特征,本文提取第1帧的外观特征信息与邻近关键帧的位置信息,通过Transformer和改进的PAN(path aggregation network)模块进行特征融合,从而基于多帧时空注意力学习并融合多帧的特征。方法 多帧时空注意力引导的半监督视频分割方法由视频预处理(即外观特征提取网络和当前帧特征提取网络)以及基于Transformer和改进的PAN模块的特征融合两部分构成。具体包括以下步骤:构建一个外观信息特征提取网络,用于提取第1帧图像的外观信息;构建一个当前帧特征提取网络,通过Transformer模块对当前帧与第1帧的特征进行融合,使用第1帧的外观信息指导当前帧特征信息的提取;借助邻近数帧掩码图与当前帧特征图进行局部特征匹配,决策出与当前帧位置信息相关性较大的数帧作为邻近关键帧,用来指导当前帧位置信息的提取;借助改进的PAN特征聚合模块,将深层语义信息与浅层语义信息进行融合。结果 本文算法在DAVIS(densely annotated video segmentation)-2016数据集上的J和F得分为81.5%和80.9%,在DAVIS-2017数据集上为78.4%和77.9%,均优于对比方法。本文算法的运行速度为22帧/s,对比实验中排名第2,比PLM(pixel-level matching)算法低1.6%。在YouTube-VOS(video object segmentation)数据集上也取得了有竞争力的结果,JF的平均值达到了71.2%,领先于对比方法。结论 多帧时空注意力引导的半监督视频分割算法在对目标物体进行分割的同时,能有效融合全局与局部信息,减少细节信息丢失,在保持较高效率的同时能有效提高半监督视频分割的准确率。  相似文献   

3.
目的 疲劳驾驶是引发车辆交通事故的主要原因之一,针对现有方法在驾驶员面部遮挡情况下对眼睛状态识别效果不佳的问题,提出了一种基于自商图—梯度图共生矩阵的驾驶员眼部疲劳检测方法。方法 利用以残差网络(residual network,ResNet)为前置网络的SSD(single shot multibox detector)人脸检测器来获取视频中的有效人脸区域,并通过人脸关键点检测算法分割出眼睛局部区域图像;建立驾驶员眼部的自商图与梯度图共生矩阵模型,分析共生矩阵的数字统计特征,选取效果较好的特征用以判定人眼的开闭状态;结合眼睛闭合时间百分比(percentage of eyelid closure,PERCLOS)与最长闭眼持续时间(maximum closing duration,MCD)两个疲劳指标来判别驾驶员的疲劳状态。结果 在六自由度汽车性能虚拟仿真实验平台上模拟汽车驾驶,采集并分析驾驶员面部视频,本文方法能够有效识别驾驶员面部遮挡时眼睛的开闭状态,准确率高达99.12%,面部未遮挡时的识别精度为98.73%,算法处理视频的速度约为32帧/s。对比方法1采用方向梯度直方图特征与支持向量机分类器相结合的人脸检测算法,并以眼睛纵横比判定开闭眼状态,在面部遮挡时识别较弱;以卷积神经网络(convolutional neural network,CNN)判别眼睛状态的对比方法2虽然在面部遮挡情况下的准确率高达98.02%,但眨眼检测准确率效果不佳。结论 基于自商图—梯度图共生矩阵的疲劳检测方法能够有效识别面部遮挡时眼睛的开闭情况和驾驶员的疲劳状态,具有较快的检测速度与较高的准确率。  相似文献   

4.
目的 从大量数据中学习时空目标模型对于半监督视频目标分割任务至关重要,现有方法主要依赖第1帧的参考掩膜(通过光流或先前的掩膜进行辅助)估计目标分割掩膜。但由于这些模型在对空间和时域建模方面的局限性,在快速的外观变化或遮挡下很容易失效。因此,提出一种时空部件图卷积网络模型生成鲁棒的时空目标特征。方法 首先,使用孪生编码模型,该模型包括两个分支:一个分支输入历史帧和掩膜捕获序列的动态特征,另一个分支输入当前帧图像和前一帧的分割掩膜。其次,构建时空部件图,使用图卷积网络学习时空特征,增强目标的外观和运动模型,并引入通道注意模块,将鲁棒的时空目标模型输出到解码模块。最后,结合相邻阶段的多尺度图像特征,从时空信息中分割出目标。结果 在DAVIS(densely annotated video segmentation)-2016和DAVIS-2017两个数据集上与最新的12种方法进行比较,在DAVIS-2016数据集上获得了良好性能,Jacccard相似度平均值(Jaccard similarity-mean,J-M)和F度量平均值(F measure-mean,F-M)得分达到了85.3%,比性能最高的对比方法提高了1.7%;在DAVIS-2017数据集上,J-MF-M得分达到了68.6%,比性能最高的对比方法提高了1.2%。同时,在DAVIS-2016数据集上,进行了网络输入与后处理的对比实验,结果证明本文方法改善了多帧时空特征的效果。结论 本文方法不需要在线微调和后处理,时空部件图模型可缓解因目标外观变化导致的视觉目标漂移问题,同时平滑精细模块增加了目标边缘细节信息,提高了视频目标分割的性能。  相似文献   

5.
目的 视频行为识别和理解是智能监控、人机交互和虚拟现实等诸多应用中的一项基础技术,由于视频时空结构的复杂性,以及视频内容的多样性,当前行为识别仍面临如何高效提取视频的时域表示、如何高效提取视频特征并在时间轴上建模的难点问题。针对这些难点,提出了一种多特征融合的行为识别模型。方法 首先,提取视频中高频信息和低频信息,采用本文提出的两帧融合算法和三帧融合算法压缩原始数据,保留原始视频绝大多数信息,增强原始数据集,更好地表达原始行为信息。其次,设计双路特征提取网络,一路将融合数据正向输入网络提取细节特征,另一路将融合数据逆向输入网络提取整体特征,接着将两路特征加权融合,每一路特征提取网络均使用通用视频描述符——3D ConvNets (3D convolutional neural networks)结构。然后,采用BiConvLSTM (bidirectional convolutional long short-term memory network)网络对融合特征进一步提取局部信息并在时间轴上建模,解决视频序列中某些行为间隔相对较长的问题。最后,利用Softmax最大化似然函数分类行为动作。结果 为了验证本文算法的有效性,在公开的行为识别数据集UCF101和HMDB51上,采用5折交叉验证的方式进行整体测试与分析,然后针对每类行为动作进行比较统计。结果表明,本文算法在两个验证集上的平均准确率分别为96.47%和80.03%。结论 通过与目前主流行为识别模型比较,本文提出的多特征模型获得了最高的识别精度,具有通用、紧凑、简单和高效的特点。  相似文献   

6.
目的 利用合成孔径雷达(synthetic aperture radar,SAR)图像进行舰船目标检测是实施海洋监视的重要手段。基于深度学习的目标检测模型在自然图像目标检测任务中取得了巨大成功,但由于自然图像与SAR图像的差异,不能将其直接迁移到SAR图像目标检测中。针对SAR图像目标检测实际应用中对速度和精度的需求,借鉴经典的单阶段目标检测模型(single shot detector,SSD)框架,提出一种基于特征优化的轻量化SAR图像舰船目标检测网络。方法 改进模型并精简网络结构,提出一种数据驱动的目标分布聚类算法,学习SAR数据集的目标尺度、长宽比分布特性,用于网络参数设定;对卷积神经网络(convolutional neural network,CNN)提取的特征进行优化,提出一种双向高低层特征融合机制,将高层特征的语义信息通过语义聚合模块加成到低层特征中,在低层特征中提取特征平均图,处理后作为高层特征的注意力权重图对高层特征进行逐像素加权,将低层特征丰富的空间信息融入到高层特征中。结果 利用公开的SAR舰船目标检测数据集(SAR ship detection dataset,SSDD)进行实验,与原始的SSD模型相比,轻量化结构设计在不损失检测精度的前提下,样本测试时间仅为SSD的65%;双向特征融合机制将平均精确度(average precision,AP)值由77.93%提升至80.13%,训练和测试时间分别为SSD的64.1%和72.6%;与公开的基于深度学习的SAR舰船目标检测方法相比,本文方法在速度和精度上都取得了最佳性能,AP值较精度次优模型提升了1.23%,训练和测试时间较精度次优模型分别提升了559.34 ms和175.35 ms。结论 实验充分验证了本文所提模型的有效性,本文模型兼具检测速度与精度优势,具有很强的实用性。  相似文献   

7.
目的 自然场景图像中,特征提取的质量好坏是决定目标检测性能高低的关键因素。大多数检测算法都是利用卷积神经网络(CNN)强大的学习能力来获得目标的先验知识,并根据这些知识进行目标检测。卷积神经网络的低层次特征缺乏特征的代表性,而高层次的特征则对小尺度目标的监测能力弱。方法 利用原始SSD(single shot multiBox detector)网络提取特征图,通过1×1卷积层将提取的特征图统一为256维;通过反卷积操作增加自顶向下特征图的空间分辨率;通过对应元素相加的操作,将两个方向的特征图进行融合。将融合后的特征图采用3×3的卷积核进行卷积操作,减小特征图融合后的混叠效应。根据以上步骤构建具有较强语义信息的特征图,同时保留原有特征图的细节信息;对预测框进行聚合,利用非极大抑制(NMS)实现最终的检测效果。结果 在PASCAL VOC 2007和PASCAL VOC 2012数据集上进行实验测试,该模型的mAP(mean average precision)为78.9%和76.7%,相对于经典的SSD算法,分别提高了1.4%和0.9%;此外,本文方法在检测小尺度目标时相较于经典SSD模型mAP提升了8.3%。结论 提出了一种多尺度特征图融合的目标检测算法,以自顶向下的方式扩展了语义信息,构造了高强度语义特征图用于实现精确目标检测。  相似文献   

8.
目的 在基于深度学习的目标检测模型中,浅层特征图包含更多细节但缺乏语义信息,深层特征图则相反,为了利用不同深度特征图的优势,并在此基础上解决检测目标的多尺度问题,本文提出基于卷积核金字塔和空洞卷积的单阶段目标检测模型。方法 所提模型采用多种方式融合特征信息,先使用逐像素相加方式融合多层不同大小的特征图信息,然后在通道维度拼接不同阶段的特征图,形成具有丰富语义信息和细节信息的信息融合特征层作为模型的预测层。模型在锚框机制中引入卷积核金字塔结构,以解决检测目标的多尺度问题,采用空洞卷积减少大尺寸卷积核增加的参数量,合理地降低锚框数量。结果 实验结果表明,在PASCAL VOC2007测试数据集上,所提检测框架在300×300像素的输入上检测精度达到79.3% mAP(mean average precision),比SSD(single shot multibox detector)高1.8%,比DSSD(deconvolutional single shot detector)高0.9%。在UCAS-AOD遥感数据测试集上,所提模型的检测精度分别比SSD和DSSD高2.8%和1.9%。在检测速度上,所提模型在Titan X GPU上达到21帧/s,速度超过DSSD。结论 本文模型提出在两个阶段融合特征信息并改进锚框机制,不仅具有较快的检测速度和较高的精度,而且较好地解决了小目标以及重叠目标难以被检出的问题。  相似文献   

9.
目的 目前基于视觉信息的海浪要素检测方法分为基于立体视觉和基于视频/图像特征的检测方法,前者对浪高的解析不稳定、模型复杂、鲁棒性较差、不能很好地满足实际应用的需求,后者主要检测海浪的运动方向和浪高等级,无法获取精确的浪高值,其中基于图像特征的检测受限于先验知识,检测稳定性较差。为此,本文结合深度学习的特征学习机制,提出了一种面向近岸海浪视频的浪高自动检测方法。方法 从近岸海浪监控视频中提取视频帧图像,计算相邻两帧差分获取差分图像,通过数据预处理对静态图像集和差分图像集进行数据扩充;针对两类图像集分别设计多层局部感知卷积神经网络NIN(network in network)结构并预训练网络模型;分别用预训练的网络模型提取静态图像和差分图像的高层特征来表达空间和时间维度的信息,并融合两类特征;通过预训练支持向量回归SVR(support vactor regerssion)模型完成浪高的自动检测。结果 实验结果表明,本文近岸海浪视频浪高检测方法在浪高检测上的平均绝对误差为0.109 5 m,平均相对误差为7.39%;从不同绝对误差范围内的测试集精度上可以看出,基于时间和空间信息融合的回归模型精度变化更加平稳,基于空间信息的NIN模型的精度变化幅度较大,因此本文方法有较好的检测稳定性。结论 通过预训练卷积神经网络提取近岸视频图像时间和空间信息融合的方式,有效弥补了人工设计特征的不完备性,对近岸视频的浪高检测具有较强的鲁棒性,在业务化检测需求范围内(浪高平均相对误差≤ 20%)有着较好的实用性。  相似文献   

10.
目的 针对现今主流one-stage网络框架在检测高帧率视频中的复杂目标场景时,无法兼顾检测精度和检测效率的问题,本文改进one-stage网络架构,并使用光流跟踪特征图,提出一种高效检测复杂场景的快速金字塔网络(snap pyramid network,SPNet)。方法 调查特征提取网络以及金字塔网络内部,实现特征矩阵及卷积结构完全可视化,找到one-stage网络模型有效提升检测小目标以及密集目标的关键因素;构建复杂场景检测网络SPNet,由骨干网络(MainNet)内置子网络跟踪器(TrackNet)。在MainNet部分,设计特征权重控制(feature weight control, FWC)模块,改进基本单元(basic block),并设计MainNet的核心网络(BackBone)与特征金字塔网络(feature pyramid network, FPN)架构结合的多尺度金字塔结构,有效提升视频关键帧中存在的小而密集目标的检测精度和鲁棒性;在TrackNet部分,内置光流跟踪器到BackBone,使用高精度的光流矢量映射BackBone卷积出的特征图,代替传统的特征全卷积网络架构,有效提升检测效率。结果 SPNet能够兼顾小目标、密集目标的检测性能,在目标检测数据集MS COCO(Microsoft common objects in context)和PASCAL VOC上的平均精度为52.8%和75.96%,在MS COCO上的小目标平均精度为13.9%;在目标跟踪数据集VOT(visual object tracking)上的平均精度为42.1%,检测速度提高到5070帧/s。结论 本文快速金字塔结构目标检测框架,重构了one-stage检测网络的结构,利用光流充分复用卷积特征信息,侧重于复杂场景的检测能力与视频流的检测效率,实现了精度与速度的良好平衡。  相似文献   

11.
郭川磊  何嘉 《计算机应用》2018,38(10):2833-2838
针对单阶段多边框目标检测(SSD)模型在以高交并比(IoU)评估平均检测精度(mAP)时出现的精度下降问题,提出一种使用转置卷积操作构建的循环特征聚合模型。该模型以SSD模型为基础,使用ResNet 101作为特征提取网络。首先,利用转置卷积操作扩大网络结构中深层特征图的尺寸,为浅层特征图引入对目标的高层抽象和上下文信息;其次,使用全连接卷积层减少浅层特征图在进行特征聚合时出现偏差的可能性;最后,将浅层特征图与表示了上下文信息的深层特征图拼接,并使用1×1卷积操作恢复通道数。特征聚合过程可以循环进行多次。实验结果表明,使用KITTI数据集,以交并比(IoU)为0.7评估平均检测精度,与原始SSD模型相比,循环特征聚合模型的检测精度提高了5.1个百分点;与已有的精度最高Faster R-CNN相比,检测精度提高了2个百分点。循环特征聚合模型能有效提升平均目标检测精度,生成高质量的边界框。  相似文献   

12.
目的 在施工现场,安全帽是最为常见和实用的个人防护用具,能够有效防止和减轻意外带来的头部伤害。但在施工现场的安全帽佩戴检测任务中,经常出现难以检测到小目标,或因为复杂多变的环境因素导致检测准确率降低等情况。针对这些问题,提出一种融合环境特征与改进YOLOv4(you only look once version 4)的安全帽佩戴检测方法。方法 为补充卷积池化等过程中丢失的特征,在保证YOLOv4得到的3种不同大小的输出特征图与原图经过特征提取得到的特征图感受野一致的情况下,将两者相加,融合高低层特征,捕捉更多细节信息;对融合后的特征图采用3×3卷积操作,以减小特征图融合后的混叠效应,保证特征稳定性;为适应施工现场的各种环境,利用多种数据增强方式进行环境模拟,并采用对抗训练方法增强模型的泛化能力和鲁棒性。结果 提出的改进YOLOv4方法在开源安全帽佩戴检测数据集(safety helmet wearing dataset,SHWD)上进行测试,平均精度均值(mean average precision,mAP)达到91.55%,较当前流行的几种目标检测算法性能有所提升,其中相比于YOLOv4,mAP提高了5.2%。此外,改进YOLOv4方法在融合环境特征进行数据增强后,mAP提高了4.27%,在各种真实环境条件下进行测试时都有较稳定的表现。结论 提出的融合环境特征与改进YOLOv4的安全帽佩戴检测方法,以改进模型和数据增强的方式提升模型准确率、泛化能力和鲁棒性,为安全帽佩戴检测提供了有效保障。  相似文献   

13.
当前目标检测算法对小目标检测存在特征信息易丢失的问题,利用网络处理高分辨率特征图数据可以缓解,但存在语义信息不足和计算负担大的缺点。为弥补这些缺点,提出一种有效处理高分辨率特征图、多深度子网并行连接的特征提取网络。构建输入图像金字塔,搭建多深度分支子网并行连接的结构,使用浅层网络处理图像金字塔中高分辨率特征图,深层网络处理低分辨率特征图,多分支同时运行并在中间位置进行两次特征融合,充分结合高分辨率特征信息和低分辨率语义信息;使用融合因子构建对小目标针对性强的多尺度特征融合结构,增强对小目标检测能力;使用注意力机制进一步提高特征提取能力。在公开数据集AI-TOD上进行实验表明,所设计的特征提取网络相较于其他常用特征提取网络对小目标的检测能力更强,在two-stage经典模型Faster-RCNN、one-stage经典模型SSD、YOLOv3以及anchor-free经典模型CenterNet上替换上原主干网络,检测平均精度mAP与原来相比分别提升了2.7、3.4、3.3、1.7个百分点,证明了所提网络结构的适用性和有效性。  相似文献   

14.
针对特征金字塔网络在多尺度与小目标检测上的问题,提出基于功能保持的特征金字塔目标检测网络.首先在主网络中选择特征图构建特征金字塔,针对不同尺度的特征图,通过功能保持融合模块自上而下地进行低损失的特征融合.功能保持融合模块有效保留高层的强语义信息,增强底层特征图对小目标的表示能力.再利用网络两个阶段的特征描述目标,提升检测精度.最后,充分利用上下文信息进一步增强对多尺度目标的判别能力.在PASCAL VOC公共数据集上的实验表明,文中网络检测效果较优.同时,通过检测效果图可看出,文中网络在目标遮挡、模糊等情况下的检测效果也较优.  相似文献   

15.
姜竣  翟东海 《计算机工程》2021,47(7):232-238,248
基于卷积神经网络目标检测算法的浅层特征图包含丰富的细节信息,但缺乏语义信息,而深层特征图则相反。为充分利用浅层和深层特征图特征,解决多尺度目标检测问题,提出一种新的单阶段目标检测算法(AFE-SSD)。以SSD算法为基础,分别对该算法中相邻的2个特征图进行特征融合,从而丰富浅层特征层的语义信息。通过对并行空洞卷积机制进行改进,构建多尺度特征提取模块,将融合后的特征图通入多尺度特征提取模块的方式丰富其多尺度信息,同时提升主干网络的特征提取能力。在PASCAL VOC2007测试集上的实验结果表明,AFE-SSD算法的mAP为79.8%,检测速度为58.8 frame/s,与SSD、DSSD算法相比,mAP分别提升了2.4和1.2个百分点,验证了所提特征融合方式及多尺度提取模块的有效性。  相似文献   

16.
目的 视频目标分割是在给定第1帧标注对象掩模条件下,实现对整个视频序列中感兴趣目标的分割。但是由于分割对象尺度的多样性,现有的视频目标分割算法缺乏有效的策略来融合不同尺度的特征信息。因此,本文提出一种特征注意金字塔调制网络模块用于视频目标分割。方法 首先利用视觉调制器网络和空间调制器网络学习分割对象的视觉和空间信息,并以此为先验引导分割模型适应特定对象的外观。然后通过特征注意金字塔模块挖掘全局上下文信息,解决分割对象多尺度的问题。结果 实验表明,在DAVIS 2016数据集上,本文方法在不使用在线微调的情况下,与使用在线微调的最先进方法相比,表现出更具竞争力的结果,J-mean指标达到了78.7%。在使用在线微调后,本文方法的性能在DAVIS 2017数据集上实现了最好的结果,J-mean指标达到了68.8%。结论 特征注意金字塔调制网络的视频目标分割算法在对感兴趣对象分割的同时,针对不同尺度的对象掩模能有效结合上下文信息,减少细节信息的丢失,实现高质量视频对象分割。  相似文献   

17.
目的 螺栓销钉是输电线路中至关重要的连接部件,螺栓的销钉缺失会导致输电线路中关键部件解体,甚至造成大规模停电事故。螺栓缺销检测属于小目标检测问题,由于其尺寸较小且背景复杂,现有的目标检测算法针对螺栓缺销的检测效果较差。为了提升输电线路中螺栓缺销的检测效果,本文以SSD(single shot multibox detector)算法为基础,提出了基于隔级交叉自适应特征融合的输电线路螺栓缺销检测方法。方法 在建立了螺栓缺销故障检测数据集后,首先在SSD网络中加入隔级交叉特征金字塔结构,增强特征图的视觉信息和语义信息;其次,引入自适应特征融合机制进行特征图二次融合,不同尺度的特征图以自适应学习到的权重进行加权特征融合,有效提升螺栓缺销的检测效果;最后,对原始的SSD网络中的先验框尺寸进行调整,使其大小和长宽比更加适合螺栓目标。结果 实验结果表明,本文方法在正常螺栓类的检测精度达到87.93%,螺栓缺销类的检测精度达到89.15%。与原始的SSD网络相比,检测精度分别提升了2.71%和3.99%。结论 本文方法针对螺栓缺销故障的检测精度较高,较原始SSD网络的检测精度有明显提升,与其他方法相...  相似文献   

18.
基于无锚点的单阶段全卷积目标检测算法(FCOS)无需生成大量的锚点避免了样本不平衡问题,但FCOS可能更适应于某一特定场景。为了增强特征融合,并提高目标检测的准确性,提出了全卷积目标检测算法FCOS的改进算法ConFCOS。该算法设计了一个增强的特征金字塔网络,引入带有全局上下文信息的注意力模块和空洞卷积模块,以减少特征融合过程中的信息衰减。另外,构建了一个级联检测头来检测对象,对检测的边界框进行细化来提高分类和回归的置信度。此外,针对提出的ConFCOS的损失函数进行了优化以提高目标检测的准确率。在COCO数据集上进行的实验表明,ConFCOS的准确度比FCOS提高了1.6个百分点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号