首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
目的 人群密度估计任务是通过对人群特征的提取和分析,估算出密度分布情况和人群计数结果。现有技术运用的CNN网络中的下采样操作会丢失部分人群信息,且平均融合方式会使多尺度效应平均化,该策略并不一定能得到准确的估计结果。为了解决上述问题,提出一种新的基于对抗式扩张卷积的多尺度人群密度估计模型。方法 利用扩张卷积在不损失分辨率的情况下对输入图像进行特征提取,且不同的扩张系数可以聚集多尺度上下文信息。最后通过对抗式损失函数将网络中提取的不同尺度的特征信息以合作式的方式融合,得到准确的密度估计结果。结果 在4个主要的人群计数数据集上进行对比实验。在测试阶段,将测试图像输入训练好的生成器网络,输出预测密度图;将密度图积分求和得到总人数,并以平均绝对误差(MAE)和均方误差(MSE)作为评价指标进行结果对比。其中,在ShanghaiTech数据集上Part_A的MAE和MSE分别降至60.5和109.7,Part_B的MAE和MSE分别降至10.2和15.3,提升效果明显。结论 本文提出了一种新的基于对抗式扩张卷积的多尺度人群密度估计模型。实验结果表明,在人群分布差异较大的场景中构建的算法模型有较好的自适应性,能根据不同的场景提取特征估算密度分布,并对人群进行准确计数。  相似文献   

2.
杜培德  严华 《计算机应用》2021,41(2):537-543
针对严重的尺度变化和遮挡导致在不同密集场景人群计数任务中性能差的问题,在密集场景识别网络(CSRNet)的基础上通过增加多尺度特征融合结构并引入空间注意力机制,提出了一种多尺度空间注意力特征融合网络(MAFNet)。在MAFNet进行特征提取之前,需要对添加了人头标记的场景图进行高斯滤波生成真实密度图;此外,MAFNet还通过联合使用两种基本损失函数的方法来约束密度估计图与真实密度图的一致性。接着,MAFNet以多尺度特征融合结构为主干,首先采用边提取多尺度特征边融合的策略得到多尺度融合特征图,然后使用空间注意力模块对特征图进行校准和再融合,之后通过扩张卷积生成密度估计图,最后对密度估计图逐像素积分得到场景中的人数。为了验证所提出模型的有效性,在四个人群计数数据集(ShanghaiTech、UCF_CC_50、UCF_QRNF和World-Expo’10)上进行了评估。其中ShanghaiTech数据集PartB的实验结果显示,MAFNet与CSRNet相比,平均绝对误差(MAE)降低了34.9%,均方误差(MSE)降低了29.4%。在多个数据集上的实验结果表明,采用注意力机制和多尺度特征融合策略使MAFNet可以提取更多细节信息,减少尺度变化和遮挡带来的影响。  相似文献   

3.
目的 针对现实场景中跟踪目标背景复杂、光照变化、快速运动、旋转等问题,提出自适应多特征融合的相关滤波跟踪算法。方法 提取目标的HOG(histogram of oriented gradients)特征和利用卷积神经网络提取高、低层卷积特征,借助一种自适应阈值分割方法评估每种特征的有效性,得到特征融合的权重比。根据权重系数融合每种特征的响应图,并据此得到目标的新估计位置,利用尺度相关滤波器计算目标尺度,得到目标尺度完成跟踪。结果 在OTB(object tracking benchmark)-2013公开数据集上进行实验,在对多特征融合进行分析的基础上,测试了本文算法在11种不同属性下的跟踪性能,并与当前流行的7种算法进行对比分析。结果表明,本文算法的成功率和精确度均排名第1,相较于基准算法DSST (discriminative scale space tracking)跟踪精确度提高了4%,成功率提高了6%。在复杂场景下比其他主流算法更具有鲁棒性。结论 本文算法以DSST相关滤波跟踪器为基准算法,借助自适应阈值分割方法评估每种特征的有效性,自适应融合两层卷积特征和HOG特征,使得判别性越强的单一特征融合权重越大,较好表达了目标的外观模型,在背景复杂、目标消失、光照变化、快速运动、旋转等场景下表现出较强的跟踪准确性。  相似文献   

4.
分块策略实现图像椒盐噪声密度估计   总被引:1,自引:1,他引:0       下载免费PDF全文
目的 椒盐噪声是造成图像污染的常见因素之一,椒盐噪声密度的估计对椒盐去噪过程中滤波窗口大小的选择具有指导作用。为此提出了一种基于分块策略的椒盐噪声密度估计算法。方法 首先对图像按行列等分后形成多个图像子块,统计每个子块中灰度为0或255的像素点个数并排序,然后根据排序后个数差分值函数特征对子块进行筛选,最后将所有候选子块噪声密度估计值的中值作为对整幅图像噪声密度的估计。结果 为验证算法的有效性,选取了两组不同类型的图像进行仿真,与现有椒盐噪声密度估计算法对比噪声密度估计结果。仿真实验结果表明,当图像自身包含较多灰度为0或255的像素点时,本文算法的噪声密度估计精度优于现有各种算法,标准差比现有算法小近一个数量级。当图像自身不包含灰度为0或255的像素点时,本文算法也能达到现有算法中最优的估计效果。结论 本文算法不仅能准确估计不同强度下的噪声密度,而且适用于自身包含灰度为0或255的像素点多的椒盐噪声图像。  相似文献   

5.
邓远志  胡钢 《测控技术》2020,39(6):108-114
轨道交通作为城市中主要的运输方式之一,客流量大,易因拥挤而引发人群骚乱、踩踏等安全事故,并引发一系列公共安全问题,造成重大人员伤亡和财产损失。利用监控图像及其相应标注数据行模型监督训练,训练可融合高低阶特征图的卷积神经网络,对图像中不同尺度人群的底层特征高分辨率和高层特征的高语义信息进行融合,达到可预测多尺度图像的人群密度图和估计人群人数的目的。结合几何适应高斯核以及人群透视图,生成的人群密度图能表达三维真实场景中的人群密度分布情况。通过增广训练数据集,增强网络泛化能力,提高网络的鲁棒性。所提出的深度特征金字塔卷积神经网络模型能够提高人群密度估计的准确率,便于人群预警管理系统尽早发现拥挤踩踏事故的端倪,给有关部门采取相关措施提供帮助。  相似文献   

6.
目的 场景图能够简洁且结构化地描述图像。现有场景图生成方法重点关注图像的视觉特征,忽视了数据集中丰富的语义信息。同时,受到数据集长尾分布的影响,大多数方法不能很好地对出现概率较小的三元组进行推理,而是趋于得到高频三元组。另外,现有大多数方法都采用相同的网络结构来推理目标和关系类别,不具有针对性。为了解决上述问题,本文提出一种提取全局语义信息的场景图生成算法。方法 网络由语义编码、特征编码、目标推断以及关系推理等4个模块组成。语义编码模块从图像区域描述中提取语义信息并计算全局统计知识,融合得到鲁棒的全局语义信息来辅助不常见三元组的推理。目标编码模块提取图像的视觉特征。目标推断和关系推理模块采用不同的特征融合方法,分别利用门控图神经网络和门控循环单元进行特征学习。在此基础上,在全局统计知识的辅助下进行目标类别和关系类别推理。最后利用解析器构造场景图,进而结构化地描述图像。结果 在公开的视觉基因组数据集上与其他10种方法进行比较,分别实现关系分类、场景图元素分类和场景图生成这3个任务,在限制和不限制每对目标只有一种关系的条件下,平均召回率分别达到了44.2%和55.3%。在可视化实验中,相比性能第2的方法,本文方法增强了不常见关系类别的推理能力,同时改善了目标类别与常见关系的推理能力。结论 本文算法能够提高不常见三元组的推理能力,同时对于常见的三元组也具有较好的推理能力,能够有效地生成场景图。  相似文献   

7.
人群密度自动估计作为人群控制和管理的方法,是当前视频监控中的一个重要研究领域。现有的方法通过提取复杂的特征来进行人群密度估计,由于人群遮挡、透视效果和环境复杂等条件限制,难以满足实际应用中的需求,而深度卷积神经网络在特征学习上具有较强的能力。提出了一种基于深度卷积神经网络DCNN(Deep Convolution Neural Network)的方法来进行自然场景下人群密度估计。首先,为了消除摄像机透视效果,以图像中行人身高作为尺度基准,将图像分成多个子图像块。其次,设计一种新的深度卷积神经网络结构,利用多种不同的卷积核提取人群图像的深层次特征进行人群密度估计。实验结果证明该方法在自然场景下人群密度估计具有良好的稳定性和鲁棒性。  相似文献   

8.
目的 针对行人轨迹预测问题,已有的几种结合场景信息的方法基于合并操作通过神经网络隐式学习场景与行人运动的关联,无法直观地解释场景对单个行人运动的调节作用。除此之外,基于图注意力机制的时空图神经网络旨在学习全局模式下行人之间的社会交互,在人群拥挤场景下精度不佳。鉴于此,本文提出一种场景限制时空图卷积神经网络(scene-constrained spatial-temporal graph convolutional neural network,Scene-STGCNN)。方法 Scene-STGCNN由运动模块、基于场景的微调模块、时空卷积和时空外推卷积组成。运动模块以时空图卷积提取局部行人时空特征,避免了时空图神经网络在全局模式下学习交互的局限性。基于场景的微调模块将场景信息嵌入为掩模矩阵,用来调节运动模块生成的中间运动特征,具备实际场景下的物理解释性。通过最小化核密度估计下真实轨迹的负对数似然,增强Scene-STGCNN输出的多模态性,减少预测误差。结果 实验在公开数据集ETH (包含ETH和HOTEL)和UCY (包含UNIV、ZARA1和ZARA2)上与其他7种主流方法进行比较,就平均值而言,相对于性能第2的模型,平均位移误差(average displacement error,ADE)值减少了12%,最终位移误差(final displacement error,FDE)值减少了9%。在同样的数据集上进行了消融实验以验证基于场景的微调模块的有效性,结果表明基于场景的微调模块能有效建模场景对行人轨迹的调节作用,从而减小算法的预测误差。结论 本文提出的场景限制时空图卷积网络能有效融合场景和行人运动,在学习局部模式下行人交互的同时基于场景特征对轨迹特征做实时性调节,相比于其他主流方法,具有更优的性能。  相似文献   

9.
由于牧场牛只分布不均以及尺度变化大,传统的目标计数算法在畜牧领域计数精度不高,且用于研究的牛只数据集较少。针对这些问题创建了一个用于牛只密度估计的数据集,并提出了一种基于多尺度残差视觉信息融合的牧场牛只数量估计方法。该方法利用多个并列且空洞率不同的空洞卷积提取牛只目标的多尺度特征,并将残差结构与小空洞率卷积相结合,设计出更适合牛只活体计数的深度神经网络,从而缓解了由空洞卷积带来的“网格效应”的影响,同时能更好地适应牛只的多尺度变化。在牛只密度数据集中,该方法取得了最低的平均绝对误差(MAE)和均方根误差(RMSE)。此外,在密集人群数据集中,该方法的MAE和RMSE也属于最优或次优结果。实验结果表明,该方法不仅适用于牛只场景的数量估计,在人群密度估计中也有较高的准确性和鲁棒性。  相似文献   

10.
目的 人体姿态估计旨在识别和定位不同场景图像中的人体关节点并优化关节点定位精度。针对由于服装款式多样、背景干扰和着装姿态多变导致人体姿态估计精度较低的问题,本文以着装场景下时尚街拍图像为例,提出一种着装场景下双分支网络的人体姿态估计方法。方法 对输入图像进行人体检测,得到着装人体区域并分别输入姿态表示分支和着装部位分割分支。姿态表示分支通过在堆叠沙漏网络基础上增加多尺度损失和特征融合输出关节点得分图,解决服装款式多样以及复杂背景对关节点特征提取干扰问题,并基于姿态聚类定义姿态类别损失函数,解决着装姿态视角多变问题;着装部位分割分支通过连接残差网络的浅层特征与深层特征进行特征融合得到着装部位得分图。然后使用着装部位分割结果约束人体关节点定位,解决服装对关节点遮挡问题。最后通过姿态优化得到最终的人体姿态估计结果。结果 在构建的着装图像数据集上验证了本文方法。实验结果表明,姿态表示分支有效提高了人体关节点定位准确率,着装部位分割分支能有效避免着装场景中人体关节点误定位。在结合着装部位分割优化后,人体姿态估计精度提高至92.5%。结论 本文提出的人体姿态估计方法能够有效提高着装场景下的人体姿态估计精度,较好地满足虚拟试穿等实际应用需求。  相似文献   

11.
单个图像中的人群计数在计算机视觉领域中备受关注,因为其在公共安全方面具有重要作用.例如,在人群聚集的场景中监控设备可以实时监测人群数量变化,对过度拥挤和异常情况进行预警以预防安全事故的发生.然而,由于受到遮挡、透视扭曲、尺度变化和背景干扰的严重影响,在单个图像中对人群计数的预测要达到较高精确度是极其困难的,其面临着巨大的挑战.在本文中,我们提出了一个名为FF-CAM的创新性模型来计算图像中的人群数量.它首先将主网络低层的特征图与高层的特征图合并,实现不同尺度的特征融合,且无需额外的分支或子任务,解决了由于透视导致的尺度多样性问题.随后融合的特征图被送入通道注意力模块以优化不同特征的融合过程,并进行特征通道的重新校准以充分使用全局和空间信息.此外,我们在网络的末端利用扩张卷积来获得高质量的人群密度图,扩张卷积层扩大了感受野,其输出包含更详细的空间信息和全局信息,不会降低空间分辨率.最后,我们加入基于SSIM的损失函数用于比较估计人群密度图和真值的局部相关性,以及基于回归人数的损失函数用于比较估计人群数量与真实人数之间的差异.我们的FF-CAM在UCF_CC_50数据集、ShanghaiTech数据集和UCF_QRNF数据集中进行训练并测试,获得了出色的结果.在UCF_CC_50数据集上比现有方法的MAE提高了4.5%,MSE提高了3.8%.  相似文献   

12.
为了提升人群图像的计数精度,设计一种多层级多任务深度卷积网络。多层级神经网络由卷积和上采样的组合方式构成,该网络的优点在于结合浅层网络提取的细节信息和深层网络提取的高阶语义信息。在此基础上,使用多任务学习的方法提升网络性能,多任务学习分为两个部分:人群密度估计任务和人群密度等级分类任务。网络的高分辨率层与人群密度估计任务相连,网络的深层与人群密度等级分类任务相连。将两个任务的损失融合并构成新的损失函数。实验在人群计数公共数据集ShanghaiTech、WorldExpo’10和UCF_CC_50上进行,实验结果表明,该网络在人群计数上具有较好的准确率和鲁棒性。  相似文献   

13.
为了进一步提高密集人群计数任务的计数精度,提出一种利用深度语义特征逐步降维重建的密集人群计数网络。前端采用深度卷积网络得到基本的深度语义特征;后端采用基于空洞卷积的多尺度特征融合块来丰富深度语义特征。通过语义重建块与上采样相结合,在进行多次降维重建以后生成与原始图像相同分辨率的人群密度图,并由此得到人群数量。将该模型在公开的数据集ShanghaiTech、UCF_CC_50、UCF-QNRF上与历年的主要方法进行对比,该方法无论是在人群计数精度还是密度图质量上都体现出了明显的优势,同时在多个数据上的验证实验表明模型具有较好的鲁棒性。  相似文献   

14.
人群计数技术以估计人群图片或视频中的人数为目标,可以有效预防人群踩踏事故的发生,广泛应用于安防预警、城市规划及大型集会管理等领域。然而,由于人群尺度变化、背景干扰、人群分布不均、遮挡和透视效应等因素的影响,单幅图片的人群计数仍是一项非常具有挑战性的任务。针对人群计数中多尺度变化和背景干扰问题,提出一种抗背景干扰的多尺度人群计数算法。以VGG16网络结构为基础,引入特征金字塔构建多尺度特征融合骨干网络解决人群多尺度变化问题,设计Double-Head-CC结构对融合后的特征图进行前景背景分割和密度图预测以抑制背景干扰。基于密度图的局部相关性和多任务学习,定义多重损失函数和多任务联合损失函数进行网络优化。在ShanghaiTech、UCF-QNRF和JHU-CROWD++数据集上进行训练和评测,实验结果表明,该算法能够很好地预测人群密度分布和人群数量,具有较高的准确性,且鲁棒性强、泛化性能良好。  相似文献   

15.
Wang  Weixing  Liu  Quanli  Wang  Wei 《Applied Intelligence》2022,52(2):1825-1837

Statistics on crowds in crowded scenes can reflect the density level of crowds and provide safety warnings. This is a laborious task if conducted manually. In recent years, automated crowd counting has received extensive attention in the computer vision field. However, this task is still challenging mainly due to the serious occlusion in crowds and large appearance variations caused by the viewing angles of cameras. To overcome these difficulties, a pyramid-dilated deep convolutional neural network for accurate crowd counting called PDD-CNN is proposed. PDD-CNN is based on a VGG-16 network that is designed to generate dense attribute feature maps from an image with an arbitrary size or resolution. Then, two pyramid dilated modules are adopted, each consisting of four parallel dilated convolutional layers with different rates and a parallel average pooling layer to capture the multiscale features. Finally, three cascading dilated convolutions are used to regress the density map and perform accurate count estimation. In addition, a novel training loss, combining the Euclidean loss with the structural similarity loss, is employed to attenuate the blurry effects of density map estimation. The experimental results on three datasets (ShanghaiTech, UCF_CC_50, and UCF-QNRF) demonstrate that the proposed PDD-CNN produces high-quality density maps and achieves a good counting performance.

  相似文献   

16.
单张图片和监控视频中的人群计数问题在近年来受到了越来越多的关注。尺度的变化和人群遮挡等问题,导致人群计数是一项十分具有挑战性的任务,但是深度卷积神经网络被证明能有效地解决这一问题。文中提出了一种单列多尺度的卷积神经网络,该网络提供了一种数据驱动的深度学习方法,能够理解各种不同的场景,并能进行精确的计数估计。该网络模型主要由作为二维特征提取的前端与中端,和用来还原密度图的后端组成。其中,使用堆叠池代替最大池化层,在不引入额外参数的前提下增加了模型的尺度不变性。网络模型前端采用部分VGG-16结构;中端采用FME(特征聚合模块),用来打破不同列之间的独立,以更好地提取多尺度特征信息;后端采用3列5层的不同扩张率的空洞卷积,在保持分辨率不变的情况下增加感受野,生成更高质量的人群密度图,并引入一种相对人数损失,以提升稀疏密度人群情况下模型的性能。该模型在两个最具挑战性的人群计数数据集上都取得了很好的效果。实验结果表明,在公开人群计数数据集ShanghaiTech的两个子集和UCF_CC_50上,该方法的平均绝对误差(MAE)和均方误差(MSE)分别是66.2和103.0、8.7和13.4、251.0和329.5,性能比传统人群计数方法更好。与其他模型相比,该模型拥有更高的精度和更好的鲁棒性,对稀疏人数图像有着更好的计数效果。  相似文献   

17.
目的 视觉假体通过向盲人体内植入电极刺激视神经产生光幻视,盲人所能感受到的物体只是大体轮廓,对物体识别率低,针对视觉假体中室内应用场景的特点,提出一种快速卷积神经网络图像分割方法对室内场景图像进行分割,通过图像分割技术把物品大致的位置和轮廓显示出来,辅助盲人识别。方法 构建了用于室内场景图像分割的FFCN(fast fully convolutional networks)网络,通过层间融合的方法,避免连续卷积对图像特征信息的损失。为了验证网络的有效性,创建了室内环境中的基本生活物品数据集(以下简称XAUT数据集),在原图上通过灰度标记每个物品的类别,然后附加一张颜色表把灰度图映射成伪彩色图作为语义标签。采用XAUT数据集在Caffe(convolutional architecture for fast feature embedding)框架下对FFCN网络进行训练,得到适应于盲人视觉假体的室内场景分割模型。同时,为了对比模型的有效性,对传统的多尺度融合方法FCN-8s、FCN-16s、FCN-32s等进行结构微调,并采用该数据集进行训练得到适用于室内场景分割的相应算法模型。结果 各类网络的像素识别精度都达到了85%以上,均交并比(MIU)均达到60%以上,其中FCN-8s at-once网络的均交并比最高,达到70.4%,但其分割速度仅为FFCN的1/5。在其他各类指标相差不大的前提下,FFCN快速分割卷积神经网络上平均分割速度达到40帧/s。结论 本文提出的FFCN卷积神经网络可以有效利用多层卷积提取图像信息,避免亮度、颜色、纹理等底层信息的影响,通过尺度融合技术可以很好地避免图像特征信息在网络卷积和池化中的损失,相比于其他FCN网络具有更快的速度,有利于提高图像预处理的实时性。  相似文献   

18.
针对现有人群计数算法采用同步人工优化深度学习网络,忽略了网络学习的负面信息,导致大量冗余参数甚至过拟合,进而影响到计数准确性的问题,提出基于多列卷积神经网络MCNN(Multi-column Convolution Neural Network)的参数异步更新算法.首先将单帧图像输入网络,经过三列卷积分别提取不同尺度特...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号