排序方式: 共有2条查询结果,搜索用时 15 毫秒
1
1.
2.
单个图像中的人群计数在计算机视觉领域中备受关注,因为其在公共安全方面具有重要作用.例如,在人群聚集的场景中监控设备可以实时监测人群数量变化,对过度拥挤和异常情况进行预警以预防安全事故的发生.然而,由于受到遮挡、透视扭曲、尺度变化和背景干扰的严重影响,在单个图像中对人群计数的预测要达到较高精确度是极其困难的,其面临着巨大的挑战.在本文中,我们提出了一个名为FF-CAM的创新性模型来计算图像中的人群数量.它首先将主网络低层的特征图与高层的特征图合并,实现不同尺度的特征融合,且无需额外的分支或子任务,解决了由于透视导致的尺度多样性问题.随后融合的特征图被送入通道注意力模块以优化不同特征的融合过程,并进行特征通道的重新校准以充分使用全局和空间信息.此外,我们在网络的末端利用扩张卷积来获得高质量的人群密度图,扩张卷积层扩大了感受野,其输出包含更详细的空间信息和全局信息,不会降低空间分辨率.最后,我们加入基于SSIM的损失函数用于比较估计人群密度图和真值的局部相关性,以及基于回归人数的损失函数用于比较估计人群数量与真实人数之间的差异.我们的FF-CAM在UCF_CC_50数据集、ShanghaiTech数据集和UCF_QRNF数据集中进行训练并测试,获得了出色的结果.在UCF_CC_50数据集上比现有方法的MAE提高了4.5%,MSE提高了3.8%. 相似文献
1