摘 要: | 为提高行人检测算法在实际应用中的准确率,提出在YOLOv4模型中融合Vision Transformer模型与深度可分离卷积的vit-YOLOv4模型。该模型将Vision Transformer模型加入YOLOv4模型的主干特征提取网络与空间金字塔池化层中,充分发挥该模型的多头注意力机制对图像特征进行预处理的能力;同时,用深度可分离卷积替换路径聚合网络中堆叠后的常规卷积,以便模型在后续的特征提取中能够提取出更多有用的特征。实验结果表明,vit-YOLOv4模型提高了行人检测的准确率,降低了漏检率,综合性能较优。
|