摘 要: | 针对目前大多数的动作识别方法使用深层网络训练模型导致模型参数量大、验证成本高以及语义信息利用不足等问题,提出一种基于轻量级语义信息融合的动作识别方法(LSIF-GCN),实现了模型的轻量化和对语义信息的充分利用。首先,LSIF-GCN将数据预处理后的关节流、速度流和骨骼流三种不同的输入信息编码至高维空间后,经过一层图卷积操作,以达到特征增强和降低维度的目的,再把三种信息流在通道维度上进行拼接融合。然后,为了充分利用语义信息提取不同关节之间潜在的权重关系,提出一种“瓶颈型”的四层图卷积模块。最后,采用分流网络设计的时间卷积模块,并引入自注意力机制,在减少模型参数量的同时也提高了网络的性能。该模型具有简单的结构和训练过程,便于在低成本的嵌入式设备的实时动作识别系统中部署。在NTU-RGB+D 60和NTU-RGB+D 120数据集上的大量实验表明,该方法不仅在识别精度和模型复杂度(参数量和GFLOPs)上优于目前一些主流的轻量级方法,而且与一些近几年的SOTA方法相比也具有一定的优势。
|