摘 要: | 目前,基于卷积神经网络的动态手势识别方法取得了巨大的进展,但神经网络模型具有很大的参数量,计算成本和内存占用较大,很难应用在设备资源有限的场合.以减少计算量和参数量为出发点,提出了一种轻量级(2+1)D卷积结构.该结构在(2+1)D卷积结构的基础上,将其中的3D卷积替换为3D深度可分离卷积,在输出向量维度不变的前提下,进一步减少了(2+1)D卷积结构的计算量和参数量.为了弥补时空特征在表征动态手势上的不足,融合注意力机制模块,专注于对运动特征的提取,结合轻量级(2+1)D卷积结构提取的时空特征,可以更好地表征手势动作.实验结果表明,注意力机制模块的插入,在不增加太多额外计算和空间成本的前提下,进一步提高了模型的识别精度.基于以上结构构建的模型,在20BN-jester、EgoGesture和IsoGD数据集上分别取得了96.62%、91.83%和60.1%的识别精度,模型参数量和浮点计算量分别为5.05M和12.81GFLOPs,相比于其他手势识别模型,计算成本和内存占用大大减少,实时手势识别速度达到每秒70帧.
|