摘 要: | 基于深度模型的视频动作识别通常先对输入视频进行采样,然后对获得的视频帧进行特征表达,输出动作类别,因此视频帧采样方法对动作识别的效果有直接的影响。为了在采样到关键有效的特征同时,并增强视频运动信息,提出了一种基于特征级采样策略的局部—全局运动信息增强的动作识别网络(local-global motion enhancement network,LGMeNet)。首先,利用特征级采样模块对输入数据进行相同运动信息间隔均匀取帧;其次,局部运动特征提取模块使用相似性函数计算单帧短期运动特征;最后,全局运动特征提取模块利用LSTM网络计算多尺度长期运动特征。通过实验评估,LGMeNet在UCF101和Something-SomethingV1数据集上分别取得了97.7%和56.9%的精确度。结果表明,采用LGMeNet能够有效提升动作识别的效果,对进一步改进相关领域的研究具有重要意义。
|