首页 | 本学科首页   官方微博 | 高级检索  
     

标记分布与时空注意力感知的视频动作质量评估
作者姓名:张宇  徐天宇  米思娅
作者单位:东南大学计算机科学与工程学院, 南京 211189;东南大学软件学院, 南京 211189;东南大学网络空间安全学院, 南京 211189;紫金山实验室, 南京 211111
基金项目:国家重点研发计划资助(2018AAA0100104);江苏省自然科学基金项目(BK20211164)
摘    要:
目的 视频动作质量评估旨在评估视频中特定动作的执行情况和完成质量。自动化的动作质量评估能够有效地减少人力资源的损耗,可以更加精准、公正地对视频内容进行评估。传统动作质量评估方法主要存在以下问题: 1)视频中动作主体的多尺度时空特征问题; 2)认知差异导致的标记内在模糊性问题; 3)多头自注意力机制的注意力头冗余问题。针对以上问题,提出了一种能够感知视频序列中不同时空位置、生成细粒度标记的动作质量评估模型SALDL (self-attention and label distribution learning)。方法 SALDL提出Attention-Inc (attention-inception)结构,该结构通过Embedding、多头自注意力以及多层感知机将自注意力机制渐进式融入Inception结构,使模型能够获得不同尺度卷积特征之间的上下文信息。提出一种正负时间注意力模块PNTA (pos-neg temporal attention),通过PNTA损失挖掘时间注意力特征,从而减少自注意力头冗余并提取不同片段的注意力特征。SALDL模型通过标记增强及标记分布学习生成细粒度的动作质量标记。结果 提出的SALDL模型在MTL-AQA (multitask learning-action quality assessment)和JIGSAWS (JHU-ISI gesture and skill assessment working set)等数据集上进行了大量对比及消融实验,斯皮尔曼等级相关系数分别为0.941 6和0.818 3。结论 SALDL模型通过充分挖掘不同尺度的时空特征解决了多尺度时空特征问题,并引入符合标记分布的先验知识进行标记增强,达到了解决标记的内在模糊性问题以及注意力头的冗余问题。

关 键 词:动作质量评估(AQA)  Inception模块  自注意力机制  标记分布学习  斯皮尔曼等级相关系数
收稿时间:2022-12-06
修稿时间:2023-01-15
点击此处可从《中国图象图形学报》浏览原始摘要信息
点击此处可从《中国图象图形学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号