首页 | 本学科首页   官方微博 | 高级检索  
     

基于多视图自适应3D骨架网络的工业装箱动作识别
引用本文:张学琪,胡海洋,潘开来,李忠金.基于多视图自适应3D骨架网络的工业装箱动作识别[J].中国图象图形学报,2024,29(5):1392-1407.
作者姓名:张学琪  胡海洋  潘开来  李忠金
作者单位:杭州电子科技大学计算机院, 杭州 310018
基金项目:国家自然科学基金项目(61572162,61802095);浙江省重点研发计划“领雁”项目(2023C01145);浙江省自然科学基金项目(LQ17F020003)
摘    要:目的 动作识别在工业生产制造中变得越来越重要。但在复杂的生产车间内,动作识别技术会受到环境遮挡、视角变化以及相似动作识别等干扰。基于此,提出一种结合双视图骨架多流网络的装箱行为识别方法。方法 将堆叠的差分图像(residual frames,RF)作为模型的输入,结合多视图模块解决人体被遮挡的问题。在视角转换模块中,将差分人体骨架旋转到最佳的虚拟观察角度,并将转换后的骨架数据传入3层堆叠的长短时记忆网络(long short-term memory,LSTM)中,将不同视角下的分类分数进行融合,得到识别结果。为了解决细微动作的识别问题,采用结合注意力机制的局部定位图像卷积网络,传入到卷积神经网络中进行识别。融合骨架和局部图像识别的结果,预测工人的行为动作。结果 在实际生产环境下的装箱场景中进行了实验,得到装箱行为识别准确率为92.31%,较大幅度领先于现有的主流行为识别方式。此外,该方法在公共数据集NTU(Nanyang Technological University)RGB+D上进行了评估,结果显示在CS(cross-subject)协议和CV(cross-view)协议中的性能分别达到了85.52%和93.64%,优于其他网络,进一步验证了本文方法的有效性和准确性。结论 本文提出了一种人体行为识别方法,能够充分利用多个视图中的人体行为信息,采用骨架网络和卷积神经网络模型相结合的方式,有效提高了行为识别的准确率。

关 键 词:动作识别  长短时记忆网络(LSTM)  双视图  自适应视图转换  注意力机制
收稿时间:2023/3/7 0:00:00
修稿时间:2023/9/4 0:00:00

Industrial box-packing action recognition based on multi-view adaptive 3D skeleton network
Zhang Xueqi,Hu Haiyang,Pan Kailai,Li Zhongjin.Industrial box-packing action recognition based on multi-view adaptive 3D skeleton network[J].Journal of Image and Graphics,2024,29(5):1392-1407.
Authors:Zhang Xueqi  Hu Haiyang  Pan Kailai  Li Zhongjin
Affiliation:School of Computer Science and Technology, Hangzhou Dianzi University, Hangzhou 310018, China
Abstract:
Keywords:action recognition  long short-term memory(LSTM)  dual-view  adaptive view transformation  attention mechanism
点击此处可从《中国图象图形学报》浏览原始摘要信息
点击此处可从《中国图象图形学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号