排序方式: 共有1条查询结果,搜索用时 31 毫秒
1
1.
目前在计算机视觉领域,视频行为识别技术已经取得了一定的发展,但仍有一定改进的空间。为解决当下行为识别领域的识别精度问题,提出一种融合CNN与时空分离ViT的网络模型,来提高行为分类识别的准确率。该模型主要将传统ViT模型的编码器结构演变为时间编码器和空间编码器,将时间和空间编码器串联提取视频特征后与CNN卷积所提取的特征进行融合来提高识别效果。实验的结果表明,融合CNN与时空分离ViT的网络模型在识别效果上具有一定的优越性,为人体行为识别算法设计提供了新思路。 相似文献
1