基于视听与字幕特征融合的暴力场景检测方法 |
| |
引用本文: | 周家豪,胡燕.基于视听与字幕特征融合的暴力场景检测方法[J].计算机应用与软件,2022(5):230-240. |
| |
作者姓名: | 周家豪 胡燕 |
| |
作者单位: | 武汉理工大学计算机科学与技术学院 |
| |
基金项目: | 湖北省自然科学基金项目(2019CFC919); |
| |
摘 要: | 在暴力场景检测任务中,现有的方法着重于对音频或视频的单模态特征进行研究。近年来,虽然基于视听融合的双模态特征已被应用于暴力场景检测并取得了不错的效果,但该方法仍然忽视了媒体中字幕所包含的信息。针对这种情况,提出一种融合视听与字幕信息多模态特征的分类模型用于暴力场景检测。通过基于可训练COPE特征提取的方法提取音频特征,并与基于CNN-LSTM的视觉特征和基于CNN-RNN的字幕特征进行融合。在公开暴力数据集上进行测试,实验表明提出的方法相比于现有方法取得了更高的mAP值,在暴力场景检测任务中表现较好。
|
关 键 词: | 暴力检测 多模态 特征融合 |
|
|