基于模态预融合的三维指称表达理解 |
| |
引用本文: | 袁琨鹏,米金鹏,陈智谦.基于模态预融合的三维指称表达理解[J].计算机应用研究,2023,40(12). |
| |
作者姓名: | 袁琨鹏 米金鹏 陈智谦 |
| |
作者单位: | 上海理工大学,上海理工大学,上海理工大学 |
| |
基金项目: | 国家自然科学基金重点资助项目(92048205);国家自然科学基金资助项目(62106026);中国博士后科学基金资助项目(2020M683243) |
| |
摘 要: | 三维指称表达理解(3D VG)旨在通过理解指称表达来准确定位三维场景中的目标对象。现有3D VG研究通过引入文本和视觉分类任务优化文本和视觉编码器,这种方法可能由于文本和视觉特征的语义不对齐,从而导致模型难以在场景中定位文本描述的视觉对象。此外,3D VG数据集有限的数据量和复杂的模型结构往往导致模型过拟合。针对上述问题提出MP3DVG模型,通过学习统一的多模态特征表示完成单模态分类和3D VG任务,并降低模型的过拟合。基于跨模态特征交互提出TGV和VGT模块,在单模态任务之前预融合文本和视觉特征,减小不同模态特征因语义不对齐带来的不利影响。基于线性分类器可评价样本特征多样性的特性,提出周期性初始化的辅助分类器,并通过动态损失调节项自适应地调节样本损失,弱化模型的过拟合。大量实验结果表明所提方法的优越性,相比于MVT模型,MP3DVG在Nr3D和Sr3D数据集上性能分别提升1.1%和1.8%,模型的过拟合现象得到显著改善。
|
关 键 词: | 三维指称表达理解 多模态融合 过拟合 注意力 |
收稿时间: | 2023/4/16 0:00:00 |
修稿时间: | 2023/11/12 0:00:00 |
|
| 点击此处可从《计算机应用研究》浏览原始摘要信息 |
|
点击此处可从《计算机应用研究》下载全文 |
|