基于模态预融合的三维指称表达理解期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于模态预融合的三维指称表达理解

引用本文：	袁琨鹏,米金鹏,陈智谦.基于模态预融合的三维指称表达理解[J].计算机应用研究,2023,40(12).

作者姓名：	袁琨鹏米金鹏陈智谦

作者单位：	上海理工大学,上海理工大学,上海理工大学

基金项目：	国家自然科学基金重点资助项目(92048205);国家自然科学基金资助项目(62106026);中国博士后科学基金资助项目(2020M683243)

摘要：	三维指称表达理解（3D VG）旨在通过理解指称表达来准确定位三维场景中的目标对象。现有3D VG研究通过引入文本和视觉分类任务优化文本和视觉编码器，这种方法可能由于文本和视觉特征的语义不对齐，从而导致模型难以在场景中定位文本描述的视觉对象。此外，3D VG数据集有限的数据量和复杂的模型结构往往导致模型过拟合。针对上述问题提出MP3DVG模型，通过学习统一的多模态特征表示完成单模态分类和3D VG任务，并降低模型的过拟合。基于跨模态特征交互提出TGV和VGT模块，在单模态任务之前预融合文本和视觉特征，减小不同模态特征因语义不对齐带来的不利影响。基于线性分类器可评价样本特征多样性的特性，提出周期性初始化的辅助分类器，并通过动态损失调节项自适应地调节样本损失，弱化模型的过拟合。大量实验结果表明所提方法的优越性，相比于MVT模型，MP3DVG在Nr3D和Sr3D数据集上性能分别提升1.1%和1.8%，模型的过拟合现象得到显著改善。
关键词：	三维指称表达理解多模态融合过拟合注意力
收稿时间：	2023/4/16 0:00:00
修稿时间：	2023/11/12 0:00:00

	点击此处可从《计算机应用研究》浏览原始摘要信息
	点击此处可从《计算机应用研究》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏