首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  免费   0篇
  国内免费   1篇
自动化技术   1篇
  2023年   1篇
排序方式: 共有1条查询结果,搜索用时 15 毫秒
1
1.
三维指称表达理解(3D VG)旨在通过理解指称表达来准确定位三维场景中的目标对象。现有3D VG研究通过引入文本和视觉分类任务优化文本和视觉编码器,这种方法可能由于文本和视觉特征的语义不对齐,从而导致模型难以在场景中定位文本描述的视觉对象。此外,3D VG数据集有限的数据量和复杂的模型结构往往导致模型过拟合。针对上述问题提出MP3DVG模型,通过学习统一的多模态特征表示完成单模态分类和3D VG任务,并降低模型的过拟合。基于跨模态特征交互提出TGV和VGT模块,在单模态任务之前预融合文本和视觉特征,减小不同模态特征因语义不对齐带来的不利影响。基于线性分类器可评价样本特征多样性的特性,提出周期性初始化的辅助分类器,并通过动态损失调节项自适应地调节样本损失,弱化模型的过拟合。大量实验结果表明所提方法的优越性,相比于MVT模型,MP3DVG在Nr3D和Sr3D数据集上性能分别提升1.1%和1.8%,模型的过拟合现象得到显著改善。  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号