期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	1篇
免费	0篇

专业分类

自动化技术

1篇

出版年

2024年

1篇

排序方式： 共有1条查询结果，搜索用时 0 毫秒

面向多视角对比学习和语义增强的多模态预训练方法

汤嘉郭燕叶名玮吴桂兴《计算机科学》2024,(1):168-174

视觉语言预训练(VLP)模型通过对比学习等方法，在多模态任务上表现出了优异的性能。然而现有研究忽视了多视角描述带来的好处，以及语义和语法的重要性。为了解决这一问题，文中提出了多视角对比学习和语义增强多模态预训练(Multi-view learning and Semantic Enhancement for Multimodal pre-training, MulSE)模型。MulSE主要分为3个部分：1)在融合编码器模型中，引入带有生成器的多视角对比学习；2)提出了一种新的自监督视觉语言预训练任务——多模态文本重排序；3)增加并探寻最优MLM掩码比例，最大化利用视觉信息的能力。通过改进预训练任务，采取多种最优策略，并通过实验验证MulSE增强了模态内部和模态间的理解能力以及对文本语法和语义的理解能力。预训练仅用4×10⁶的数据量，在图文检索任务中就达到了先前大型数据集的效果，且其在视觉问答和视觉蕴含任务上的评估效果优于先前的理解式VLP模型。相似文献