视觉语言模型引导的文本知识嵌入的小样本增量学习 |
| |
引用本文: | 姚涵涛,余璐,徐常胜.视觉语言模型引导的文本知识嵌入的小样本增量学习[J].软件学报,2024(5):2101-2119. |
| |
作者姓名: | 姚涵涛 余璐 徐常胜 |
| |
作者单位: | 1. 多模态人工智能系统全国重点实验室(中国科学院自动化研究所);2. 天津理工大学计算机科学与工程学院;3. 中国科学院大学人工智能学院 |
| |
基金项目: | 北京市自然科学基金(L201001,4222039);;国家自然科学基金(U21B2044,62202331,62376268); |
| |
摘 要: | 真实场景往往面临数据稀缺和数据动态变化的问题,小样本增量学习的目的是利用少量数据推理数据知识并减缓模型对于旧知识的灾难性遗忘.已有的小样本增量学习的算法(CEC和FACT等)主要是利用视觉特征来调整特征编码器或者分类器,实现模型对于新数据的迁移和旧数据的抗遗忘.但是少量数据的视觉特征往往难以建模一个类别的完整特征分布,导致上述算法的泛化能力较弱.相比于视觉特征,图像类别描述的文本特征具有较好的泛化性和抗遗忘性.因此,在视觉语言模型的基础上,研究基于文本知识嵌入的小样本增量学习,通过在视觉特征中嵌入具有抗遗忘能力的文本特征,实现小样本增量学习中新旧类别数据的有效学习.具体而言,在基础学习阶段,利用视觉语言模型抽取图像的预训练视觉特征和类别的文本描述,并通过文本编码器实现预训练视觉特征到文本空间的映射.进一步利用视觉编码器融合学习到的文本特征和预训练视觉特征抽象具有高辨别能力的视觉特征.在增量学习阶段,提出类别空间引导的抗遗忘学习,利用旧数据的类别空间编码和新数据特征微调视觉编码器和文本编码器,实现新数据知识学习的同时复习旧知识.在4个数据集(CIFAR-100, CUB-200, Car...
|
关 键 词: | 小样本增量学习 视觉语言模型 文本知识嵌入 类别空间引导的抗遗忘学习 |
|
|