首页 | 本学科首页   官方微博 | 高级检索  
     

基于多模态特征频域融合的零样本指称图像分割
引用本文:林浩然,刘春黔,薛榕融,谢勋伟,雷印杰. 基于多模态特征频域融合的零样本指称图像分割[J]. 计算机应用研究, 2024, 41(5)
作者姓名:林浩然  刘春黔  薛榕融  谢勋伟  雷印杰
作者单位:四川大学电子信息学院,四川大学电子信息学院,中国科学院光电技术研究所,中国电子科技集团公司第十研究所,四川大学电子信息学院
基金项目:国家自然科学基金资助项目(62276176)
摘    要:为了解决语义分割应用到现实世界的下游任务时无法处理未定义类别的问题,提出了指称对象分割任务,该任务根据自然语言文本的描述找到图像中对应的目标。现有方法大多使用一个跨模态解码器来融合从视觉编码器和语言编码器中独立提取的特征,但是这种方法无法有效利用图像的边缘特征且训练复杂。CLIP(contrastive language-image pre-training)是一个强大的预训练视觉语言跨模态模型,能够有效提取图像与文本特征,因此提出一种在频域融合CLIP编码后的多模态特征方法。首先,使用无监督模型对图像进行粗粒度分割,并提取自然语言文本中的名词用于后续任务。接着利用CLIP的图像编码器与文本编码器分别对图像与文本进行编码。然后使用小波变换分解图像与文本特征,可以充分利用图像的边缘特征与图像内的位置信息在频域进行分解并融合,并在频域分别对图像特征与文本特征进行融合,并将融合后的特征进行反变换。最后将文本特征与图像特征进行逐像素匹配,得到分割结果,并在常用的数据集上进行测试。实验结果证明,网络在无训练零样本的条件下取得了良好的效果,并且具有较好的鲁棒性与泛化能力。

关 键 词:指称图像分割   CLIP   小波变换   零样本
收稿时间:2023-08-11
修稿时间:2024-04-09

Zero-shot referring image segmentation based on multimodal feature frequency domain fusion
Lin Haoran,Liu Chunqian,Xue Rongrong,Xie Xunwei and Lei Yinjie. Zero-shot referring image segmentation based on multimodal feature frequency domain fusion[J]. Application Research of Computers, 2024, 41(5)
Authors:Lin Haoran  Liu Chunqian  Xue Rongrong  Xie Xunwei  Lei Yinjie
Affiliation:College of Electtonics and Information Engineering, Sichuan University,,,,
Abstract:
Keywords:referring image segmentation   CLIP   wavelet transform   zero-shot
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号