期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

潘尔婷马泳黄珺樊凡李皞马佳义《中国图象图形学报》2021,26(8):1969-1977

目的随着高光谱成像技术的飞速发展,高光谱数据的应用越来越广泛,各场景高光谱图像的应用对高精度详细标注的需求也越来越旺盛。现有高光谱分类模型的发展大多集中于有监督学习,大多数方法都在单个高光谱数据立方中进行训练和评估。由于不同高光谱数据采集场景不同且地物类别不一致,已训练好的模型并不能直接迁移至新的数据集得到可靠标注,这也限制了高光谱图像分类模型的进一步发展。本文提出跨数据集对高光谱分类模型进行训练和评估的模式。方法受零样本学习的启发,本文引入高光谱类别标签的语义信息,拟通过将不同数据集的原始数据及标签信息分别映射至同一特征空间以建立已知类别和未知类别的关联,再通过将训练数据集的两部分特征映射至统一的嵌入空间学习高光谱图像视觉特征和类别标签语义特征的对应关系,即可将该对应关系应用于测试数据集进行标签推理。结果实验在一对同传感器采集的数据集上完成,比较分析了语义—视觉特征映射和视觉—语义特征映射方向,对比了5种基于零样本学习的特征映射方法,在高光谱图像分类任务中实现了对分类模型在不同数据集上的训练和评估。结论实验结果表明,本文提出的基于零样本学习的高光谱分类模型可以实现跨数据集对分类模型进行训练和评估,在高光谱图像分类任务中具有一定的发展潜力。相似文献

2.

面向乳腺超声计算机辅助诊断的两阶段深度迁移学习

下载免费PDF全文

贡荣麟施俊周玮珺汪程《中国图象图形学报》2022,27(3):898-910

目的为了提升基于单模态B型超声（B超）的乳腺癌计算机辅助诊断（computer-aided diagnosis,CAD）模型性能,提出一种基于两阶段深度迁移学习（two-stage deep transfer learning,TSDTL）的乳腺超声CAD算法,将超声弹性图像中的有效信息迁移至基于B超的乳腺癌CAD模型之中,进一步提升该CAD模型的性能。方法在第1阶段的深度迁移学习中,提出将双模态超声图像重建任务作为一种自监督学习任务,训练一个关联多模态深度卷积神经网络模型,实现B超图像和超声弹性图像之间的信息交互迁移;在第2阶段的深度迁移学习中,基于隐式的特权信息学习（learning using privilaged information,LUPI）范式,进行基于双模态超声图像的乳腺肿瘤分类任务,通过标签信息引导下的分类进一步加强两个模态之间的特征融合与信息交互;采用单模态B超数据对所对应通道的分类网络进行微调,实现最终的乳腺癌B超图像分类模型。结果实验在一个乳腺肿瘤双模超声数据集上进行算法性能验证。实验结果表明,通过迁移超声弹性图像的信息,TSDTL在基于B超的乳腺癌诊断任务中取得的平均分类准确率为87.84±2.08%、平均敏感度为88.89±3.70%、平均特异度为86.71±2.21%、平均约登指数为75.60±4.07%,优于直接基于单模态B超训练的分类模型以及多种典型迁移学习算法。结论提出的TSDTL算法通过两阶段的深度迁移学习,将超声弹性图像的信息有效迁移至基于B超的乳腺癌CAD模型,提升了模型的诊断性能,具备潜在的应用可行性。相似文献

3.

耦合保持投影哈希跨模态检索

下载免费PDF全文

闵康凌张国宾王磊李丹萍《中国图象图形学报》2021,26(7):1558-1567

目的基于哈希的跨模态检索方法因其检索速度快、消耗存储空间小等优势受到了广泛关注。但是由于这类算法大都将不同模态数据直接映射至共同的汉明空间,因此难以克服不同模态数据的特征表示及特征维度的较大差异性,也很难在汉明空间中同时保持原有数据的结构信息。针对上述问题,本文提出了耦合保持投影哈希跨模态检索算法。方法为了解决跨模态数据间的异构性,先将不同模态的数据投影至各自子空间来减少模态“鸿沟”,并在子空间学习中引入图模型来保持数据间的结构一致性;为了构建不同模态之间的语义关联,再将子空间特征映射至汉明空间以得到一致的哈希码;最后引入类标约束来提升哈希码的判别性。结果实验在3个数据集上与主流的方法进行了比较,在Wikipedia数据集中,相比于性能第2的算法,在任务图像检索文本（I to T）和任务文本检索图像（T to I）上的平均检索精度（mean average precision,mAP）值分别提升了6%和3%左右;在MIRFlickr数据集中,相比于性能第2的算法,优势分别为2%和5%左右;在Pascal Sentence数据集中,优势分别为10%和7%左右。结论本文方法可适用于两个模态数据之间的相互检索任务,由于引入了耦合投影和图模型模块,有效提升了跨模态检索的精度。相似文献

4.

选择性卷积特征融合的花卉图像分类

下载免费PDF全文

尹红符祥曾接贤段宾陈英《中国图象图形学报》2019,24(5):762-772

目的针对花卉图像标注样本缺乏、标注成本高、传统基于深度学习的细粒度图像分类方法无法较好地定位花卉目标区域等问题,提出一种基于选择性深度卷积特征融合的无监督花卉图像分类方法。方法构建基于选择性深度卷积特征融合的花卉图像分类网络。首先运用保持长宽比的尺寸归一化方法对花卉图像进行预处理,使得图像的尺寸相同,且目标不变形、不丢失图像细节信息;之后运用由ImageNet预训练好的深度卷积神经网络VGG-16模型对预处理的花卉图像进行特征学习,根据特征图的响应值分布选取有效的深度卷积特征,并将多层深度卷积特征进行融合;最后运用softmax分类层进行分类。结果在Oxford 102 Flowers数据集上做了对比实验,将本文方法与传统的基于深度学习模型的花卉图像分类方法进行对比,本文方法的分类准确率达85.55%,较深度学习模型Xception高27.67%。结论提出了基于选择性卷积特征融合的花卉图像分类方法,该方法采用无监督的方式定位花卉图像中的显著区域,去除了背景和噪声部分对花卉目标的干扰,提高了花卉图像分类的准确率,适用于处理缺乏带标注的样本时的花卉图像分类问题。相似文献

5.

结合域适应学习的糖尿病视网膜病变分级诊断

下载免费PDF全文

宋若仙曹鹏赵大哲《中国图象图形学报》2022,27(11):3356-3370

目的传统的糖尿病视网膜病变（糖网）（diabetic retinopathy,DR）依赖于早期病理特征的精确检测,但由于数据集缺乏病灶标记区域导致无法有效地建立监督性分类模型,引入其他辅助数据集又会出现跨域数据异质性问题;另外,现有的糖网诊断方法大多无法直观地从语义上解释医学模型预测的结果。基于此,本文提出一种端到端式结合域适应学习的糖网自动多分类方法,该方法协同注意力机制和弱监督学习加强优化。方法首先,利用已标记病灶区域的辅助数据训练病灶检测模型,再将目标域数据集的糖网诊断转化为弱监督学习问题,依靠多分类预测结果指导深度跨域生成对抗网络模型,提升跨域的样本图像质量,用于微调病灶检测模型,进而过滤目标域中一些无关的病灶样本,提升多分类分级诊断性能。最后,在整体模型中融合注意力机制,从医学病理诊断角度提供可解释性支持其分类决策。结果在公开数据集Messidor上进行糖网多分类评估实验,本文方法获得了71.2%的平均准确率和80.8%的AUC （area under curve）值,相比于其他多种方法具有很大优势,可以辅助医生进行临床眼底筛查。结论结合域适应学习的糖网分类方法在没有提供像素级病灶标注数据的情况下,只需要图像级监督信息就可以高效自动地对眼底图像实现分级诊断,从而避免医学图像中手工提取病灶特征的局限性和因疲劳可能造成漏诊或误诊问题,另外,为医生提供了与病理学相关的分类依据,获得了较好的分类效果。相似文献

6.

多核多示例学习的糖尿病视网膜病变诊断

下载免费PDF全文

任福龙曹鹏杨金柱万超赵大哲《中国图象图形学报》2018,23(4):552-563

目的在传统糖尿病视网膜病变（糖网）诊断系统中,微动脉瘤和出血斑病灶检测的精确性决定了最终诊断性能。目前的检测诊断方法为了保证高敏感性而产生了大量假阳性样本,由于数据集没有标注病灶区域导致无法有效地建立监督性分类模型以去除假阳性。为了解决监督性学习在糖网诊断中的问题,提出一种基于多核多示例学习的糖网病变诊断方法。方法首先,检测疑似的微动脉瘤和出血斑病灶区域,并将其视为多示例学习模型中的示例,而将整幅图像视为示例包,从而将糖网诊断转化为多示例学习问题;其次,提取病灶区域的特征对示例进行描述,并通过极限学习机（ELM）分类算法过滤不相关示例以提升后续多示例学习的分类性能;最后,构建多核图的多示例学习模型对健康图像和糖网病变图像进行分类,以实现糖网病变的诊断。结果通过对国际公共数据集MESSIDOR进行糖网病变诊断评估实验,获得的准确率为90.1%,敏感性为92.4%,特异性为91.4%,ROC（receiver operating characteristic）曲线下面积为0.932,相比其他算法具有较大性能优势。结论基于多核多示例学习方法在无需提供病灶标注的情况下,能够高效自动地对糖网病变进行诊断,从而既能避免医学图像中标注病灶的费时费力,又可以免除分类算法中假阳性去除的问题,获得较好的效果。相似文献

7.

基于主动样本精选与跨模态语义挖掘的图像情感分析

张红斌石皞炜熊其鹏侯婧怡《控制与决策》2022,37(11):2949-2958

图像情感分析是机器视觉领域的研究热点,它面临的关键问题是:标注者的主观差异导致情感标签明确的高质量样本匮乏,且异构图像特征间跨模态语义未有效利用.为此,提出基于主动样本精选与跨模态语义挖掘的图像情感分析模型ASRF²(active sample refinement & feature fusion):融合主动学习与样本精选思想,设计主动样本精选策略,优选情感标签明确的样本;对异构图像特征执行判别相关分析,生成能准确刻画图像情感内容的低维跨模态语义;采用跨模态语义训练Catboost模型,实现图像情感分析.在TwitterI与FI数据集上验证ASRF²模型,识别准确率分别达90.06%和75.77%,优于主流基线且实时效率良好.与基线相比,ASRF²模型仅需两类特征,参数调制简单,更易复现.ASR策略还具备一定的泛化性,可为基线模型提供优质训练样本,以改善识别性能. 相似文献

8.

加权KNN的图文数据融合分类

下载免费PDF全文

康丽萍孙显许光銮《中国图象图形学报》2016,21(7):854-864

目的图文数据在不同应用场景下的最佳分类方法各不相同,而现有语义级融合算法大多适用于图文数据分类方法相同的情况,若将其应用于不同分类方法时由于分类决策基准不统一导致分类结果不理想,大幅降低了融合分类性能。针对这一问题,提出基于加权KNN的融合分类方法。方法首先,分别利用softmax多分类器和多分类支持向量机(SVM)实现图像和文本分类,同时利用训练数据集各类别分类精确度加权后的图像和文本正确判别实例的分类决策值分别构建图像和文本KNN模型;再分别利用其对测试实例的图像和文本分类决策值进行预测,通过最邻近k个实例属于各类别的数目确定测试实例的分类概率,统一图像和文本的分类决策基准;最后利用训练数据集中图像和文本分类正确的数目确定测试实例中图像和文本分类概率的融合系数,实现统一分类决策基准下的图文数据融合。结果在Attribute Discovery数据集的图像文本对上进行实验,并与基准方法进行比较,实验结果表明,本文融合算法的分类精确度高于图像和文本各自的分类精确度,且平均分类精确度相比基准方法提高了4.45%;此外,本文算法对图文信息的平均整合能力相比基准方法提高了4.19%。结论本文算法将图像和文本不同分类方法的分类决策基准统一化,实现了图文数据的有效融合,具有较强的信息整合能力和较好的融合分类性能。相似文献

9.

自学习规则下的多聚焦图像融合

下载免费PDF全文

刘子闻罗晓清张战成《中国图象图形学报》2020,25(8):1637-1648

目的基于深度学习的多聚焦图像融合方法主要是利用卷积神经网络（convolutional neural network,CNN）将像素分类为聚焦与散焦。监督学习过程常使用人造数据集,标签数据的精确度直接影响了分类精确度,从而影响后续手工设计融合规则的准确度与全聚焦图像的融合效果。为了使融合网络可以自适应地调整融合规则,提出了一种基于自学习融合规则的多聚焦图像融合算法。方法采用自编码网络架构,提取特征,同时学习融合规则和重构规则,以实现无监督的端到端融合网络;将多聚焦图像的初始决策图作为先验输入,学习图像丰富的细节信息;在损失函数中加入局部策略,包含结构相似度（structural similarity index measure,SSIM）和均方误差（mean squared error,MSE）,以确保更加准确地还原图像。结果在Lytro等公开数据集上从主观和客观角度对本文模型进行评价,以验证融合算法设计的合理性。从主观评价来看,模型不仅可以较好地融合聚焦区域,有效避免融合图像中出现伪影,而且能够保留足够的细节信息,视觉效果自然清晰;从客观评价来看,通过将模型融合的图像与其他主流多聚焦图像融合算法的融合图像进行量化比较,在熵、Q_w、相关系数和视觉信息保真度上的平均精度均为最优,分别为7.457 4,0.917 7,0.978 8和0.890 8。结论提出了一种用于多聚焦图像的融合算法,不仅能够对融合规则进行自学习、调整,并且融合图像效果可与现有方法媲美,有助于进一步理解基于深度学习的多聚焦图像融合机制。相似文献

10.

结合迁移学习的轻量级指纹分类模型

下载免费PDF全文

甘俊英戚玲秦传波何国辉《中国图象图形学报》2019,24(7):1086-1095

目的目前的指纹分类模型存在操作繁琐、参数较多、所需数据规模大、无法充分利用指纹特征信息等问题,而进行快速准确的指纹分类在大型指纹识别系统中至关重要。方法传统的机器学习方法大多假设已标注数据与未标注数据的分布是相同的,而迁移学习允许源空间、任务空间在测试集和训练集中的分布是不同的,并且迁移学习仅专注目标任务的训练,使得网络模型根据需求更具个性化。因此,本文提出一种基于迁移学习的轻量级指纹分类模型。该模型结合迁移学习,首先采用梯度估计的方法求取指纹图像的方向场图并且做增强处理;然后将扩展的指纹方向场图数据集用于本文提出的轻量级Finger-SqueezeNet的预训练,使其达到一定的分类效果,从而初步实现网络模型参数的调整;最后保留预训练模型部分的网络参数不变,使用指纹图像数据集NIST-DB4对Finger-SqueezeNet网络进行参数微调（fine tuning）。结果在使用相同的指纹数据集在本文提出的纯网络模型进行分类训练后发现,未采用迁移学习方法对网络模型进行预训练得到的平均分类结果为93%,而通过预训练后的网络模型可以达到98.45%,最终采用单枚指纹测试的方法得到的测试结果达到95.73%。对比同种类型的方法以及验证标准后可知,本文的指纹分类模型在大幅度减少网络参数的同时仍能达到较高的准确率。结论采用指纹类内迁移学习方法和轻量级神经网络相结合进行分类,适当利用了指纹特征信息,而且有望使指纹分类模型拓展到移动端。相似文献

11.

Transfer reinforcement learning method with multi-label learning for compound fault recognition

《Advanced Engineering Informatics》2023

In complex working site, bearings used as the important part of machine, could simultaneously have faults on several positions. Consequently, multi-label learning approach considering fully the correlation between different faulted positions of bearings becomes the popular learning pattern. Deep reinforcement learning (DRL) combining the perception ability of deep learning and the decision-making ability of reinforcement learning, could be adapted to the compound fault diagnosis while having a strong ability extracting the fault feature from the raw data. However, DRL is difficult to converge and easily falls into the unstable training problem. Therefore, this paper integrates the feature extraction ability of DRL and the knowledge transfer ability of transfer learning (TL), and proposes the multi-label transfer reinforcement learning (ML-TRL). In detail, the proposed method utilizes the improved trust region policy optimization (TRPO) as the basic DRL framework and pre-trains the fixed convolutional networks of ML-TRL using the multi-label convolutional neural network method. In compound fault experiment, the final results demonstrate powerfully that the proposed method could have the higher accuracy than other multi-label learning methods. Hence, the proposed method is a remarkable alternative when recognizing the compound fault of bearings. 相似文献

12.

跨模态表征与生成技术

下载免费PDF全文

刘华峰陈静静李亮鲍秉坤李泽超刘家瑛聂礼强《中国图象图形学报》2023,28(6):1608-1629

多媒体数据持续呈现爆发式增长并显现出异源异构的特性,因此跨模态学习领域研究逐渐引起学术和工业界的关注。跨模态表征与生成是跨模态学习的两大核心基础问题。跨模态表征旨在利用多种模态之间的互补性剔除模态之间的冗余,从而获得更为有效的特征表示;跨模态生成则是基于模态之间的语义一致性,实现不同模态数据形式上的相互转换,有助于提高不同模态间的迁移能力。本文系统地分析了国际与国内近年来跨模态表征与生成领域的重要研究进展,包括传统跨模态表征学习、多模态大模型表示学习、图像到文本的跨模态转换和跨模态图像生成。其中,传统跨模态表征学习探讨了跨模态统一表征和跨模态协同表征,多模态大模型表示学习探讨了基于Transformer的模型研究,图像到文本的跨模态转换探讨了图像视频的语义描述、视频字幕语义分析和视觉问答等领域的发展,跨模态图像生成从不同模态信息的跨模态联合表示方法、图像的跨模态生成技术和基于预训练的特定域图像生成阐述了跨模态生成方面的进展。本文详细综述了上述各个子领域研究的挑战性,对比了国内外研究方面的进展情况,梳理了发展脉络和学术研究的前沿动态。最后,根据上述分析展望了跨模态表征与生成的发展趋势和突破口。相似文献

13.

面向多模态视频时刻检索的查询感知跨模态双重对比学习网络

尹梦冉梁美玉于洋曹晓雯杜军平薛哲《软件学报》2024,35(5)

近期,跨模态视频语料库时刻检索（VCMR）这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,本文提出了一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络（QACLN）,该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,本文提出了一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出了一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法. 相似文献

14.

一种基于图卷积网络的文本多标签学习方法

刘晓玲刘柏嵩王洋洋《小型微型计算机系统》2021,(3):531-535

多标签学习广泛应用于文本分类、标签推荐、主题标注等.最近,基于深度学习技术的多标签学习受到广泛关注,针对如何在多标签学习中有效挖掘并利用高阶标签关系的问题,提出一种基于图卷积网络探究标签高阶关系的模型TMLLGCN.该模型采用GCN的映射函数从数据驱动的标签表示中生成对象分类器挖掘标签高阶关系.首先,采用深度学习方法提取文本特征,然后以数据驱动方式获得基础标签关联表示矩阵,为更好地建模高阶关系及提高模型效果,在基础标签关联表示矩阵上考虑未标记标签集对已知标签集的影响进行标签补全,并以此相关性矩阵指导GCN中标签节点之间的信息传播,最后将提取的文本特征应用到学习高阶标签关系的图卷积网络分类器进行端到端训练,综合标签关联和特征信息作为最终的预测结果.在实际多标签数据集上的实验结果表明,提出的模型能够有效建模标签高阶关系且提升了多标签学习的效果. 相似文献

15.

基于改进卷积神经网络的多标记分类算法

下载免费PDF全文

余鹰王乐为吴新念伍国华张远健《智能系统学报》2019,14(3):566-574

良好的特征表达是提高模型性能的关键，然而当前在多标记学习领域，特征表达依然采用人工设计的方式，所提取的特征抽象程度不高，包含的可区分性信息不足。针对此问题，提出了基于卷积神经网络的多标记分类模型ML_DCCNN，该模型利用卷积神经网络强大的特征提取能力，自动学习能刻画数据本质的特征。为了解决深度卷积神经网络预测精度高，但训练时间复杂度不低的问题，ML_DCCNN利用迁移学习方法缩减模型的训练时间，同时改进卷积神经网络的全连接层，提出双通道神经元，减少全连接层的参数量。实验表明，与传统的多标记分类算法以及已有的基于深度学习的多标记分类模型相比，ML_DCCNN保持了较高的分类精度并有效地提高了分类效率，具有一定的理论与实际价值。相似文献

16.

Modeling semantic aspects for cross-media image indexing 总被引：3，自引：0，他引：3

Monay F Gatica-Perez D 《IEEE transactions on pattern analysis and machine intelligence》2007,29(10):1802-1817

相似文献

17.

Maintaining filter structure: A Gabor-based convolutional neural network for image analysis

《Applied Soft Computing》2020

In image segmentation and classification tasks, utilizing filters based on the target object improves performance and requires less training data. We use the Gabor filter as initialization to gain more discriminative power. Considering the mechanism of the error backpropagation procedure to learn the data, after a few updates, filters will lose their initial structure. In this paper, we modify the updating rule in Gradient Descent to maintain the properties of Gabor filters. We use the Left Ventricle (LV) segmentation task and handwritten digit classification task to evaluate our proposed method. We compare Gabor initialization with random initialization and transfer learning initialization using convolutional autoencoders and convolutional networks. We experimented with noisy data and we reduced the amount of training data to compare how different methods of initialization can deal with these matters. The results show that the pixel predictions for the segmentation task are highly correlated with the ground truth. In the classification task, in addition to Gabor and random initialization, we initialized the network using pre-trained weights obtained from a convolutional Autoencoder using two different data sets and pre-trained weights obtained from a convolutional neural network. The experiments confirm the out-performance of Gabor filters comparing to the other initialization method even when using noisy inputs and a lesser amount of training data. 相似文献

18.

基于多特征融合与CELM的场景分类算法

下载免费PDF全文

王光陶燕沈慧芳周树东《计算机工程与应用》2022,58(1):232-240

场景分类对于场景图像的语义解译至关重要,是遥感领域近期的主要研究课题之一。针对大部分图像分类方法中提取的特征结构单一,依赖于大量人工标记的数据以及分类器的训练过程缓慢等问题,提出了一种基于多特征融合与约束极限学习机（constrained extreme learning machines,CELM）的场景图像分类方法。该方法采用三种不同结构的预训练卷积神经网络,利用特定数据集对其进行微调,将微调后网络提取到的三种特征进行融合并送入CELM分类器进行分类,最终得到图像的类别标签。以SIRI-WHU、WHU-RS19与UC-Merced数据集作为实验数据集,在预训练卷积神经网络、单一特征和传统分类器上进行的对比实验表明,基于多特征融合与CELM相结合的方法产生了较好的分类效果,三种数据集上的总分类精度分别高达99.25%、98.26%与97.70%。相似文献

19.

基于高阶模式间关系的跨模态关联学习

康娟汪传建《计算机工程与设计》2020,41(1):265-270

针对多模态数据查询和基于模式之间低阶关系的查询方法存在的局限性,提出一种基于高阶模式之间关系的跨模态关联学习模型。在超网络的基础上,构建一种具有层次结构的分层超网络模型,由超网络数目等于模式数目的模式层和代表几种模式之间关系的集成层构成;经过训练的分层超网络就可以通过跨模态关联推理生成对于给定多模态查询的文本术语和视觉词关键字,实现多模态查询。基于大量带有图像文章的实验结果表明,提出模型可以提高生成关键字的相似性,生成文本术语,成功检索出具有小部分信息的文章。相似文献

20.

Towards learning a semantic-consistent subspace for cross-modal retrieval

Xu Meixiang Zhu Zhenfeng Zhao Yao 《Multimedia Tools and Applications》2019,78(1):389-412

A great many of approaches have been developed for cross-modal retrieval, among which subspace learning based ones dominate the landscape. Concerning whether using the semantic label information or not, subspace learning based approaches can be categorized into two paradigms, unsupervised and supervised. However, for multi-label cross-modal retrieval, supervised approaches just simply exploit multi-label information towards a discriminative subspace, without considering the correlations between multiple labels shared by multi-modalities, which often leads to an unsatisfactory retrieval performance. To address this issue, in this paper we propose a general framework, which jointly incorporates semantic correlations into subspace learning for multi-label cross-modal retrieval. By introducing the HSIC-based regularization term, the correlation information among multiple labels can be not only leveraged but also the consistency between the modality similarity from each modality is well preserved. Besides, based on the semantic-consistency projection, the semantic gap between the low-level feature space of each modality and the shared high-level semantic space can be balanced by a mid-level consistent one, where multi-label cross-modal retrieval can be performed effectively and efficiently. To solve the optimization problem, an effective iterative algorithm is designed, along with its convergence analysis theoretically and experimentally. Experimental results on real-world datasets have shown the superiority of the proposed method over several existing cross-modal subspace learning methods.

相似文献