首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
细粒度图像识别旨在从类别图像中辨别子类别。由于图像间只有细微差异,这使得识别任务具有挑战性。随着深度学习技术的不断进步,基于深度学习的方法定位局部和表示特征的能力越来越强,其中以卷积神经网络(CNN)和Transformer为基础的各类算法大大提高了细粒度图像识别精度,细粒度图像领域得到了显著发展。为了整理两类方法在细粒度图像识别领域的发展历程,对该领域近年来只运用类别标签的方法进行了综述。介绍了细粒度图像识别的概念,详细阐述了主流细粒度图像数据集;介绍了基于CNN和Transformer的细粒度图像识别方法及其性能;最后,总结了细粒度图像识别未来的研究方向。  相似文献   

2.
相比传统特征,卷积神经网络提取的特征对图像具有更强的描述能力,其卷积层比全连接层更适合用来检索图像。然而卷积特征是高维特征,若直接用来匹配图像会消耗大量的时间和内存。提出了一种新的改善和整合卷积特征,形成单维特征向量,再将其用于图像匹配的方法。首先,提取最后一个卷积层的三维特征,再对该卷积特征重新加权,突显图像的边缘信息和位置信息;其次,用滑动窗口进行处理,形成多个区域特征向量,再相加整合成全局特征向量;最后,用余弦距离衡量查询图和测试图的相似性得出检索的初始排名,并且用拓展查询方法进行重排得出最终的平均精度均值mAP。分别在Paris6k和Oxford5k数据库以及用100k张图扩展的Paris106k和Oxford105k数据库上进行测试。相对于CroW方法在Paris数据库上获得的mAP性能指标,本文方法提升了约3个百分点;在Oxford数据库上提升了约1个百分点。实验结果表明,新方法提取的全局特征能够更好地描述图像。  相似文献   

3.
传统基于骨架数据的自监督方法常将某一样本的不同增强作为正例,将其余样本均视为负例,这使得正负样本的比例严重失衡,限制了相同语义信息的样本发挥作用。针对上述问题,提出了一种正样本不受数据增强限制的双重最近邻检索动作识别算法DNNCLR。首先,基于人体关节的物理连接设计了一个新的关节级空间数据增强,即Bodypart增强,对输入的骨架序列用正态分布数组随机替换,以获得高级语义嵌入;其次,为避免正样本受数据增强的限制,提出了一种更合理的双重最近邻检索(DNN)正样本扩充策略,进一步提出了双重最近邻检索对比损失DNN Loss。具体为利用支撑集进行全局检索,将正样本集的寻找范围扩展到普通数据增强无法覆盖的新数据点;而负样本集中存在被误判的正样本,其是来自不同视频但语义信息相同的骨架样本。为此,再一次利用最近邻检索,从负样本集中寻找这种潜在的正例,二次扩展正样本集,并进一步提出双重最近邻检索对比损失,迫使模型学习更多的一般特征表示,使得模型优化更加合理。最后,将DNNCLR算法应用在AimCLR模型上,得到AimDNNCLR模型,并在NTU-RGB+D数据集上对该模型进行了线性评估,与前沿模型相...  相似文献   

4.
图像检索是一项重要的研究课题,涉及如何快速、准确地检索和管理海量的图像数据。传统的图像检索技术主要依赖图像的视觉特征或文本描述进行匹配,但是难以充分理解图像的语义信息,对复杂场景的适应性较差。针对这一问题,文章提出了一种基于卷积神经网络-循环神经网络(Convolutional Neural Networks Recurrent Neural Network,CNN-RNN)模型的图像检索技术。该技术将CNN和RNN相结合,构建了一个统一的深度学习框架。其中,CNN模型用于从图像中提取全局特征,RNN模型用于学习图像与标签之间的语义关联和共现依赖。文章通过将CNN输出的特征序列输入到RNN模型中,实现了对图像全局语义信息的捕获。将设计系统在多个数据集上进行实验,结果表明,设计的方法能够有效提高图像检索的效率和准确性。  相似文献   

5.
提出了一种融合全局和局部特征的Fisherfaces方法。在Fisher线性准则下,抽取出图像全局特征和局部特征的最佳分类特征。计算待识别样本和训练样本集的加权欧氏距离。在最近邻准则下,判别待识别样本的类别,在ORL人脸库上进行的对比实验结果表明该方法的优越性。  相似文献   

6.
针对图像检索,提出一种基于哈希编码和卷积神经网络的方法。主要是在卷积神经网络(CNN)中加入哈希层,采用由粗到精的分级检索策略,根据学习到的哈希码进行粗检索得到与查询图像相同或相似的[m]幅图像构成图像池,计算池内图像与查询图像高层语义特征之间的欧氏距离进行精检索,达到最终的检索目的。提出方法将哈希层的损失作为优化目标之一,结合图像的两种特征进行检索,弥补了现有方法中直接利用CNN深层特征检索耗时、占用内存的不足。在印花织物和CIFAR-10数据集上的实验结果表明,提出方法检索性能优于其他现有方法。  相似文献   

7.
目的 在图像分类领域,小样本学习旨在利用从大规模数据集中训练到的知识来处理仅包含少量有标记训练样本的下游分类任务。通常情况下,下游任务只涉及新类样本,由于元训练阶段会构造大量任务随机抽取训练集中不同类别的样本且训练集与测试集类别间存在领域间隙,因此模型训练周期长且可能对训练集过拟合,以致元知识无法迁移到测试集,进而导致模型泛化性差。针对以上问题,提出一种多层自适应聚合的自监督小样本图像分类模型。方法 首先使用分组卷积对残差块进行改进,减少神经网络参数量,降低训练难度,缩短训练时间;然后采用多层自适应聚合的方法改进骨干网络,对网络各层语义信息加以提炼聚合,自适应分配各层权重,将聚合后的特征图作为后续分类的依据;最后加入自监督对比学习结合有监督学习挖掘样本自身潜在的信息,从而提升样本特征表达能力。结果 在mini-ImageNet数据集和CUB(Caltech-UCSD birds-200-2011)数据集上与当前主流模型进行分类效果对比实验,与baseline相比,所提模型的准确率在mini-ImageNet数据集的5-way 1-shot与5-way 5-shot实验上分别提升了6.3...  相似文献   

8.
针对场景类别之间的相同类内差异性与不同类间相似性所造成的遥感图像场景分类不够精确的问题,提出了将微调(fine-tuning)与卷积神经网络(convolutional neural network,CNN)模型相结合的方法,对土地利用遥感场景图像进行分类。该方法对CNN前层固定,调整分类层,保留了图像的泛性特征;通过卫星影像图获取土地利用场景图块作为训练样本,对训练样本图块进行预处理,然后对在ImageNet数据集上训练得到的AlexNet模型进行fine-tuning,利用得到的CNN模型即可自动提取土地利用遥感图像的图像特征并对其进行分类。为了验证本文方法,对实验区影像进行分割得到测试样本并进行同训练样本一致的预处理,将测试样本的分类结果与随机森林、支持向量机等经典方法的结果进行对比。结果表明,经过fine-tuning的CNN模型在土地利用分类中得到的结果要明显优于其他分类方法。  相似文献   

9.
在服装图像分类和检索问题上,由于服装花纹样式的多样性和图像中不同环境背景的影响,普通卷积神经网络的辨识能力有限。针对这种情况,提出一种基于度量学习的卷积神经网络方法,其中度量学习基于triplet loss实现,由此该网络有参考样本、正样本和负样本共三个输入。通过度量学习可以减小同类别特征间距,增大不同类别特征间距,从而达到细分类的目的。此外把不同背景环境下的图像作为正样本输入训练网络以提高抗干扰能力。在服装检索问题上,提出融合卷积层特征和全连接层特征的精细检索方法。实验结果表明,度量学习的引入可以增强网络的特征提取能力,提高分类准确性,而基于融合特征的检索可以保证结果的精确性。  相似文献   

10.
最近五年,卷积神经网络(CNN)得到了充分的发展,在图像分类领域,基于监督学习的算法在相关任务中取得了巨大的成功.但是与分类极为准确地粗粒度标签数据集相比,细粒度标签数据集的分类依旧是一个难点.地理图像被广泛应用于社会的各个方面,研究者往往需要对大规模的地理图像数据进行分类,但是由于地理图像的特征差异较小,因此自动化分...  相似文献   

11.
目的 基于内容的图像检索方法利用从图像提取的特征进行检索,以较小的时空开销尽可能准确的找到与查询图片相似的图片。方法 本文从浅层特征、深层特征和特征融合3个方面对图像检索国内外研究进展和面临的挑战进行介绍,并对未来的发展趋势进行展望。结果 尺度下不变特征转换(SIFT)存在缺乏空间几何信息和颜色信息,高层语义的表达不够等问题;而CNN (convolutional neural network)特征则往往缺乏足够的底层信息。为了丰富描述符的信息,通常将SIFT与CNN等特征进行融合。融合方式主要包括:串连、核融合、图融合、索引层次融合和得分层(score-level)融合。"融合"可以有效地利用不同特征的互补性,提高检索的准确率。结论 与SIFT相比,CNN特征的通用性及几何不变性都不够强,依然是图像检索领域面临的挑战。  相似文献   

12.
林丽惠    罗志明    王军政  李绍滋 《智能系统学报》2020,15(5):919-924
针对武夷岩茶鲜茶叶叶片图像分类问题,提出一种融合整体与局部信息的分类方法。该方法使用两分支并行结构构建了一个整体与局部信息融合的卷积神经网络模型。实验表明,在9个品种共计7330张武夷岩茶鲜茶叶叶片图像数据集上,基于ResNet18构造的两分支并行卷积神经网络模型的分类准确率为96.68%,超过了其他CNN模型的分类准确率。这表明通过融合全局信息、边缘形状信息和纹理局部信息能有效提高分类准确率。  相似文献   

13.
民族服饰图像具有不同民族风格的服装款式、配饰和图案,导致民族服饰图像细粒度检索准确率较低.因此,文中提出细粒度民族服饰图像检索的全局-局部特征提取方法.首先,基于自定义的民族服饰语义标注,对输入图像进行区域检测,分别获得前景、款式、图案和配饰图像.然后在全卷积网络结构的基础上构建多分支的全局-局部特征提取模型,对不同区...  相似文献   

14.
针对现有胸部X线影像和诊断报告跨模态方法重点聚焦全局信息对齐,忽视影像和诊断报告间的细粒度语义关联,导致检索精度低、匹配度差的问题,提出全局和局部联合对齐的胸部X线影像和诊断报告双塔跨模态检索方法(CDTCR)。具体来说,针对细粒度语义表征,提出由残差网络组成的影像编码器学习影像的细粒度特征和由Transformer构成的BERT模型学习诊断报告的细粒度语义特征;针对细粒度语义关联问题,设计影像对句子和区域对词组两个不同粒度的模态间信息对齐策略,解决了不同模态间细粒度语义关联不足的问题。大型医学数据集MIMIC-CXR上的实验结果表明,CDTCR比现有的跨模态检索方法,检索精度更高、可解释性更强。  相似文献   

15.
16.
目的 细粒度图像检索是当前细粒度图像分析和视觉领域的热点问题。以鞋类图像为例,传统方法仅提取其粗粒度特征且缺少关键的语义属性,难以区分部件间的细微差异,不能有效用于细粒度检索。针对鞋类图像检索大多基于简单款式导致检索效率不高的问题,提出一种结合部件检测和语义网络的细粒度鞋类图像检索方法。方法 结合标注后的鞋类图像训练集对输入的待检鞋类图像进行部件检测;基于部件检测后的鞋类图像和定义的语义属性训练语义网络,以提取待检图像和训练图像的特征向量,并采用主成分分析进行降维;通过对鞋类图像训练集中每个候选图像与待检图像间的特征向量进行度量学习,按其匹配度高低顺序输出检索结果。结果 实验在UT-Zap50K数据集上与目前检索效果较好的4种方法进行比较,检索精度提高近6%。同时,与同任务的SHOE-CNN(semantic hierarchy of attribute convolutional neural network)检索方法比较,本文具有更高的检索准确率。结论 针对传统图像特征缺少细微的视觉描述导致鞋类图像检索准确率低的问题,提出一种细粒度鞋类图像检索方法,既提高了鞋类图像检索的精度和准确率,又能较好地满足实际应用需求。  相似文献   

17.
In recent years, with the development of 3D technologies, 3D model retrieval has become a hot topic. The key point of 3D model retrieval is to extract robust feature for 3D model representation. In order to improve the effectiveness of method on 3D model retrieval, this paper proposes a feature extraction model based on convolutional neural networks (CNN). First, we extract a set of 2D images from 3D model to represent each 3D object. SIFT detector is utilized to detect interesting points from each 2D image and extract interesting patches to represent local information of each 3D model. X-means is leveraged to generate the CNN filters. Second, a single CNN layer learns low-level features which are then given as inputs to multiple recursive neural networks (RNN) in order to compose higher order features. RNNs can generate the final feature for 2D image representation. Finally, nearest neighbor is used to compute the similarity between different 3D models in order to handle the retrieval problem. Extensive comparison experiments were on the popular ETH and MV-RED 3D model datasets. The results demonstrate the superiority of the proposed method.  相似文献   

18.
基于深度卷积神经网络的图像检索算法研究   总被引:2,自引:0,他引:2  
为解决卷积神经网络在提取图像特征时所造成的特征信息损失,提高图像检索的准确率,提出了一种基于改进卷积神经网络LeNet-L的图像检索算法。首先,改进LeNet-5卷积神经网络结构,增加网络结构深度。然后,对深度卷积神经网络模型LeNet-L进行预训练,得到训练好的网络模型,进而提取出图像高层语义特征。最后,通过距离函数比较待检图像与图像库的相似度,得出相似图像。在Corel数据集上,与原模型以及传统的SVM主动学习图像检索方法相比,该图像检索方法有较高的准确性。经实验结果表明,改进后的卷积神经网络具有更好的检索效果。  相似文献   

19.
深度跨模态哈希算法(deep cross-modal Hash,DCMH)可以结合哈希算法存储成本低、检索速度快的优点,以及深度神经网络提取特征的强大能力,得到了越来越多的关注。它可以有效地将模态的特征和哈希表示学习集成到端到端框架中。然而在现有的DCMH方法的特征提取中,基于全局表示对齐的方法无法准确定位图像和文本中有语义意义的部分,导致在保证检索速度的同时无法保证检索的精确度。针对上述问题,提出了一种基于多模态注意力机制的跨模态哈希网络(HX_MAN),将注意力机制引入到DCMH方法中来提取不同模态的关键信息。利用深度学习来提取图像和文本模态的全局上下文特征,并且设计了一种多模态交互门来将图像和文本模态进行细粒度的交互,引入多模态注意力机制来更精确地捕捉不同模态内的局部特征信息,将带有注意的特征输入哈希模块以获得二进制的哈希码;在实行检索时,将任一模态的数据输入训练模块中来获得哈希码,计算该哈希码与检索库中哈希码的汉明距离,最终根据汉明距离按顺序输出另一种模态的数据结果。实验结果表明:HX_MAN模型与当前现有的DCMH方法相比更具有良好的检索性能,在保证检索速度的同时,能够更准确...  相似文献   

20.
廖光锴  张正  宋治国 《计算机应用》2022,42(6):1876-1883
针对现有的基于卷积神经网络(CNN)的车辆重识别方法所提取的特征表达力不足的问题,提出一种基于小波特征与注意力机制相结合的车辆重识别方法。首先,将单层小波模块嵌入到卷积模块中代替池化层进行下采样,减少细粒度特征的丢失;其次,结合通道注意力(CA)机制和像素注意力(PA)机制提出一种新的局部注意力模块——特征提取模块(FEM)嵌入到卷积网络中,对关键信息进行加权强化。在VeRi数据集上与基准残差网络ResNet-50、ResNet-101进行对比。实验结果表明,在ResNet-50中增加小波变换层数能提高平均精度均值(mAP);在消融实验中,虽然ResNet-50+离散小波变换(DWT)比ResNet-101的mAP降低了0.25个百分点,但是其参数量和计算复杂度都比ResNet-101低,且mAP、Rank-1和Rank-5均比单独的ResNet-50高,说明该模型在车辆重识别中能够有效提高车辆检索精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号