首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
石进  徐杨  曹斌 《计算机工程》2023,(5):239-246+254
细粒度图像分类的关键在于提取图像中微妙的特征。现有基于弱监督方式的细粒度图像识别方法大多使用专家标注的边界注释辅助定位关键区域,存在标注成本高、训练过程复杂等问题。基于弱监督的双线性卷积神经网络方法因其学习到的特征空间更符合细粒度图像特性而具有一定的有效性,但忽略了层间的相互作用。针对细粒度图像识别领域存在的关键区域识别困难和层间交互关联弱的问题,融合二阶协方差通道注意力机制、自适应特征掩码与自适应三线性池化,提出自适应三线性池化网络ATP-Net,用于细粒度图像分类任务。通过二阶协方差通道注意力机制学习通道上的注意力向量,构建自适应特征掩码模块学习空间维上的注意力矩阵,设计自适应三线性池化模块学习特征的最终表示,以充分利用空间维、通道维上的信息。在CUB-200、Cars-196和Aircraft-100 3个细粒度图像分类数据集上的实验结果表明,ATP-Net的分类精度分别为89.30%、94.20%和91.80%。  相似文献   

2.
为解决细粒度图像分类中不相关背景信息干扰以及子类别差异特征难以提取等问题,提出了一种结合前景特征增强和区域掩码自注意力的细粒度图像分类方法。首先,利用ResNet50提取输入图片的全局特征;然后通过前景特征增强网络定位前景目标在输入图片中的位置,在消除背景信息干扰的同时对前景目标进行特征增强,有效突出前景物体;最后,将特征增强的前景目标通过区域掩码自注意力网络学习丰富、多样化且区别于其他子类的特征信息。在训练模型的整个过程,建立多分支损失函数约束特征学习。实验表明,该模型在细粒度图像数据集CUB-200-2011、Stanford Cars和FGVC-Aircraft的准确率分别达到了88.0%、95.3%和93.6%,优于其他主流方法。  相似文献   

3.
在细粒度图像分类任务中,巨大的类内方差决定了该任务的分类依赖于粗粒度和细粒度信息.最近的工作主要关注于如何定位不同粒度的辨别性局部来解决这个问题.然而,在如何选择具有辨别性的粒度以及融合多粒度特征方面,现有的工作还缺乏一定研究.因此,本文提出了一个融合多粒度特征的细粒度图像分类网络,首先通过一个局部错位模块选择细粒度图像中的不同粒度,然后引入注意力机制定位它们并提取其多粒度特征,并且通过迭代学习的方式提取多粒度间的互补信息,最后采用可变形卷积融合这些多粒度特征,从而实现细粒度图像分类.本文所提出的方法在CUB-200-2011、FGVC-Aircraft和Stanford Cars三个数据集上准确率分别达到88.6%、93.6%和94.8%,这表明本文的方法能够获得优秀的分类性能.  相似文献   

4.
基于全局语义交互的粗粒度注意力机制不能有效利用各模态间的语义关联提取到模态信息中的关键部分,从而影响分类结果。针对这个问题提出了一个模态信息交互模型MII(modal information interaction),通过细粒度注意力机制提取模态的局部语义关联特征并用于情感分类。首先,模态内信息交互模块用于构建模态内的联系并生成模态内交互特征,随后模态间信息交互模块利用图像(文本)的模态内交互特征生成门控向量来关注文本(图像)中相关联的部分,从而得到模态间的交互特征。考虑到特征中存在的冗余信息,模型加入了自适应特征融合模块,从全局特征层面对特征进行选择,增强了包含情感信息的关键特征的表达能力,弱化了冗余信息对分类结果的影响。在MVSA-Single和MVSA-Multi两个公开数据集上的实验结果表明,该模型优于一系列基线模型。  相似文献   

5.
为解决卷积神经网络提取特征遗漏、手势多特征提取不充分问题, 本文提出基于残差双注意力与跨级特征融合模块的静态手势识别方法. 设计了一种残差双注意力模块, 该模块对ResNet50网络提取的低层特征进行增强, 能够有效学习关键信息并更新权重, 提高对高层特征的注意力, 然后由跨级特征融合模块对不同阶段的高低层特征进行融合, 丰富高级特征图中不同层级之间的语义和位置信息, 最后使用全连接层的Softmax分类器对手势图像进行分类识别. 本文在ASL美国手语数据集上进行实验, 平均准确率为99.68%, 相比基础ResNet50网络准确率提升2.52%. 结果验证本文方法能充分提取与复用手势特征, 有效提高手势图像的识别精度.  相似文献   

6.
行人重识别是指从一堆候选图片中找到与目标最相似的行人图片,本质上是一个图像检索的子问题。为了进一步增强网络提取关键特征的能力以及抑制噪声的干扰,通过对基于注意力机制和局部特征的行人重识别算法的研究,提出了结合注意力与局部特征融合的行人重识别算法。该算法将ResNeSt-50作为骨干网络,联合软注意力与非局部注意力机制,采用双流结构分别提取行人细粒度全局特征和细粒度局部特征,通过关注不同特征之间共享的空间域信息以及同一特征不同水平区域的潜在语义相关性,创建了空间感知特征融合模块(spatial-aware feature fusion module)以及跨区域特征融合模块(cross-region feature fusion module)。在Market-1501、DukeMTMC-reID以及CUHK03数据集上的实验结果表明该算法极大程度上提升了网络的检索能力,同时与现有算法进行比较,凸显出优越性能。  相似文献   

7.
现有的小样本学习算法未能充分提取细粒度图像的特征,导致细粒度图像分类准确率较低。为了更好地对基于度量的小样本细粒度图像分类算法中提取的特征进行建模,提出了一种基于自适应特征融合的小样本细粒度图像分类算法。在特征提取网络上设计了一种自适应特征融合嵌入网络,可以同时提取深层的强语义特征和浅层的位置结构特征,并使用自适应算法和注意力机制提取关键特征。在训练特征提取网络上采用单图训练和多图训练方法先后训练,在提取样本特征的同时关注样本之间的联系。为了使得同一类的特征向量在特征空间中的距离更加接近,不同类的特征向量的距离更大,对所提取的特征向量做特征分布转换、正交三角分解和归一化处理。提出的算法与其他9种算法进行实验对比,在多个细粒度数据集上评估了5 way 1 shot的准确率和5 way 5 shot的准确率。在Stanford Dogs数据集上的准确率提升了5.27和2.90个百分点,在Stanford Cars数据集上的准确率提升了3.29和4.23个百分点,在CUB-200数据集上的5 way 1 shot的准确率只比DLG略低0.82个百分点,但是5 way 5 shot上提升了1.55个百分点。  相似文献   

8.
针对细粒度图像类间差距小、类内差距大的问题,文中提出以弱监督学习的方式使用多分支注意力增强卷积网络,从而实现细粒度图像分类.文中采用Inception-V3网络提取图像的基础特征,从中获取多个局部响应区域并进行特征融合,在此基础上采用注意力机制对图像关键区域进行自约束的局部裁剪和局部擦除,避免仅提取目标单个部位的特征,...  相似文献   

9.
细粒度视觉分类核心是提取图像判别式特征.目前大多数方法引入注意力机制,使网络聚焦于目标物体的重要区域.然而,这种方法只定位到目标物体的显著特征,无法囊括全部判别式特征,容易混淆具有相似特征的不同类别.因此,文中提出基于融合池化和注意力增强的细粒度视觉分类网络,旨在获得全面判别式特征.在网络末端,设计融合池化模块,包括全局平均池化、全局top-k池化和两者融合的三分支结构,获得多尺度判别式特征.此外,提出注意力增强模块,在注意力图的引导下通过注意力网格混合模块和注意力裁剪模块,获得2幅更具判别性的图像参与网络训练.在细粒度图像数据集CUB-200-2011、Stanford Cars、FGVC-Aircraft上的实验表明文中网络准确率较高,具有较强的竞争力.  相似文献   

10.
有效识别各种鸟类目标具有重要的生态环境保护意义。针对不同种类鸟类之间差别细微、识别难度大等问题,提出一种基于语义信息跨层特征融合的细粒度鸟类识别模型。该模型由区域定位网络、特征提取网络和一种跨层特征融合网络(Cross-layer Feature Fusion Network,CFF-Net)组成。区域定位网络在没有局部语义标注的情况下,自动定位出局部有效信息区域;特征提取网络提取局部区域图像特征和全局图像特征;CFF-Net对多个局部和全局特征进行融合,提高最终分类性能。结果表明,该方法在Caltech-UCSD Birds200-2011(CUB200-2011)鸟类公共数据集上,取得了87.8%的分类准确率,高于目前主流的细粒度鸟类识别算法,表现出优异的分类性能。  相似文献   

11.
随着人工智能的飞速发展,计算机视觉领域对图像的分类任务不仅仅限于识别出物体的大类,更需要对同一类别的图像进行更加细致的子类划分。为了有效区分出类间的微小差异以及减少背景因素的干扰,提出了一种基于AABP的细粒度分类算法。首先,通过Inception V3预训练模型提取全局图像特征,并利用深度可分离卷积在特征映射上预测出局部注意力区域;然后,应用弱监督数据增强网络(WS-DAN)的算法将增强后的图像反馈回网络中,以此加强网络的泛化能力,防止过拟合;最后,将进一步提取的注意力特征区域在AABP网络中进行线性融合,以提升分类的精度。实验结果表明,该算法在数据集CUB-200-2011上达到88.51%的准确率、97.65%的top5准确率,在Stanford Cars数据集上到89.77%的准确率、99.27%的top5准确率,在FGVC-Aircraft数据集上到93.5%的准确率、97.96%的top5准确率。  相似文献   

12.
针对细粒度图像分类问题提出了一种有效的算法以实现端到端的细粒度图像分类.ECA-Net中ECA(efficient channel attention)模块是一种性能优势显著的通道注意力机制,将其与经典网络ResNet-50进行融合构成新的基础卷积神经网络ResEca;通过物体级图像定位模块与部件级图像生成模块生成物体级图像和部件级图像,并结合原始图像作为网络的输入,构建以ResEca为基础的三支路网络模型Tb-ResEca-Net(three branch of ResEca network).该算法在公有数据集CUB-200-2011、FGVC-aircraft和Stanford cars datasets上进行测试训练,分别取得了89.9%、95.1%和95.3%的准确率.实验结果表明,该算法相较于其他传统的细粒度分类算法具有较高的分类准确率以及较强的鲁棒性,是一种有效的细粒度图像分类方法.  相似文献   

13.
目的 小样本学习旨在通过一幅或几幅图像来学习全新的类别。目前许多小样本学习方法基于图像的全局表征,可以很好地实现常规小样本图像分类任务。但是,细粒度图像分类需要依赖局部的图像特征,而基于全局表征的方法无法有效地获取图像的局部特征,导致很多小样本学习方法不能很好地处理细粒度小样本图像分类问题。为此,提出一种融合弱监督目标定位的细粒度小样本学习方法。方法 在数据量有限的情况下,目标定位是一个有效的方法,能直接提供最具区分性的区域。受此启发,提出了一个基于自注意力的互补定位模块来实现弱监督目标定位,生成筛选掩膜进行特征描述子的筛选。基于筛选的特征描述子,设计了一种语义对齐距离来度量图像最具区分性区域的相关性,进而完成细粒度小样本图像分类。结果 在miniImageNet数据集上,本文方法在1-shot和5-shot下的分类精度相较性能第2的方法高出0.56%和5.02%。在细粒度数据集Stanford Dogs和Stanford Cars数据集上,本文方法在1-shot和5-shot下的分类精度相较性能第2的方法分别提高了4.18%,7.49%和16.13,5.17%。在CUB 200-2011(Caltech-UCSD birds)数据集中,本文方法在5-shot下的分类精度相较性能第2的方法提升了1.82%。泛化性实验也显示出本文方法可以更好地同时处理常规小样本学习和细粒度小样本学习。此外,可视化结果显示出所提出的弱监督目标定位模块可以更完整地定位出目标。结论 融合弱监督目标定位的细粒度小样本学习方法显著提高了细粒度小样本图像分类的性能,而且可以同时处理常规的和细粒度的小样本图像分类。  相似文献   

14.
林丽惠    罗志明    王军政  李绍滋 《智能系统学报》2020,15(5):919-924
针对武夷岩茶鲜茶叶叶片图像分类问题,提出一种融合整体与局部信息的分类方法。该方法使用两分支并行结构构建了一个整体与局部信息融合的卷积神经网络模型。实验表明,在9个品种共计7330张武夷岩茶鲜茶叶叶片图像数据集上,基于ResNet18构造的两分支并行卷积神经网络模型的分类准确率为96.68%,超过了其他CNN模型的分类准确率。这表明通过融合全局信息、边缘形状信息和纹理局部信息能有效提高分类准确率。  相似文献   

15.
民族服饰图像具有不同民族风格的服装款式、配饰和图案,导致民族服饰图像细粒度检索准确率较低.因此,文中提出细粒度民族服饰图像检索的全局-局部特征提取方法.首先,基于自定义的民族服饰语义标注,对输入图像进行区域检测,分别获得前景、款式、图案和配饰图像.然后在全卷积网络结构的基础上构建多分支的全局-局部特征提取模型,对不同区域的服饰图像进行特征提取,分别获得全局、款式、图案和配饰的卷积特征.最后,先对全局特征进行相似性度量,得到初步检索结果,再使用Top-50检索结果的局部特征与查询图像的局部特征进行重排序,优化排序并输出最终的检索结果.在构建的民族服饰图像数据集上的实验表明,文中方法有效提高民族服饰图像检索的准确率.  相似文献   

16.
高分辨率遥感图像(HRRS)的分类是一项具有挑战性的任务。针对遥感数据集图像本身的语义特性,提出一种对数据集图像进行随机子图像提取并带有金字塔池化模型的卷积神经网络(Convolutional Neural Network,CNN)。对输入图像的尺寸进行基于柯西分布的随机尺寸剪切,将这些尺寸不同但是标签相同的子图像送进带有SPP(空间金字塔池化)的卷积神经网络,将子图像的预测类别众数作为最终分类输出。实验结果表明该方法对多类遥感图像的分类精度有一定提升。  相似文献   

17.
一般细粒度图像分类只关注图像局部视觉信息,但在一些问题中图像局部的文本 信息对图像分类结果有直接帮助,通过提取图像文本语义信息可以进一步提升图像细分类效果。 我们综合考虑了图像视觉信息与图像局部文本信息,提出一个端到端的分类模型来解决细粒度 图像分类问题。一方面使用深度卷积神经网络获取图像视觉特征,另一方面依据提出的端到端 文本识别网络,提取图像的文本信息,再通过相关性计算模块合并视觉特征与文本特征,送入 分类网络。最终在公共数据集 Con-Text 上测试该方法在图像细分类中的结果,同时也在 SVT 数据集上验证端到端文本识别网络的能力,均较之前方法获得更好的效果。  相似文献   

18.
针对现有胸部X线影像和诊断报告跨模态方法重点聚焦全局信息对齐,忽视影像和诊断报告间的细粒度语义关联,导致检索精度低、匹配度差的问题,提出全局和局部联合对齐的胸部X线影像和诊断报告双塔跨模态检索方法(CDTCR)。具体来说,针对细粒度语义表征,提出由残差网络组成的影像编码器学习影像的细粒度特征和由Transformer构成的BERT模型学习诊断报告的细粒度语义特征;针对细粒度语义关联问题,设计影像对句子和区域对词组两个不同粒度的模态间信息对齐策略,解决了不同模态间细粒度语义关联不足的问题。大型医学数据集MIMIC-CXR上的实验结果表明,CDTCR比现有的跨模态检索方法,检索精度更高、可解释性更强。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号