首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
在细粒度图像分类任务中,巨大的类内方差决定了该任务的分类依赖于粗粒度和细粒度信息.最近的工作主要关注于如何定位不同粒度的辨别性局部来解决这个问题.然而,在如何选择具有辨别性的粒度以及融合多粒度特征方面,现有的工作还缺乏一定研究.因此,本文提出了一个融合多粒度特征的细粒度图像分类网络,首先通过一个局部错位模块选择细粒度图像中的不同粒度,然后引入注意力机制定位它们并提取其多粒度特征,并且通过迭代学习的方式提取多粒度间的互补信息,最后采用可变形卷积融合这些多粒度特征,从而实现细粒度图像分类.本文所提出的方法在CUB-200-2011、FGVC-Aircraft和Stanford Cars三个数据集上准确率分别达到88.6%、93.6%和94.8%,这表明本文的方法能够获得优秀的分类性能.  相似文献   

2.
为了进一步提高人脸表情识别在小样本中的准确率,提出了一种深度学习下融合不同模型的小样本表情识别方法。该方法首先对单个卷积神经网络(CNN)模型进行比较,通过dropout层不同的节点保留概率p,筛选相对合适的CNN。之后采用尺度不变特征变换(SIFT)算法提取出特征,使用SIFT提取特征的目的是提高小数据的性能。为了减少误差,避免过拟合,将所有模型进行汇总,采用简单平均的模型融合方法得到CNN-SIFT-AVG模型。最后,只采用少量样本数据来训练模型即可。该模型已在FER2013、CK+和JAFFE数据集上进行了验证实验。实验结果表明,该模型可以很大程度上提高小样本表情识别的准确率,并在FER2013、CK+和JAFFE数据集上产生了较优异的结果,与其他表情识别方法相比,准确率最大提升约6%。  相似文献   

3.
因图像数据具有大量的空间冗余信息,传统的多分辨率网络在处理图像数据时会产生较高的计算成本。而自蒸馏学习方法能够在精度与计算成本之间实现动态平衡,使模型在不增加网络深度和宽度的基础上,有效地提高模型精度。提出一种多分辨率自蒸馏网络(MRSDN),用于解决小样本学习中输入样本的空间冗余问题。从原始网络中分出一个浅层子网络以识别图像的低分辨率表示,并且保持该原始网络识别高分辨率图像特征的能力。同时,在多分辨率网络中引入改进的全局注意力机制,以减少信息损失且放大全局交互表示。利用自蒸馏学习方法将网络中更深层的知识压缩到浅层子网络中,以提升浅层子网络的泛化能力。在此基础上,将低分辨率网络中的粗粒度特征融合到高分辨率网络中,从而提高模型提取图像特征的能力。实验结果表明,在Mini-ImageNet数据集上MRSDN网络对5-way 1-shot与5-way 5-shot任务的准确率分别为56.34%和74.35%,在Tiered-ImageNet数据集上对5-way 1-shot与5-way 5-shot任务的准确率分别为59.56%和78.96%,能有效缓解高分辨率图像输入时的空间冗余问题,提高小样本图像分类的准确率。  相似文献   

4.
为了获取到更加细粒度的图像表示,防止图像特征获取时关键信息的丢失,论文采用融合多头自注意机制的图像特征提取模型,来获取图像特征。通过对问题文本信息使用自注意力机制并用来引导图像注意,增强问题文本特征与图像特征之间的关联性,获取图像特征中与问题文本相关的信息。将最终获取到的图像特征与问题特征进行多模态特征融合,并对融合特征进行分类预测。实验结果表明,论文方法在VQA1.0数据集上,总体准确率为64.6%,在VQA2.0数据集上,总体准确率为63.9%,从而验证了论文方法的有效性,相比一些经典的方法都有较好的提升。  相似文献   

5.
陈卓  王国胤  刘群 《计算机科学》2021,48(12):243-248
自然场景下的文本信息通常具有多样性和复杂性的特点.由于采用手工设计特征的方式,传统的自然场景文字检测方法缺乏鲁棒性,而已有的基于深度学习的文本检测方法在各层网络提取特征的过程中存在丢失重要特征信息的问题.文中从多粒度和认知学的角度,提出了一种结合多粒度特征融合的自然场景文本检测方法.该方法的主要贡献是通过对通用特征提取网络的不同粒度特征进行融合,并加入残差通道注意力机制,使得模型在充分学习图像中不同粒度特征信息的基础上,更加关注目标特征信息并抑制无用的信息,提升了模型的鲁棒性和准确率.实验结果表明,相比其他最新的方法,该方法在公开数据集上取得了85.3%的准确率和82.53%的F值,具有更好的性能.  相似文献   

6.
人脸表情识别作为人机交互系统的重要组成部分,在安防监控、人机交互等领域有广泛的应用,是计算机视觉的研究热点。传统的卷积神经网络方法一般提取单张人脸图像或者人脸标记点作为特征提取的输入数据,未能考虑到人脸全域的表情信息。提出了一种基于三通道多信息融合的深度学习人脸表情识别模型,以人脸图像表情平静到高峰时期标记点坐标的相对位移为输入,提取整个人脸表情图像特征信息,模型融合了稀疏自编码器以提高对边缘特征提取效率。该模型在CK+数据集上进行了训练和测试,实验结果表明,与该领域中的同类算法相比,该算法模型提高了表情识别的准确率。  相似文献   

7.
长期以来,已有很多工作致力于研究植物叶片分类,虽然它们在公开数据集上表现较好,但实际应用并不理想,且难以应用于更复杂的问题,如叶片分级,即要求在对叶片进行分类的基础上,再对同一类的叶片进行更细级别(质量等级)的划分。为此,提出了一种新的植物叶片分类以及分级模型,该模型关注叶片的多粒度信息,并将粗粒度与细粒度进行有效融合。该模型包含粗粒度和细粒度两个分支,由粒度混合损失将两个分支联系起来,促使模型逐步学习由粗到细的粒度表征。采用了多步骤训练方式,每一步提取不同层级的特征,实现浅层特征与深层特征的融合。此外,还提出了几何通道注意力模块,该模块由空间变换和双线性注意力池化组成,使模型可以关注图像中更具区分度的局部区域,提取出的特征更具区分性。所提方法在Flavia leaf和Swedish leaf两个公开的叶片分类数据集上分别达到了99.8%和99.7%的分类准确率,且在所构建的烟叶分级数据集上达到了71.9%的分级准确率,均超过了目前最优的方法。  相似文献   

8.
目前对中文文本分类的研究主要集中于对字符粒度、词语粒度、句子粒度、篇章粒度等数据信息的单一模式划分,这往往缺少不同粒度下语义所包含的信息特征。为了更加有效提取文本所要表达的核心内容,提出一种基于注意力机制融合多粒度信息的文本分类模型。该模型对字、词和句子粒度方面构造嵌入向量,其中对字和词粒度采用Word2Vec训练模型将数据转换为字向量和词向量,通过双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)获取字和词粒度向量的上下文语义特征,利用FastText模型提取句子向量中包含的特征,将不同种特征向量分别送入到注意力机制层进一步获取文本重要的语义信息。实验结果表明,该模型在三种公开的中文数据集上的分类准确率比单一粒度和两两粒度结合的分类准确率都有所提高。  相似文献   

9.
针对现有的多模态虚假信息检测方法很少对多模态特征在特征层面进行融合,同时忽略了多模态特征后期融合作用的问题,提出了一种基于CNN多模态特征融合及多分类器混合预测的虚假信息检测模型。首次将多层CNN应用于多模态特征融合,模型首先用BERT和Swin-transformer提取文本和图像特征;随后通过多层CNN对多模态特征在特征层面进行融合,通过简单拼接对多模态特征在句子层面进行融合;最后将2种融合特征输入到不同的分类器中得到2个概率分布,并将2个概率分布按比例进行相加得到最终预测结果。该模型与基于注意力的多模态分解双线性模型(AMFB)相比,在Weibo数据集和Twitter数据集上的准确率分别提升了6.1%和4.3%。实验结果表明,所提模型能够有效提高虚假信息检测的准确率。  相似文献   

10.
图像情感分析是机器视觉领域热点问题,然而情感判断主观性较强,仅分析完整图像难以准确刻画图像中情感语义,且高质量图像情感数据不足.为此,提出联合多头数据增强与多粒度语义挖掘的图像情感分析模型M2.首先,设计多头数据增强方法,基于自动数据增强与主动样本精选策略构建递进式数据增强模型,从“质”与“量”两个角度提升数据集;其次,引入情感区域检测模型完成情感区域增强,深入挖掘图像中情感语义强烈的局部区域,进而联合局部区域与整幅图像构建多粒度图像;然后,基于深度互学习框架及局部区域完成模型预训练,充分挖掘异构SENet网络之间互补的情感语义,并以迁移学习方式指导多粒度图像情感分析;最后,设计自适应特征融合模块,融合异构SENet特征以完成多粒度语义挖掘,实现图像情感分析.在Twitter I和FI数据集上验证M2模型,其准确率分别达到90.97%和81.14%,优于主流基线. M2拥有泛化性更强的数据增强策略,可以为其训练提供坚实的数据基础,且对应的实证分析效果较好,模型具备一定的实用价值.  相似文献   

11.
目的 针对基于区域的语义分割方法在进行语义分割时容易缺失细节信息,造成图像语义分割结果粗糙、准确度低的问题,提出结合上下文特征与卷积神经网络(CNN)多层特征融合的语义分割方法。方法 首先,采用选择搜索方法从图像中生成不同尺度的候选区域,得到区域特征掩膜;其次,采用卷积神经网络提取每个区域的特征,并行融合高层特征与低层特征。由于不同层提取的特征图大小不同,采用RefineNet模型将不同分辨率的特征图进行融合;最后将区域特征掩膜和融合后的特征图输入到自由形式感兴趣区域池化层,经过softmax分类层得到图像的像素级分类标签。结果 采用上下文特征与CNN多层特征融合作为算法的基本框架,得到了较好的性能,实验内容主要包括CNN多层特征融合、结合背景信息和融合特征以及dropout值对实验结果的影响分析,在Siftflow数据集上进行测试,像素准确率达到82.3%,平均准确率达到63.1%。与当前基于区域的端到端语义分割模型相比,像素准确率提高了10.6%,平均准确率提高了0.6%。结论 本文算法结合了区域的前景信息和上下文信息,充分利用了区域的语境信息,采用弃权原则降低网络的参数量,避免过拟合,同时利用RefineNet网络模型对CNN多层特征进行融合,有效地将图像的多层细节信息用于分割,增强了模型对于区域中小目标物体的判别能力,对于有遮挡和复杂背景的图像表现出较好的分割效果。  相似文献   

12.
小样本学习的分类结果依赖于模型对样本特征的表达能力,为了进一步挖掘图像所表达的语义信息,提出一种多级度量网络的小样本学习方法。将输入图像的特征向量放入嵌入模块进行特征提取;将经过第二层卷积及第三层卷积得到的特征描述子分别进行图像-类的度量以获得图像关系得分,对第四层卷积得到的特征向量进行全连接并将其做图像-图像的度量从而得到图像从属概率;通过交叉验证对2个图像关系得分以及1个图像从属概率进行加权融合并输出分类结果。实验结果表明在miniImageNet数据集上,该方法 5-way 1-shot准确率为56.77%,5-way 5-shot准确率为75.83%。在CUB数据集上,该方法 5-way 1-shot及5-way 5-shot准确率分别上升到55.34%及76.32%。在Omniglot数据集上准确率同传统方法相比也有一定提升。因此,该方法可有效挖掘图像中所表达的语义信息,显著提高小样本图像分类的准确率。  相似文献   

13.
经济全球化赋予了logo巨大的商业价值,随着计算机视觉领域的发展,为logo分类与识别提供了更广阔的应用领域.本文针对logo图像的分类识别,为了提高模型对logo图像分类的能力,基于logo图像整体特征不显著且数量众多的特点,提出了用细粒度图像分类的方法渐进式多粒度拼图训练(progressive multi-granularity training of jigsaw patches, PMG-Net)对logo图像数据集进行分类.通过拼图生成器生成包含不同粒度信息的输入图像,再引入渐进式多粒度训练模块融合不同粒度的特征,融合后的特征更注重图像之间的细微差别,使logo图像分类的效果有显著提高.在提取输入图像特征时采用LeakyReLU (leaky rectified linear unit)激活函数保留图像中的负值特征信息,并引入通道注意力机制,调整特征通道的权重,增强特征信息指导能力以改进模型的分类效果.实验结果表明,本文在logo图像数据集上的分类精确率优于传统的分类方法.本文通过融合多粒度特征的渐进训练策略以及随机拼图生成器的方法实现了对logo图像的高效分类,为解决lo...  相似文献   

14.
针对表情识别存在相似表情识别精度不高和不同光照下识别困难的问题,提出一种改进的双通道残差网络表情识别模型。通过改进局部二值化算子,改善复杂光照下难以提取到鲁棒特征的问题,通过改进注意力机制,改善全局特征提取能力;搭建特征融合网络,通过交叉实验获取对于不同数据集都鲁棒的特征融合系数;将中心损失引入设计联合算法提高相似表情之间的区分度。实验结果表明,该算法提升了相似表情的区分精度,对于光照具有更好的鲁棒性。模型在3个公开数据集上的准确率达98.53%、96.42%、94.24%。  相似文献   

15.
对样本所含信息的提取能力决定网络模型进行小样本分类的效果,为了进一步提高模型挖掘信息的能力,提出一种结合多尺度特征与掩码图网络的小样本学习方法。设计由1×1卷积、全局平均池化和跳跃连接组成的最小残差神经网络块,与卷积块拼接成特征提取器,以提取样本不同尺度的特征,并通过注意力机制将不同尺度特征融合;使用融合的多尺度特征构建包含结点与边特征的图神经网络,并在其中加入一个元学习器(meta-learner)用于生成边的掩码,通过筛选边特征来指导图结点聚类与更新,进一步强化样本特征;通过特征贡献度和互斥损失改进类在嵌入空间表达特征的求解过程,提升模型度量学习能力。在MiniImagenet数据集上,该方法1-shot准确率为61.4%,5-shot准确率为78.6%,分别超过传统度量学习方法12.0个百分点与10.4个百分点;在Cifar-100数据集上分别提升9.7个百分点和6.0个百分点。该方法有效提升了小样本学习场景下的模型分类准确率。  相似文献   

16.
针对自然界中不同种类植物的叶片可能存在类间差异小而导致一些边缘轮廓相似的本土植物和外来入侵植物叶片识别错误的问题,提出一种PF-VGGNet模型。常用的VGGNet模型在图像分类上表现优秀,采用顺次连接的结构,可以很好地提取图像的高级语义信息特征,但一些图像浅层的轮廓和纹理特征也对分类起到关键作用。PF-VGGNet模型可以将浅层轮廓和纹理特征与网络深层高级语义信息融合,实现对植物叶片的自动识别。实验结果表明,PF-VGGNet模型对比其它算法在自建的外来入侵植物叶片数据集上取得了较好的识别效果,在训练集和测试集上的准确率分别为99.89%和99.63%。PF-VGGNet可以有效降低因叶片边缘轮廓相近导致识别错误的问题,能够快速识别外来入侵植物叶片,为防治外来植物入侵提供支持。  相似文献   

17.
小样本目标检测旨在通过少量的样本学习来训练目标检测模型,现有的小样本目标检测方法大多基于经典的目标检测算法。在二阶段的检测方法中,由于新类别样本数量少,产生了许多无关的边界框,导致候选区域的准确率较低。为了解决这个问题,提出了一种基于特征融合的小样本目标检测算法FF-FSOD。该方法采用特征融合的方法进行数据增强,对新类别样本进行补充,扩大样本的覆盖范围,同时引入FPN网络进行多尺度特征提取,再对RPN网络进行改进,引入支持集图像分支,计算支持集图像特征与查询集图像特征的深度互相关性,得到注意力特征图,进而获得更精确的候选框。所提模型的有效性在MS COCO和FSOD数据集上得到了验证,实验结果表明,该方法获得了更精准的候选框,进而提升了检测精度。  相似文献   

18.
为了克服目前公开的人脸表情数据集的数据量较少,并且有一些类别的表情表达存在一定的相似这两个因素对人脸表情识别率的影响,提出一种基于关键区域特征融合的人脸表情分类算法。算法首先提取人脸图像中表情表达的关键区域,然后分别提取关键区域的特征信息并融合,最终使用融合的特征进行分类。通过实验验证:算法在JAFFE和CK+公开数据集上均取得了较好的识别准确率。  相似文献   

19.
深度学习已成为图像识别领域的一个研究热点。与传统图像识别方法不同,深度学习从大量数据中自动学习特征,并且具有强大的自学习能力和高效的特征表达能力。但在小样本条件下,传统的深度学习方法如卷积神经网络难以学习到有效的特征,造成图像识别的准确率较低。因此,提出一种新的小样本条件下的图像识别算法用于解决SAR图像的分类识别。该算法以卷积神经网络为基础,结合自编码器,形成深度卷积自编码网络结构。首先对图像进行预处理,使用2D Gabor滤波增强图像,在此基础上对模型进行训练,最后构建图像分类模型。该算法设计的网络结构能自动学习并提取小样本图像中的有效特征,进而提高识别准确率。在MSTAR数据集的10类目标分类中,选择训练集数据中10%的样本作为新的训练数据,其余数据为验证数据,并且,测试数据在卷积神经网络中的识别准确率为76.38%,而在提出的卷积自编码结构中的识别准确率达到了88.09%。实验结果表明,提出的算法在小样本图像识别中比卷积神经网络模型更加有效。  相似文献   

20.
表情识别技术可以从人类的表情中分析出识别对象的情感活动,针对面部表情图像复杂的空间关系和特征信息时,不能建立有效特征提取和映射模型的问题,稀疏多层感知机(spare multilayer perceptron,sMLP)使用很少的参数量让每个空间位置进行交流,而胶囊网络也可以表现特征的空间姿态信息,因此提出了一种新的面部表情识别模型sMLP-CapsNet,以提升表情识别空间关系映射的能力。采用CK+数据集和RAF-DB数据集,通过改进的胶囊神经网络从轮廓到细节提取面部表情图片特征,进而实现面部表情分类。相比于其他面部表情识别算法,模型精度提升效果明显,在CK+数据集和RAF-DB数据集上分别可达到99.48%以及85.69%的识别率,展现了该算法的先进性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号