共查询到19条相似文献,搜索用时 46 毫秒
1.
针对细粒度图像分类任务中难以对图中具有鉴别性对象进行有效学习的问题,本文提出了一种基于注意力机制的弱监督细粒度图像分类算法.该算法能有效定位和识别细粒度图像中语义敏感特征.首先在经典卷积神经网络的基础上通过线性融合特征得到对象整体信息的表达,然后通过视觉注意力机制进一步提取特征中具有鉴别性的细节部分,获得更完善的细粒度特征表达.所提算法实现了线性融合和注意力机制的结合,可看作是多网络分支合作训练共同优化的网络模型,从而让网络模型对整体信息和局部信息都有更好的表达能力.在3个公开可用的细粒度识别数据集上进行了验证,实验结果表明,所提方法有效性均优于基线方法,且达到了目前先进的分类水平. 相似文献
2.
现有基于深度学习的缺陷检测方法通常采用强监督学习策略,检测效果依赖于样本的数量和标注的质量.针对上述问题,提出弱监督学习下融合注意力机制的神经网络算法,仅使用图像级别标签便可同时预测缺陷的位置和概率.首先对多尺度感受野模块提取的特征应用特征融合网络,获取更多边缘细节信息;然后通过多层次的自编码器挖掘特征的深层语义信息;同时通过三线性全局注意力模块进一步细化浅层特征的空间位置信息;最后对浅层边缘特征和深层语义特征进行融合增强,得到最终的精细缺陷特征,达到高效准确的自动化表面缺陷检测的目的.基于PyTorch框架用KolektorSDD电转向器表面缺陷数据集验证所提算法,并与U-Net等缺陷检测算法进行对比.检测视觉效果显示,所提算法可以保留更多的细节纹理信息,能够有效扩大细微缺陷与复杂背景之间的特征差异.通过大量实验表明,该算法在复杂场景下比其他模型更为准确,其精准率、F1值和总体精度都有所提升. 相似文献
3.
深度学习依赖于大数据在很多的任务中取得巨大成功,但目前大部分方法都依赖于严格标注的数据,或者假定仅含一个物体大致位于图片近中心位置且背景较少。而现实场景中背景复杂,出现的物体多样,增加了分类的难度,而且标注的代价很大。本文关注于弱监督场景下的分类任务,提出了基于注意力机制(Attention)结合递归神经网络的深度模型,利用图片级的标注进行多标号学习,利用损失函数进行梯度下降训练自动调整关注区域,使模型每次关注图片的局域区域,并在数据集PASCAL VOC 2007/2012上验证算法的有效性,与其他方法相比具有更强的可解释性。 相似文献
4.
许多自然语言应用需要将输入的文本表示成一个固定长度的向量,现有的技术如词嵌入(Word Embeddings)和文档表示(Document Representation)为自然语言任务提供特征表示,但是它们没有考虑句子中每个单词的重要性差别,同时也忽略一个句子在一篇文档中的重要性差别.本文提出一个基于层级注意力机制的文档表示模型(HADR),而且考虑文档中重要的句子和句子中重要的单词因素.实验结果表明,在考虑了单词的重要和句子重要性的文档表示具有更好的性能.该模型在文档(IMBD)的情感分类上的正确率高于Doc2Vec和Word2Vec模型. 相似文献
5.
现有的弱监督检测方法主要采用多示例检测网络,但在这些方法中应用分类特征提取网络易使目标尤其是非刚性目标的检测结果收敛到目标最显著局部区域。提出一种基于双注意力擦除和注意力信息聚合的端到端的弱监督检测框架DAENet。双注意力擦除模块的目的在于擦除生成的最显著性局部前景区域和部分背景区域,以此来扩展目标显著性区域,使网络能够尽可能地关注目标整体,从而更好地捕获目标整体区域。此外,为准确定位不同目标区域并精确生成注意力擦除掩码,提出注意力信息聚合模块,该模块可提取通道的全局特征和局部特征,并引入空间依赖性进一步提高检测精度。通过将双注意力擦除和注意力信息聚合进行协同工作,从而更好地提高弱监督检测性能。在PASCAL VOC 2007和VOC 2012数据集上的实验结果表明,DAENet框架在两个数据集上的检测精度分别达到50.5%和47.4%,相比基准模型,在部分非刚性目标上的检测精度提高了约5%~20%。 相似文献
6.
7.
随着深度学习的发展,越来越多的深度学习模型被运用到了关系提取的任务中,但是传统的深度学习模型无法解决长距离依赖问题;同时,远程监督将会不可避免地产生错误标签。针对以上两个问题,提出一种基于GRU(gated recurrent unit)和注意力机制的远程监督关系抽取方法,首先通过使用GRU神经网络来提取文本特征,解决长距离依赖问题;接着在实体对上构建句子级的注意力机制,减小噪声句子的权重;最后在真实的数据集上,通过计算准确率、召回率并绘出PR曲线证明该方法与现有的一些方法相比,取得了比较显著的进步。 相似文献
8.
9.
随着深度学习的快速发展,计算机视觉领域对图像的分类研究不仅仅局限于识别出物体的类别,更需要在传统图像分类任务的基础上进行更细致的类别划分.通过对现有细粒度图像分类算法和模型的分析研究,提出一种基于Xception模型与WSDAN(weakly supervised data augmentation network)弱... 相似文献
10.
3D点云由于其无序性以及缺少拓扑信息使得点云的分类与分割仍具有挑战性.针对上述问题,我们设计了一种基于自注意力机制的3D点云分类算法,可学习点云的特征信息,用于目标分类与分割.首先,设计适用于点云的自注意力模块,用于点云的特征提取.通过构建领域图来加强输入嵌入,使用自注意力机制进行局部特征的提取与聚合.最后,通过多层感知机以及解码器-编码器的方式将局部特征进行结合,实现3D点云的分类与分割.该方法考虑了输入嵌入时单个点在点云中的局部语境信息,构建局部长距离下的网络结构,最终得到的结果更具区分度.在ShapeNetPart、RoofN3D等数据集上的实验证实所提方法的分类与分割性能较优. 相似文献
11.
在小数据集上从零开始训练时,视觉Transformer无法与同规模的卷积神经网络媲美。基于图像的局部注意力方法,可以显著提高ViT的数据效率,但是会丢失距离较远但相关的补丁之间的信息。为了解决上述问题,提出一种双向并行局部注意力视觉Transformer的方法。该方法首先在特征层面上对补丁进行分组,在组内执行局部注意力,以利用特征空间中补丁之间的关系弥补信息丢失。其次,为了有效融合补丁之间的信息,将基于语义的局部注意力和基于图像的局部注意力并行结合起来,通过双向自适应学习来增强ViT模型在小数据上的性能。实验结果表明,该方法在计算量为15.2 GFLOPs和参数量为57.2 M的情况下,分别在CIFAR-10和CIFAR-100数据集上实现了97.93%和85.80%的准确性。相比于其他方法,双向并行局部注意力视觉Transformer在增强局部引导能力的同时,保持了局部注意力所需属性的有效性。 相似文献
12.
目的 传统的糖尿病视网膜病变(糖网)(diabetic retinopathy, DR)依赖于早期病理特征的精确检测,但由于数据集缺乏病灶标记区域导致无法有效地建立监督性分类模型,引入其他辅助数据集又会出现跨域数据异质性问题;另外,现有的糖网诊断方法大多无法直观地从语义上解释医学模型预测的结果。基于此,本文提出一种端到端式结合域适应学习的糖网自动多分类方法,该方法协同注意力机制和弱监督学习加强优化。方法 首先,利用已标记病灶区域的辅助数据训练病灶检测模型,再将目标域数据集的糖网诊断转化为弱监督学习问题,依靠多分类预测结果指导深度跨域生成对抗网络模型,提升跨域的样本图像质量,用于微调病灶检测模型,进而过滤目标域中一些无关的病灶样本,提升多分类分级诊断性能。最后,在整体模型中融合注意力机制,从医学病理诊断角度提供可解释性支持其分类决策。结果 在公开数据集Messidor上进行糖网多分类评估实验,本文方法获得了71.2%的平均准确率和80.8%的AUC(area under curve)值,相比于其他多种方法具有很大优势,可以辅助医生进行临床眼底筛查。结论 结合域适应学习的糖网分类方法在没有... 相似文献
13.
赵宝;王梓涵;贾兆红;梁栋;刘强 《计算机辅助设计与图形学学报》2025,37(1):89-99
提取高描述性和强鲁棒性的点云局部特征描述符是点云配准中的关键环节.针对现有基于学习的描述符方法依赖于对噪声敏感的手工特征或不具有旋转不变性等问题,提出一种基于动态图卷积和PointNet的三维局部特征描述符生成网络,以提取具有旋转不变性和强泛化性的局部特征描述符.首先,将与局部参考框架对齐后的局部点云作为网络的输入,分别通过动态图卷积模型和PointNet模型提取输入点云中的局部几何特征和点特征,解决单一PointNet模型无法学习输入点集中点与点之间关系的问题;然后,为进一步提高网络的学习能力,提出一个由点自注意力模块和局部空间注意力模块组成的双重注意力机制层,用于更好地融合2个模型提取到的特征,来获取最终的描述符特征.在室内数据集3DMatch和室外数据集ETH和KITTI上的大量实验表明:所提网络在3DMatch上的特征匹配召回率达到98.2%,在ETH和KITTI上的特征匹配召回率和正确率分别达到98.7%和99.82%,验证了方法的有效性. 相似文献
14.
针对目前话题归类模型中文本逻辑结构特征与文本组织结构特征利用不充分的问题,该文提出一种面向文本结构的混合分层注意力网络的话题归类模型(TSOHHAN)。文本结构包括逻辑结构和组织结构,文本的逻辑结构包括标题和正文等信息;文本的组织结构包括字—词语—句层次。TSOHHAN模型采用竞争机制融合标题和正文以增强文本逻辑结构特征在话题归类中的作用;同时该模型采用字-词语-句层次的注意力机制增强文本组织结构特征在话题归类中的作用。在4个标准数据集上的实验结果表明,TSOHHAN模型能够提高话题归类任务的准确率。 相似文献
15.
传统的服装多类别分类方法主要是人工提取图像的颜色、纹理、边缘等特征,这些人工选取特征方法过程繁琐且分类精度较低。深度残差网络可通过增加神经网络的深度获得较高的识别精度被广泛地应用于各个领域。为提高服装图像识别精度问题,提出一种改进深度残差网络模型:改进残差块中卷积层、调整批量归一化层与激活函数层中的排列顺序;引入注意力机制;调整网络卷积核结构。该网络结构在标准数据集Fashion-MNIST和香港中文大学多媒体实验室提供的多类别大型服装数据集(DeepFashion)上进行测试,实验结果表明,所提出的网络模型在服装图像识别分类精度上优于传统的深度残差网络。 相似文献
16.
和实验室环境不同,现实生活中的人脸表情图像场景复杂,其中最常见的局部遮挡问题会造成面部外观的显著改变,使得模型提取到的全局特征包含与情感无关的冗余信息从而降低了判别力.针对此问题,本文提出了一种结合对比学习和通道-空间注意力机制的人脸表情识别方法,学习各局部显著情感特征并关注局部特征与全局特征之间的关系.首先引入对比学习,通过特定的数据增强方法设计新的正负样本选取策略,对大量易获得的无标签情感数据进行预训练,学习具有感知遮挡能力的表征,再将此表征迁移到下游人脸表情识别任务以提高识别性能.在下游任务中,将每张人脸图像的表情分析问题转化为多个局部区域的情感检测问题,使用通道-空间注意力机制学习人脸不同局部区域的细粒度注意力图,并对加权特征进行融合,削弱遮挡内容带来的噪声影响,最后提出约束损失联合训练,优化最终用于分类的融合特征.实验结果表明,无论是在公开的非遮挡人脸表情数据集(RAFDB和FER2013)还是人工合成的遮挡人脸表情数据集上,所提方法都取得了与现有先进方法可媲美的结果. 相似文献
17.
细粒度图像分类是计算机视觉领域一个具有挑战性的任务,在实际场景中具有很高的应用价值。其中不同子类别的物体整体轮廓差异较小,微小的判别性局部区域是分类的关键。然而,这些重要的局部区域的尺度可能不同, 不能用单一的标准去衡量它们。为了解决这个问题,本文提出了多粒度空间混乱模块来帮助神经网络学习如何寻找到不同尺度的判别性细节。该模块首先将图片划分为不同粒度的局部区域,然后随机打乱并重组构成新的输入图片。经过处理的图片具有区域无关性,从而迫使网络更好地在不同粒度层次下寻找有判别力的局部区域并从中学习特征。在3个广泛使用的细粒度图像分类数据集上的实验证明本文提出的模块可以有效地帮助网络寻找判别性局部区域从而提升了准确率并且网络不需要图片的任何部位标注信息。 相似文献
18.
目的 微表情是人自发产生的一种面部肌肉运动,可以展现人试图掩盖的真实情绪,在安防、嫌疑人审问和心理学测试等有潜在的应用。为缓解微表情面部肌肉变化幅度小、持续时间短所带来的识别准确率低的问题,本文提出了一种用于识别微表情的时空注意力网络(spatiotemporal attention network,STANet)。方法 STANet包含一个空间注意力模块和一个时间注意力模块。首先,利用空间注意力模块使模型的注意力集中在产生微表情强度更大的区域,再利用时间注意力模块对微表情变化更大因而判别性更强的帧给予更大的权重。结果 在3个公开微表情数据集(The Chinese Academy of Sciences microexpression,CASME;CASME II;spontaneous microexpression database-high speed camera,SMIC-HS)上,使用留一交叉验证与其他8个算法进行了对比实验。实验结果表明,STANet在CASME数据集上的分类准确率相比于性能第2的模型Sparse MDMO(sparse main directional mean optical flow)提高了1.78%;在CASME II数据集上,分类准确率相比于性能第2的模型HIGO(histogram of image gradient orientation)提高了1.90%;在SMIC-HS数据集上,分类准确率达到了68.90%。结论 针对微表情肌肉幅度小、产生区域小、持续时间短的特点,本文将注意力机制用于微表情识别任务中,提出了STANet模型,使得模型将注意力集中于产生微表情幅度更大的区域和相邻帧之间变化更大的片段。 相似文献
19.
中文短文本具有特征稀疏、歧义多、信息不规范、文本情感丰富等特点,现有基于深度学习的中文短文本情感分类模型具有提取文本特征不充分和只注重语义信息而忽视句法信息的问题.针对上述问题提出融合双通道特征的中文短文本情感分类模型.预训练模型得到动态词向量,赋予模型更丰富的语言特征和明确的句法信息.双通道提取动态词向量的文本特征,上侧通道改进了 DPCNN网络,提取文本丰富的长距离依赖关系;下侧通道建立双向长短期记忆网络各时间的字词特征和文本特征的多头自注意力关系,学习更加充分的文本特征,对分类结果较为关键的词汇给予更多的关注.将双通道的特征信息拼接获得最终的文本表示.实验结果表明,该分类模型在Chn-SentiCorp、微博评论和电商评论数据集的准确率分别能够达到96.54%、92.05%和94.3%,对比模型准确率平均值高2.28、2.44和1.01个百分点.融合双通道特征的中文短文本情感分类模型能有效提高文本分类准确率,为中文短文本情感分类提供了新的理论模型. 相似文献