首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 176 毫秒
1.
通过肉眼识别鱼类疫病依赖于诊断人员的经验,疫病数据存在类间差距较小与识别效率低等细粒度问题。由于Transformer缺乏卷积神经网络(CNN)的归纳偏差,需要大量的数据进行训练;CNN对全局特征提取不足,泛化性能较差等问题限制模型的分类精度。基于特征图对所有像素的全局交互建立算法模型,提出一种基于CNN与Vision Transformer相结合的鱼类疫病识别模型(CViT-FDRM)。首先,搭建鱼类疫病的数据库FishData01;其次,利用CNN提取鱼类图像细粒度特征,采用Transformer模型自注意力机制获取图像全局信息进行并行训练;然后,采用组归一化层将样本通道分组求均值与标准差;最后,采用404张鱼类疫病图像进行测试,CViT-FDRM达到97.02%的识别准确率。在细粒度图像开源数据库Oxford Flowers上的实验结果表明,CViT-FDRM的分类精度优于主流的细粒度图像分类算法,可达95.42%,提高4.84个百分点。CViT-FDRM在细粒度图像识别方面可达到较好的效果。  相似文献   

2.
传统的花卉图像分类都是基于人工手动选择单一特征或者多特征融合再分类,这种方法普遍存在精度低、成本高、泛化能力弱等缺陷,针对目前深度学习在细粒度图像分类中的应用,提出一种基于残差网络、实现端到端的花卉图像分类方法。首先以ResNet18为基础模型,其次将全卷积结构的思想应用于网络模型中,将ResNet18的全连接层替换成卷积层以优化网络模型,最后在优化后的ResNet18中融入混合域注意力机制,由Softmax层进行分类。本文选取了Oxford17flowers和Oxford102flowers两个花卉图像数据集做对比试验,与前人的花卉图像分类方法对比,本文的方法取得了理想的效果,在Oxford17和Oxford102上分别取得了99.26% 以及99.02%的正确率,提出了一种基于注意力的残差结构改进方法,相较于前人的花卉图像分类方法,该方法能够更有效地提取关键信息的特征,抑制干扰区域的信息,对花卉图像分类具有显著性效果,适用于细粒度图像分类。  相似文献   

3.
为解决高分辨率遥感图像所具有的类内差异大而类间差异小的特性导致的图像难分类问题,提出一种基于深度学习中卷积神经网络与Transformer优点的混合结构。对卷积层提取的特征信息使用两个带有空间位置信息的注意力机制,分别沿水平方向和垂直方向对每个通道进行特征聚集,以减少遥感场景特征的冗余映射,使网络能够提取更多与任务目标相关的信息。然后利用Transformer编码器结构对捕获的特征图进行编码操作,赋予特征图中感兴趣区域较大的权重。实验结果表明,与现有的基于深度学习的遥感图像分类方法相比,所提方法既降低了模型参数量,又提升了分类准确率,在遥感图像分类数据集AID、NWPU-RESISC45及VGoogle上均达到了最高的平均分类准确率,分别为98.95%、96.00%和95.01%。  相似文献   

4.
细粒度图像分类的目标是区分同一个常见类下的不同子类,由于数据集往往存在较大的类内差异和较大的类间相似性,细粒度图像分类相比于传统图像分类具有更大的挑战性。以往工作中,基于组件的方法和基于注意力的方法致力于挖掘图像中的判别力区域,而忽视了用来区分易混淆类别的微弱差异。为了解决以上问题,本文提出了一个基于多视角融合的细粒度图像分类方法,包含两个分支,其中一个分支基于特征图挖掘图像的局部特征,另一个分支则学习图像的全局特征。同时引入一种嵌入损失,与传统多分类交叉熵损失函数结合增强特征的判别性,进而提升模型的分类性能。所提方法仅使用图像级标签,在CUB-200-2011,Stanford Cars和FGVC Aircraft这三个基准数据集上的分类准确率分别达到了88.3%,94.3%和92.4%,实验结果表明所提方法相比其它细粒度图像分类方法具有一定的优越性。   相似文献   

5.
细粒度图像具有不同子类间差异小、相同子类内差异大的特点。现有网络模型在处理过程中存在特征提取能力不足、特征表示冗余和归纳偏置能力弱等问题,因此提出一种改进的Transformer图像分类模型。首先,利用外部注意力取代原Transformer模型中的自注意力,通过捕获样本间相关性提升模型的特征提取能力;其次,引入特征选择模块筛选区分性特征,去除冗余信息,加强特征表示能力;最后,引入融合的多元损失,增强模型归纳偏置和区分不同子类、归并相同子类的能力。实验结果表明,所提方法在CUB-200-2011、Stanford Dogs和Stanford Cars三个细粒度图像数据集上的分类精度分别达89.8%、90.2%和94.7%,优于多个主流的细粒度图像分类方法,分类结果较好。  相似文献   

6.
杨洁  董标  付雪  王禹  桂冠 《通信学报》2022,(7):134-142
为了解决集中式学习存在的问题,提出了一种基于轻量化网络的分布式学习方法。分布式学习利用边缘设备进行本地训练和模型权重共享的方法训练同一个全局模型,既充分利用了各边缘设备的训练数据,又避免了边缘设备数据泄露。轻量化网络是一种由多个轻量化神经网络块堆叠而成的深度学习模型,相较于传统的深度学习模型,轻量化网络以较低的空间复杂度和时间复杂度实现较高的调制分类性能,有效地解决了分布式学习在实际部署中存在的边缘设备算力不足、存储空间有限及通信开销较高的问题。实验结果表明,基于分布式学习的自动调制信号分类技术在RadioML.2016.10A数据集的分类准确率为62.41%,相比于集中式学习,分类准确率仅降低了0.68%,训练效率提高了近5倍。实验结果也证明了在分布式学习下,部署轻量化网络可以有效降低通信开销。  相似文献   

7.
光学相干层析成像(OCT)在眼科方面的应用通常受到散斑噪声和低分辨率的影响。目前主流的OCT图像超分辨率重建方法多基于卷积神经网络,往往存在成像质量低、图像过度平滑和边缘细节缺失等情况。本文提出了基于Transformer的OCT视网膜图像超分辨率网络——TESR。TESR加入了边缘增强模块,以加强边缘信息对模型的影响,提高视网膜各层边缘的清晰度;新提出的金字塔长程Transformer模块融合了局部特征和全局表示,对图像的内部信息进行长程建模,能更有效地学习更丰富的图像特征。实验结果表示:本文所提TESR模型在峰值信噪比和结构相似度这两个指标上比其他经典模型均有一定程度的提高,在学习感知图像块相似度这一指标上表现优秀,同时在主观视觉质量上也有明显提高,泛化能力较强。  相似文献   

8.
目前主流的深度融合方法仅利用卷积运算来提取图像局部特征,但图像与卷积核之间的交互过程与内容无关,且不能有效建立特征长距离依赖关系,不可避免地造成图像上下文内容信息的丢失,限制了红外与可见光图像的融合性能。为此,本文提出了一种红外与可见光图像多尺度Transformer融合方法。以Swin Transformer为组件,架构了Conv Swin Transformer Block模块,利用卷积层增强图像全局特征的表征能力。构建了多尺度自注意力编码-解码网络,实现了图像全局特征提取与全局特征重构;设计了特征序列融合层,利用SoftMax操作计算特征序列的注意力权重系数,突出了源图像各自的显著特征,实现了端到端的红外与可见光图像融合。在TNO、Roadscene数据集上的实验结果表明,该方法在主观视觉描述和客观指标评价都优于其他典型的传统与深度学习融合方法。本方法结合自注意力机制,利用Transformer建立图像的长距离依赖关系,构建了图像全局特征融合模型,比其他深度学习融合方法具有更优的融合性能和更强的泛化能力。  相似文献   

9.
提出了一种结合卷积神经网络和改进的Transformer Encoder网络的并联网络模型——ConEncoder。其中卷积支路结合了残差连接和SE模块用于提取信号的局部特征,Encoder支路去除传统的位置编码,用于提取信号的全局特征,最后融合二种特征,实现了在复杂的海底环境下对8种水声信号调制方式的高准确率识别,识别准确率可达98%以上。相较于基于专家特征进行识别的传统机器学习算法和常用的神经网络都具有更好的识别性能。  相似文献   

10.
细粒度图像识别研究的内容是大类下的子类别识别问题,其关键是找到图像中的关键区域并从中提取有效特征.针对现有方法在定位关键区域时无法兼顾准确性和计算量的问题,提出了一种引入高效通道注意力模块的多分支网络.首先,在递归注意力卷积神经网络的基础上引入通道注意力定位图像中目标的位置.然后,用深度超参数化卷积替换传统卷积操作,增加了网络可学习的参数.最后,用改进的注意力部件模块切割出多个图像关键区域部件,以捕捉丰富的局部信息.实验结果表明,本方法在弱监督情况下的识别效果较好,在两个常用细粒度数据集Stanford Cars、Food-101上的识别准确率分别为95.4%和90.6%.  相似文献   

11.
为了满足目标检测任务实时性的要求,基于轻量级深度学习目标检测网络SSD_Mobilenetv1,通过改进其网络结构,以及增加更细粒特征图参与位置回归和分类来综合网络的上下文信息及引入反残差模块提升网络提取特征的能力,实验表明在保证实时检测速度的同时提高了检测精度,并在KITTI数据集上进行训练验证,取得了良好的效果。  相似文献   

12.
The underlining task for fine-grained image recognition captures both the inter-class and intra-class discriminate features. Existing methods generally use auxiliary data to guide the network or a complex network comprising multiple sub-networks. They have two significant drawbacks: (1) Using auxiliary data like bounding boxes requires expert knowledge and expensive data annotation. (2) Using multiple sub-networks make network architecture complex and requires complicated training or multiple training steps. We propose an end-to-end Spatial Self-Attention Network (SSANet) comprising a spatial self-attention module (SSA) and a self-attention distillation (Self-AD) technique. The SSA encodes contextual information into local features, improving intra-class representation. Then, the Self-AD distills knowledge from the SSA to a primary feature map, obtaining inter-class representation. By accumulating classification losses from these two modules enables the network to learn both inter-class and intra-class features in one training step. The experiment findings demonstrate that SSANet is effective and achieves competitive performance.  相似文献   

13.
光伏故障检测对光伏电站智能运维具有重要意义。针对光伏组件红外图像中热斑目标小、难检测的问题,研究了基于改进Faster R CNN的光伏组件红外热斑故障检测模型。将Swin Transformer作为Faster R CNN模型中的特征提取模块,捕获图像的全局信息,建立特征之间的依赖关系,提高模型的建模能力;进一步利用BiFPN进行特征融合,改善了热斑故障由于目标小和特征不明显容易被模型忽略掉的问题;同时为了抑制光伏红外图像中背景和噪声的干扰,加入轻量级注意力模块CBAM,使模型更加关注重要通道和关键区域,提高对热斑故障检测精度。在自建光伏组件图像数据集上进行实验,热斑故障检测精度高达915,验证了本文模型对光伏组件热斑故障检测的有效性。  相似文献   

14.
由于浅层卷积神经网络(convolutional neural network,CNN)模型感受野的限制,无法捕获远距离特征,在高光谱图像 (hyperspectral image,HSI) 分类问题中无法充分利用图像空间-光谱信息,很难获得较高精度的分类结果。针对上述问题,本文提出了一种基于卷积神经网络与注意力机制的模型(model based on convolutional neural network and attention mechanism,CNNAM),该模型利用CA (coordinate attention)对图像通道数据进行位置编码,并利用以自注意力机制为核心架构的Transformer模块对其进行远距离特征提取以解决CNN感受野的限制问题。CNNAM在Indian Pines和Salinas两个数据集上得到的总体分类精度分别为97.63%和99.34%,对比于其他模型,本文提出的模型表现出更好的分类性能。另外,本文以是否结合CA为参考进行了消融实验,并证明了CA在CNNAM中发挥重要作用。实验证明将传统CNN与注意力机制相结合可以在HSI分类问题中获得更高的分类精度。  相似文献   

15.
熊炜  孙鹏  赵迪  刘粤 《光电子.激光》2023,34(11):1158-1167
自然场景文本识别中采用固定大小的卷积核提取视觉特征,后仅进行字符分类的方法,其全局建模能力弱且忽视了文本语义建模的重要性,因此,本文提出一种基于字符注意力的自然场景文本识别方法。首先构建不同于卷积网络的多级efficient Swin Transformer提取特征,其可使不同窗口的特征进行信息交互;其次设计了字符注意力模块(character attention module, CAM),使网络专注于字符区域的特征,以提取识别度更高的视觉特征;并设计语义推理模块(semantic reasoning module, SRM),根据字符的上下文信息对文本序列进行建模,获得语义特征来纠正不易区分或模糊的字符;最后融合视觉和语义特征,分类得到字符识别结果。实验结果表明,在规则文本数据集IC13上识别准确率达到了95.2%,在不规则的弯曲文本数据集CUTE上达到了85.8%,通过消融及对比实验证明了本文提出的方法可行。  相似文献   

16.
针对乳腺钼靶图像中良恶性肿块难以诊断的问题,提出一种基于注意力机制与迁移学习的乳腺钼靶肿块分类方法,并用于医学影像中乳腺钼靶肿块的良恶性分类。首先,构建一种新的网络模型,该模型将注意力机制CBAM(Convolutional Block Attention Module)与残差网络ResNet50相结合,用于提高网络对肿块病变特征的提取能力,增强特定语义的特征表示。其次,提出一种新的迁移学习方法,用切片数据集代替传统方法中作为迁移学习源域的ImageNet,完成局部肿块切片到全局乳腺图片的领域自适应学习,可用于提升网络对细节病理特征的感知能力。实验结果表明,所提方法在局部乳腺肿块切片数据集和全局乳腺钼靶数据集上的AUC(Area Under Receiver Operating Characteristics Curve)分别达到0.8607和0.8081。结果证实本文分类方法的有效性。  相似文献   

17.
随着计算机技术的进步,现有的Transformer被 扩展成处理计算机视觉任务的网络结 构。为提高黑色素瘤的早期确诊率以提高皮肤病患者的治愈率,本文提出一种改进的基于 PiT(pyramid pooling transformer)的网络模型来实现对7种皮肤病变的皮肤镜图像进行自 动 分类。本文模型主要由PiT模块和抗干扰模块等2个部分组成,Pit继承了ViT的优点,并通 过池化进行空间尺寸转换来提高模型的鲁棒性,经过预训练的PiT网络拥有大量的自然图像 特征,且PiT部分网络可为下游的分类任务提供所需的图像特征,本文设计出抗干扰模块, 用来抵抗皮肤镜图像中的干扰因素(如毛发、异物遮挡)的影响,从而提高模型性能、提高分 类精度。实验结果表明,本文模型 在 ISIC 2018验证集上的分类准确 率、精确率、召回率、 F1-score值分别高达91.58%、83.59%、89.92%、86.34%,每秒传输帧数(frames per second,FPS)达到85Hz与 现有的几种先进的分类网络相比,分类性能和模型效率都有所提高,具有相对优势,证明本 文模型具有一定的实用价值。  相似文献   

18.
近年来,基于骨架的人体动作识别任务因骨架数据的鲁棒性和泛化能力而受到了广泛关注。其中,将人体骨骼建模为时空图的图卷积网络取得了显著的性能。然而图卷积主要通过一系列3D卷积来学习长期交互联系,这种联系偏向于局部并且受到卷积核大小的限制,无法有效地捕获远程依赖关系。该文提出一种协作卷积Transformer网络(Co-ConvT),通过引入Transformer中的自注意力机制建立远程依赖关系,并将其与图卷积神经网络(GCNs)相结合进行动作识别,使模型既能通过图卷积神经网络提取局部信息,也能通过Transformer捕获丰富的远程依赖项。另外,Transformer的自注意力机制在像素级进行计算,因此产生了极大的计算代价,该模型通过将整个网络分为两个阶段,第1阶段使用纯卷积来提取浅层空间特征,第2阶段使用所提出的ConvT块捕获高层语义信息,降低了计算复杂度。此外,原始Transformer中的线性嵌入被替换为卷积嵌入,获得局部空间信息增强,并由此去除了原始模型中的位置编码,使模型更轻量。在两个大规模权威数据集NTU-RGB+D和Kinetics-Skeleton上进行实验验证,该模型分...  相似文献   

19.
近年来,随着空间感知技术的不断发展,对多源遥感图像的融合处理需求也逐渐增多,如何有效地提取多源图像中的互补信息以完成特定任务成为当前的研究热点。针对多源遥感图像融合语义分割任务中,多源图像的信息冗余和全局特征提取难题,本文提出一种将多光谱图像(Multispectral image, MS)、全色图像(Panchromatic image, PAN)和合成孔径雷达 (Synthetic Aperture Radar, SAR)图像融合的基于Transformer的多源遥感图像语义分割模型Transformer U-Net (TU-Net)。该模型使用通道交换网络(Channel-Exchanging-Network, CEN)对融合支路中的多源遥感特征图进行通道交换,以获得更好的信息互补性,减少数据冗余。同时在特征图拼接后通过带注意力机制的Transformer模块对融合特征图进行全局上下文建模,提取多源遥感图像的全局特征,并以端到端的方式分割多源图像。在MSAW数据集上的训练和验证结果表明,相比目前的多源融合语义分割算法,在F1值和Dice系数上分别提高了3.31%~11.47%和4.87%~8.55%,对建筑物的分割效果提升明显。   相似文献   

20.
针对现有深度学习分类方法对稳态视觉诱发电位相位与频率信息利用不充分的问题,该文提出一种用于稳态视觉诱发电位(SSVEP)分类的卷积神经网络模型.该模型以经过快速傅里叶变换后的复向量作为输入,首先对各个导联的实部向量和虚部向量进行卷积,学习相位信息;随后引入空间注意力机制,对判别频率信息进行增强;然后使用2维卷积和最大池...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号