共查询到18条相似文献,搜索用时 62 毫秒
1.
为进一步提高人脸表情识别的准确率,提出一种融合全局与局部特征的深度卷积神经网络算法(GL-DCNN).该算法由两个改进的卷积神经网络分支组成,全局分支和局部分支,分别用于提取全局特征和局部特征,对两个分支的特征进行加权融合,使用融合后的特征进行分类.首先,提取全局特征,全局分支基于迁移学习,使用改进的VGG19网络模型... 相似文献
2.
针对现有肺炎医学影像识别研究在浅层网络忽略全局特征导致特征提取不全且模型规模较大的问题, 提出了一种基于CNN和注意力机制的轻量化模型提高肺炎类型的识别效率. 采用轻量化模型结构减少模型参数量, 通过增大卷积核, 引入高效通道注意力和自注意力机制解决网络重要信息丢失和无法提取底层全局信息的问题, 通过双分支并行提取局部和全局信息并使用多尺度通道注意力提高二者融合质量, 使用CLAHE算法优化原始数据. 实验结果表明, 该模型在保证轻量性的同时准确率、灵敏度、特异性较原模型分别提高2.59%, 3.1%, 1.38%, 并优于当前优秀的其他分类模型, 具有更强的实用性. 相似文献
3.
目的 基于计算机的胸腔X线影像疾病检测和分类目前存在误诊率高,准确率低的问题。本文在视觉Transformer(vision Transformer,ViT)预训练模型的基础上,通过迁移学习方法,实现胸腔X线影像辅助诊断,提高诊断准确率和效率。方法 选用带有卷积神经网络(convolutional neural network,CNN)的ViT模型,其在超大规模自然图像数据集中进行了预训练;通过微调模型结构,使用预训练的ViT模型参数初始化主干网络,并迁移至胸腔X线影像数据集中再次训练,实现疾病多标签分类。结果 在IU X-Ray数据集中对ViT迁移学习前、后模型平均AUC(area under ROC curve)得分进行对比分析实验。结果表明,预训练ViT模型平均AUC得分为0.774,与不使用迁移学习相比提升了0.208。并针对模型结构和数据预处理进行了消融实验,对ViT中的注意力机制进行可视化,进一步验证了模型有效性。最后使用Chest X-Ray14和CheXpert数据集训练微调后的ViT模型,平均AUC得分为0.839和0.806,与对比方法相比分别有0.014~0.03... 相似文献
4.
目的 高度适形放射治疗是常用的癌症治疗方法,该方法的有效性依赖于对癌组织和周边多个危及器官(organ at risk,OAR)解剖结构的精确刻画,因此研究三维图像多器官的高精度自动分割具有重要意义。以视觉Transformer(vision Transformer,ViT)和卷积神经网络(convolutional neural network,CNN)结合为代表的三维医学图像分割方法表现出了丰富的应用优势。然而,这类方法往往忽略同一尺度内和不同尺度间的信息交互,使得CNN和ViT特征的提取和融合受限。本文提出一种端到端多器官分割网络LoGoFUNet(local-global-features fusion UNet),旨在应对现有方法的缺陷。方法 首先,针对单一器官分割,提出在同一尺度下并行提取并融合CNN和ViT特征的LoGoF(local-global-features fusion)编码器,并构建了一个端到端的三维医学图像分割多尺度网络M0。此外,考虑到器官内部以及器官之间的相互关系,该方法在M0网络的基础上设计并引入了多尺度交互(multi-scale interacti... 相似文献
5.
目的 病理学检查是明确乳腺癌诊断及肿瘤类型的金标准。深度神经网络广泛应用于乳腺病理全切片的诊断工作并取得了明显进展,但是现有大多数工作只是将全切片切割成小图像块,对每个图像块进行单独处理,没有考虑它们之间的空间信息。为此,提出了一种融合空间相关性特征的乳腺组织病理全切片分类方法。方法 首先基于卷积神经网络对病理图像块进行预测,并提取每个图像块有代表性的深层特征,然后利用特征融合将图像块及其周围图像的特征进行聚合,以形成具有空间相关性的块描述符,最后将全切片图像中最可疑的块描述符传递给循环神经网络,以预测最终的全切片级别的分类。结果 本文构建了一个经过详细标注的乳腺病理全切片数据集,并在此数据集上进行良性/恶性二分类实验。在自建的数据集中与3种全切片分类方法进行了比较。结果表明,本文方法的分类精度达到96.3%,比未考虑空间相关性的方法高出了1.9%,与基于热力图特征和基于空间性和随机森林的方法相比,分类精度分别高出8.8%和1.3%。结论 本文提出的乳腺组织病理全切片识别方法将空间相关性特征融合和RNN分类集成到一个统一模型,有助于提高图像识别准确率,为病理图像诊断工作提供了高效的辅助... 相似文献
6.
高云霏;吕伏;冯永安 《计算机工程与应用》2025,61(10):214-227
为解决深度学习算法在处理细粒度纹理特征的矿石图像时准确率低、计算资源需求大且难以在移动端部署的问题,提出一种跨通道细粒度特征融合的轻量级矿石图像分类算法。通过交替使用CNN与Transformer构建混合网络,以有效提取图像局部与全局信息;引入跨通道细粒度特征融合模块作为特征融合器,采用通道分组和随机通道混洗的融合策略,增强矿石纹理信息的获取能力和保持细粒度特征的多样性;利用多尺度轻量化自注意力模块降低模型参数,增强对不同尺度和空间位置的感知,确保训练的稳定性并避免过度拟合低级特征;构建高效坐标注意力模块作为细粒度特征提取器,实现轻量化和高效率的特征提取。所提算法在Kaggle平台的Mineral Photos和Petrology Thin Section Data两个公开矿石图像数据集上分别取得了95.78%和94.77%的分类准确率,相较于其他9种轻量级分类网络,如ShuffleNetV2、MobileNetV3、RegNet、ConvNeXtV2、LeViT、EdgeViTs、AFFNeT、EdgeNeXt和MViTV2,所提算法具有更少的参数(1.27 MB)、更低的计算量(269 MFLOPs)和更快的分类速度(219 FPS)。 相似文献
7.
目的 深度伪造视频检测是目前计算机视觉领域的热点研究问题。卷积神经网络和Vision Transformer(ViT)都是深度伪造检测模型中的基础结构,二者虽各有优势,但都面临训练和测试阶段耗时较长、跨压缩场景精度显著下降问题。针对这两类模型各自的优缺点,以及不同域特征在检测场景下的适用性,提出了一种高效的CNN(convolutional neural network)结合Transformer的联合模型。方法 设计基于Efficient Net的空间域特征提取分支及频率域特征提取分支,以丰富单分支的特征表示。之后与Transformer的编码器结构、交叉注意力结构进行连接,对全局区域间特征相关性进行建模。针对跨压缩、跨库场景下深度伪造检测模型精度下降问题,设计注意力机制及嵌入方式,结合数据增广策略,提高模型在跨压缩率、跨库场景下的鲁棒性。结果 在Face Forensics++的4个数据集上与其他9种方法进行跨压缩率的精度比较,在交叉压缩率检测实验中,本文方法对Deepfake、Face2Face和Neural Textures伪造图像的检测准确率分别达到90.35%、71.79%... 相似文献
8.
卷积神经网络(convolutional neural network;CNN)关注局部特征;难以获得全局结构信息;Transformer网络建模长距离的特征依赖;但易忽略局部特征细节。提出了一种跨注意力融合学习的行人重识别算法;利用CNN和Transformer特征学习网络的特点;在丰富行人局部特征的同时改善特征的全局表达能力。该模型由三个部分构成:CNN分支主要提取局部细节信息;Transformer分支侧重于关注全局特征信息;跨注意力融合分支通过自注意力机制计算上述两个分支特征的相关性;进而实现特征融合;最终提高模型的表征能力。剥离实验以及在Market1501和DukeMTMC-reID数据集的实验结果证明了所提方法的有效性。 相似文献
9.
目的 针对传统红外与可见光图像融合方法中人工设计特征提取和特征融合的局限性,以及基于卷积神经网络(convolutional neural networks, CNN)的方法无法有效提取图像中的全局上下文信息和特征融合过程中融合不充分的问题,本文提出了基于视觉Transformer和分组渐进式融合策略的端到端无监督图像融合网络。方法 首先,将在通道维度上进行自注意力计算的多头转置注意力模块和通道注意力模块组合成视觉Transformer,多头转置注意力模块解决了自注意力计算量随像素大小呈次方增大的问题,通道注意力可以强化突出特征。其次,将CNN和设计的视觉Transformer并联组成局部—全局特征提取模块,用来提取源图像中的局部细节信息和全局上下文信息,使提取的特征既具有通用性又具有全局性。此外,为了避免融合过程中信息丢失,通过将特征分组和构造渐进残差结构的方式进行特征融合。最后,通过解码融合特征得到最终的融合图像。结果 实验在TNO数据集和RoadScene数据集上与6种方法进行比较。主观上看,本文方法能够有效融合红外图像和可见光图像中的互补信息,得到优质的融合图像。从客观定量分析... 相似文献
10.
心率失常是心血管疾病诊断的重要手段,其自动分类具有重要的临床意义。为了提高心率失常分类的准确性,结合一维卷积神经网络(Convolutional Neural Networks,CNN)和注意力机制(Attention)提出了一种CNN+Attention的深度学习模型,使用CNN提取心电信号的一维时域特征。针对一维时序心电信号时域特征表征能力有限的问题,使用短时傅里叶变换(Short-Time Fourier transform,STFT)将心电信号变换到时频域,通过Attention提取心电信号的时频域全局相关依赖关系,将时域与时频域特征融合对5种类型心电信号进行分类。在MIT-BIH数据集上验证了模型的有效性,所提模型对5种类型心电信号的平均分类准确率、精准率、召回率、灵敏度以及F1_Score分别为99.72%、98.55%、99.46%、99.90%以及99.00%。与已有先进方法对比,验证了所提模型具有先进的性能表现。 相似文献
11.
《计算机工程与应用》2023,59(19)
针对现有人群定位方法采用伪边界框或预先设计的定位图;需要复杂的预处理和后处理来获得头部位置的问题;提出一种基于弱监督的端到端人群定位网络LocalFormer。在特征提取阶段;将纯Transformer作为骨干网络;并对每个阶段的特征执行全局最大池化操作;提取更加丰富的人头细节信息。在编码器-解码器阶段;将聚合特征嵌入位置信息作为编码器的输入;且每个解码器层采用一组可训练嵌入作为查询;并将编码器最后一层的视觉特征作为键和值;解码后的特征用于预测置信度得分。通过二值化模块自适应优化阈值学习器;从而精确地二值化置信度图。在不同数据环境下对三个数据集进行实验;结果表明该方法实现了最佳定位性能。 相似文献
12.
人群计数广泛应用在公共安防、视频监控和智慧城市建设等领域,对控制特定场所人数、指挥公共交通、防止疫情蔓延、保障社会稳定具有重要积极意义。传统的计数方法精度不高、场景受限,随着深度学习的发展,传统方法逐渐被卷积神经网络(convolutional neural network,CNN)方法代替。介绍了人群计数的研究背景、现状和发展趋势,叙述了两种传统方法;从计数精度、网络结构、评价指标和数据集等方面重点分析了CNN方法,发现CNN技术可以有效解决多尺度和跨场景等问题;阐述了基于Vision Transformer(ViT)序列的弱监督计数方法并且对比各类方法。对未来人群计数的研究前景做出展望。 相似文献
13.
目的 准确可靠的头像分析在正畸诊断、术前规划以及治疗评估中起着重要作用,其常依赖于解剖关键点间的相互关联。然而,人工注释往往受限于速率与准确性,并且不同位置的结构可能共享相似的图像信息,这使得基于卷积神经网络的方法难有较高的精度。Transformer在长期依赖性建模方面具有优势,这对确认关键点的位置信息有所帮助,因此开发一种结合Transformer的头影关键点自动检测算法具有重要意义。方法 本文提出一种基于卷积增强型Transformer的U型架构用于侧位头影关键点定位,并将其命名为CETransNet (convolutional enhancedTransformer network)。通过改进Transformer模块并将其引入至U型结构中,在建立全局上下文连接的同时也保留了卷积神经网络获取局部信息的能力。此外,为更好地回归预测热图,提出了一种指数加权损失函数,使得监督学习过程中关键点附近像素的损失值能得到更多关注,并抑制远处像素的损失。结果 在2个测试集上,CETransNet分别实现了1.09 mm和1.39 mm的定位误差值,并且2 mm内精度达到了87.19%和76.08%。此外,测试集1中共有9个标志点达到了100%的4 mm检测精度,同时多达12个点获得了90%以上的2 mm检测精度;测试集2中,尽管只有9个点满足90%的2 mm检测精度,但4 mm范围内有10个点被完全检测。结论 CETransNet能够快速、准确且具备鲁棒性地检测出解剖点的位置,性能优于目前先进方法,并展示出一定的临床应用价值。 相似文献
14.
Transformer是一种基于自注意力机制的深度神经网络。近几年,基于Transformer的模型已成为计算机视觉领域的热门研究方向,其结构也在不断改进和扩展,比如局部注意力机制、金字塔结构等。通过对基于Transformer结构改进的视觉模型,分别从性能优化和结构改进两个方面进行综述和总结;也对比分析了Transformer和CNN各自结构的优缺点,并介绍了一种新型的CNN+Transformer的混合结构;最后,对Transformer在计算机视觉上的发展进行总结和展望。 相似文献
15.
目的 场景文本检测是场景理解和文字识别领域的重要任务之一,尽管基于深度学习的算法显著提升了检测精度,但现有的方法由于对文字局部语义和文字实例间的全局语义的提取能力不足,导致缺乏文字多层语义的建模,从而检测精度不理想。针对此问题,提出了一种层级语义融合的场景文本检测算法。方法 该方法包括基于文本片段的局部语义理解模块和基于文本实例的全局语义理解模块,以分别引导网络关注文字局部和文字实例间的多层级语义信息。首先,基于文本片段的局部语义理解模块根据相对位置将文本划分为多个片段,在细粒度优化目标的监督下增强网络对局部语义的感知能力。然后,基于文本实例的全局语义理解模块利用文本片段粗分割结果过滤背景区域并提取可靠的文字区域特征,进而通过注意力机制自适应地捕获任意形状文本的全局语义信息并得到最终分割结果。此外,为了降低边界区域的预测噪声对层级语义信息聚合的干扰,提出边界感知损失函数以降低边界区域特征的歧义性。结果 算法在3个常用的场景文字检测数据集上实验并与其他算法进行了比较,所提方法在性能上获得了显著提升,在Totoal-Text数据集上,F值为87.0%,相比其他模型提升了1.0%;在MSRA-TD500(MSRA text detection 500 database)数据集上,F值为88.2%,相比其他模型提升了1.0%;在ICDAR 2015(International Conference on Document Analysis and Recognition)数据集上,F值为87.0%。结论 提出的模型通过分别构建不同层级下的语义上下文和对歧义特征额外的惩罚解决了层级语义提取不充分的问题,获得了更高的检测精度。 相似文献
16.
图像模糊是指在图像捕捉或传输过程中,由于镜头或相机运动、光照条件等因素导致图像失去清晰度和细节,从而影响图像的质量和可用性。为了消除这种影响,图像去模糊技术应运而生。其目的在于通过构建计算机数学模型来衡量图像的模糊信息,从而自动预测去模糊后的清晰图像。图像去模糊算法的研究发展不仅为计算机视觉领域的其他任务提供了便利,同时也为生活领域提供了便捷和保障,如安全监控等。1)回顾了整个图像去模糊领域的发展历程,对盲图像去模糊和非盲图像去模糊中具有影响力的算法进行论述和分析。2)讨论了图像模糊的常见原因以及去模糊图像的质量评价方法。3)全面阐述了传统方法和基于深度学习方法的基本思想,并针对图像非盲去模糊和图像盲去模糊两方面的一些文献进行了综述。其中,基于深度学习的方法包括基于卷积神经网络、基于循环神经网络、基于生成式对抗网络和基于Transformer的方法等。4)简要介绍了图像去模糊领域的常用数据集并比较分析了一些代表性图像去模糊算法的性能。5)探讨了图像去模糊领域所面临的挑战,并对未来的研究方法进行了展望。 相似文献
17.
细粒度图像识别旨在从类别图像中辨别子类别。由于图像间只有细微差异,这使得识别任务具有挑战性。随着深度学习技术的不断进步,基于深度学习的方法定位局部和表示特征的能力越来越强,其中以卷积神经网络(CNN)和Transformer为基础的各类算法大大提高了细粒度图像识别精度,细粒度图像领域得到了显著发展。为了整理两类方法在细粒度图像识别领域的发展历程,对该领域近年来只运用类别标签的方法进行了综述。介绍了细粒度图像识别的概念,详细阐述了主流细粒度图像数据集;介绍了基于CNN和Transformer的细粒度图像识别方法及其性能;最后,总结了细粒度图像识别未来的研究方向。 相似文献
18.
目的 随着深度卷积神经网络广泛应用于双目立体图像超分辨率重建任务,双目图像之间的信息融合成为近年来的研究热点。针对目前的双目图像超分辨重建算法对单幅图像的内部信息学习较少的问题,提出多层次融合注意力网络的双目图像超分辨率重建算法,在立体匹配的基础上学习图像内部的丰富信息。方法 首先,利用特征提取模块从不同尺度和深度来获取左图和右图的低频特征。然后,将低频特征作为混合注意力模块的输入,此注意力模块先利用二阶通道非局部注意力模块学习每个图像内部的通道和空间特征,再采用视差注意力模块对左右特征图进行立体匹配。接着采用多层融合模块获取不同深度特征之间的相关信息,进一步指导产生高质量图像重建效果。再利用亚像素卷积对特征图进行上采样,并和低分辨率左图的放大特征相加得到重建特征。最后使用1层卷积得到重建后的高分辨率图像。结果 本文算法采用Flickr1024数据集的800幅图像和60幅经过2倍下采样的Middlebury图像作为训练集,以峰值信噪比(peak signal-to-noise ratio,PSNR)和结构相似性(structural similarity,SSIM)作为指标。实验在3个... 相似文献