首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
目的 由于现有时尚服饰搭配方法缺乏服饰图像局部细节的有效特征表示,难以对不同服饰间的局部兼容性进行建模,限制了服饰兼容性学习的完备性,导致时尚服饰搭配的准确率较低。因此,提出一种全局—局部特征优化的时尚服饰搭配方法。方法 首先,利用不同卷积网络提取时尚服饰的图像和文本特征作为全局特征,同时在卷积网络基础上构建局部特征提取网络,提取时尚服饰图像的局部特征;然后,基于图网络和自注意力机制构建全局—局部兼容性学习模块,通过学习不同时尚服饰全局特征间和局部特征间的交互关系,并定义不同时尚服饰的权重,进行服饰全局和局部兼容性建模;最后,构建服饰搭配优化模型,通过融合套装中所有服饰的全局和局部兼容性优化服饰搭配,并计算搭配得分,输出正确的服饰搭配结果。结果 在公开数据集Polyvore上将本文方法与其他方法进行对比。实验结果表明,利用局部特征提取网络提取的时尚服饰图像局部特征能有效地表示服饰局部信息;构建的全局—局部兼容性学习模块对时尚服饰的全局兼容性和局部兼容性进行了完整建模;构建的时尚服饰搭配优化模型实现了全局和局部兼容性的优化组合,使时尚服饰搭配准确率(fill in the blank,F...  相似文献   

2.
在视频动作识别任务中,无论是在视频的空间维度还是时序维度,如何充分学习和利用特征之间相关性,对最终识别性能的影响非常大。卷积操作通过计算邻域内特征点之间的相关性获得局部特征,而自注意力机制通过所有特征点之间的信息交互学习到全局信息。单个卷积层不具备在全局视角上学习特征相关性的能力,即使是重复堆叠多层也只是获得了若干个更大的感受野。自注意力层虽然具有全局视角,但其关注的核心仅是不同特征点所表达的内容联系,忽略了局部的位置特性。为了解决以上问题,提出了一种时空卷积注意力网络用于动作识别。时空卷积注意力网络由空间卷积注意力网络和时序卷积注意力网络共同组成。空间卷积注意力网络使用自注意力方法捕捉空间维度的表观特征联系,用一维卷积提取动态信息。时序卷积注意力网络通过自注意力方法来获取时序维度上帧级特征间的关联信息,用2D卷积学习空间特征。时空卷积注意力网络集成两种网络的共同测试结果来提升模型识别性能。在HMDB51数据集上进行实验,以ResNet50为基线,引入时空卷积注意力模块后,神经网络的识别准确率在空间流和时序流上分别提升了6.25和5.13个百分点。与当前先进方法进行比较,时空卷积注意力...  相似文献   

3.
对网站图像敏感信息识别检测问题,提出一种基于改进深度学习的图像敏感信息识别方法。通过特征融合网络,将经全局优化后的区域检测网络与全局识别网络提取特征相融合,并引入注意力机制,对图像中包含敏感部位的区域进行加权聚焦,提高模型检测效率和准确性。实验证明,采用通过全局特征优化后的区域检测网络,平均检测精度提高1%,相较于SSD、Faster R-CNN等目标生成网络,平均检测精度高8.54%与10.63%,提取结果更精准;融合局部特征的全局识别网络,识别精度随着局部特征提取准确度上升而上升,当提取种类到达10种时,识别精度比未加入高1.8%;通过引入注意力机制,本模型检测准确率提升明显,当聚焦点数为7时,比未引入高0.7%;最终,相较于未包含局部特征的ResNet50网络、虽然未包含局部特征但结构更复杂的ResNet101网络,与虽然考虑局部特征,但未与全局特征进行融合的DMCNet网络,本模型检测准确率平均高出3.25%、2.15%和6%,且耗费时间较短,具有更高的鉴别力和检测效率。  相似文献   

4.
针对目前室内场景语义分割网络无法很好融合图像的RGB信息和深度信息的问题,提出一种改进的室内场景语义分割网络。为使网络能够有选择性地融合图像的深度特征和RGB特征,引入注意力机制的思想,设计了特征融合模块。该模块能够根据深度特征图和RGB特征图的特点,学习性地调整网络参数,更有效地对深度特征和RGB特征进行融合;同时使用多尺度联合训练,加速网络收敛,提高分割准确率。通过在SUNRGB-D和NYUDV2数据集上验证,相比于包含深度敏感全连接条件随机场的RGB-D全卷积神经网络(DFCN-DCRF)、深度感知卷积神经网络(Depth-aware CNN)、多路径精炼网络(RefineNet)等目前主流的语义分割网络,所提网络具有更高的分割精度,平均交并比(mIoU)分别达到46.6%和48.0%。  相似文献   

5.
目的 深层卷积神经网络在单幅图像超分辨率任务中取得了巨大成功。从3个卷积层的超分辨率重建卷积神经网络(super-resolution convolutional neural network,SRCNN)到超过300层的残差注意力网络(residual channel attention network,RCAN),网络的深度和整体性能有了显著提高。然而,尽管深层网络方法提高了重建图像的质量,但因计算量大、实时性差等问题并不适合真实场景。针对该问题,本文提出轻量级的层次特征融合空间注意力网络来快速重建图像的高频细节。方法 网络由浅层特征提取层、分层特征融合层、上采样层和重建层组成。浅层特征提取层使用1个卷积层提取浅层特征,并对特征通道进行扩充;分层特征融合层由局部特征融合和全局特征融合组成,整个网络包含9个残差注意力块(residual attention block,RAB),每3个构成一个残差注意力组,分别在组内和组间进行局部特征融合和全局特征融合。在每个残差注意力块内部,首先使用卷积层提取特征,再使用空间注意力模块对特征图的不同空间位置分配不同的权重,提高高频区域特征的注意力,以快速恢复高频细节信息;上采样层使用亚像素卷积对特征图进行上采样,将特征图放大到目标图像的尺寸;重建层使用1个卷积层进行重建,得到重建后的高分辨率图像。结果 在Set5、Set14、BSD(Berkeley segmentation dataset)100、Urban100和Manga109测试数据集上进行测试。当放大因子为4时,峰值信噪比分别为31.98 dB、28.40 dB、27.45 dB、25.77 dB和29.37 dB。本文算法比其他同等规模的网络在测试结果上有明显提升。结论 本文提出的多层特征融合注意力网络,通过结合空间注意力模块和分层特征融合结构的优势,可以快速恢复图像的高频细节并且具有较小的计算复杂度。  相似文献   

6.
沈文祥  秦品乐  曾建潮 《计算机应用》2019,39(12):3496-3502
针对室内人群目标尺度和姿态多样性、人头目标易与周围物体特征混淆的问题,提出了一种基于多级特征和混合注意力机制的室内人群检测网络(MFANet)。该网络结构包括三部分,即特征融合模块、多尺度空洞卷积金字塔特征分解模块以及混合注意力模块。首先,通过将浅层特征和中间层特征信息融合,形成包含上下文信息的融合特征,用于解决浅层特征图中小目标语义信息不丰富、分类能力弱的问题;然后,利用空洞卷积增大感受野而不增加参数的特性,对融合特征进行多尺度分解,形成新的小目标检测分支,实现网络对多尺度目标的定位和检测;最后,用局部混合注意力模块来融合全局像素关联空间注意力和通道注意力,增强对关键信息贡献大的特征,来增强网络对目标和背景的区分能力。实验结果表明,所提方法在室内监控场景数据集SCUT-HEAD上达到了0.94的准确率、0.91的召回率和0.92的F1分数,在召回率、准确率和F1指标上均明显优于当前用于室内人群检测的其他算法。  相似文献   

7.
针对现有肺炎医学影像识别研究在浅层网络忽略全局特征导致特征提取不全且模型规模较大的问题, 提出了一种基于CNN和注意力机制的轻量化模型提高肺炎类型的识别效率. 采用轻量化模型结构减少模型参数量, 通过增大卷积核, 引入高效通道注意力和自注意力机制解决网络重要信息丢失和无法提取底层全局信息的问题, 通过双分支并行提取局部和全局信息并使用多尺度通道注意力提高二者融合质量, 使用CLAHE算法优化原始数据. 实验结果表明, 该模型在保证轻量性的同时准确率、灵敏度、特异性较原模型分别提高2.59%, 3.1%, 1.38%, 并优于当前优秀的其他分类模型, 具有更强的实用性.  相似文献   

8.
近年来基于深度学习的人脸表情识别技术已取得很大进展,但对于表情特征的多尺度提取,以及在不受约束的现实场景中进行面部表情识别仍然是具有挑战性的工作。为解决此问题,提出一种金字塔卷积神经网络与注意力机制结合的表情识别方法。对于初始的一张人脸表情图像,将其按照区域采样裁剪成多张子图像,将原图像和子图像输入到金字塔卷积神经网络进行多尺度特征提取,将提取到的特征图输入到全局注意力模块,给每一张图像分配一个权重,从而得到有重要特征信息的图像,将子图像和原始图像的特征进行加权求和,得到新的含有注意力信息的全局特征,最终进行表情识别分类。在CK+、RAF-DB、AffectNet三个公开表情数据集上分别取得了98.46%、87.34%、60.45%的准确率,提高了表情的识别精度。  相似文献   

9.
在卷积神经网络中融入注意力机制越来越成为语义分割强化特征学习的重要方法.提出了一种融合了局部注意力和全局注意力的卷积神经网络.输入图像经主干网络的特征提取,并行输入给局部注意力和全局注意力模块.局部注意力模块以编码-解码结构实现多尺寸的局部特征融合,全局注意力模块根据每个像素与其所在特征图上所有像素的相关性捕获全局信息...  相似文献   

10.
人群运动集体性识别对公共场所人群管理具有重要意义。人群运动集体性不仅取决于运动个体,还受到人群局部运动状态的影响。针对以上分析,本文给出了结合局部特征和全局特征的人群集体性卷积网络识别方法。该方法首先基于光流向量构建人群集体性测度图作为卷积网络的输入;然后,在网络第一层卷积后加入通道注意力,获取人群运动的全局信息;并采用空洞卷积提取人群运动的局部信息。最后,本文在公共数据集上进行对比实验,以验证本文方法的有效性。实验结果表明:本文方法在进行人群场景集体性识别时,其加权平均召回率、加权平均准确率和加权平均精准率均优于其它模型。  相似文献   

11.
针对卷积神经网络(CNN)全连接层得到的是图像类别的全局语义信息,无法有效抑制背景噪声以及表示图像局部的细节信息,导致细粒度图像检索任务中负样本靠前的问题,提出了一种选择性加权来聚合卷积特征并利用k相互最近邻(k-reciprocal nearest neighbor,k-RNN)重排的图像检索方法。该方法主要是通过提取并筛选CNN最后一层特征来聚合形成单维全局特征向量,再引入k相互最近邻算法对检索出的结果进行重排。在细粒度基准数据集CUB-200-2011、室内场景数据集Indoor和普通类别数据集Caltech-101进行验证评估。实验结果表明该方法能够有效改善检索出负样本靠前的问题,相比SCDA方法,该方法检索精度及召回率有显著提升。  相似文献   

12.
郑剑  郑炽  刘豪  于祥春 《计算机应用研究》2022,39(3):889-894+918
面部的局部细节信息在面部表情识别中扮演重要角色,然而现有的方法大多只关注面部表情的高层语义信息而忽略了局部面部区域的细粒度信息。针对这一问题,提出一种融合局部特征与两阶段注意力权重学习的深度卷积神经网络FLF-TAWL(deep convolutional neural network fusing local feature and two-stage attention weight learning),它能自适应地捕捉重要的面部区域从而提升面部表情识别的有效性。该FLF-TAWL由双分支框架构成,一个分支从图像块中提取局部特征,另一个分支从整个表情图像中提取全局特征。首先提出了两阶段注意力权重学习策略,第一阶段粗略学习全局和局部特征的重要性权重,第二阶段进一步细化注意力权重,并将局部和全局特征进行融合;其次,采用一种区域偏向损失函数鼓励最重要的区域以获得较高的注意力权重。在FERPlus、Cohn-Kanada(CK+)以及JAFFE三个数据集上进行了广泛实验,分别获得90.92%、98.90%、97.39%的准确率,实验结果验证了FLF-TAWL模型的有效性和可行性。  相似文献   

13.
目的 食物图片具有结构多变、背景干扰大、类间差异小、类内差异大等特点,比普通细粒度图片的识别难度更大。目前在食物图片识别领域,食物图片的识别与分类仍存在精度低、泛化性差等问题。为了提高食物图片的识别与分类精度,充分利用食物图片的全局与局部细节信息,本文提出了一个多级卷积特征金字塔的细粒度食物图片识别模型。方法 本文模型从整体到局部逐级提取特征,将干扰较大的背景信息丢弃,仅针对食物目标区域提取特征。模型主要由食物特征提取网络、注意力区域定位网络和特征融合网格3部分组成,并采用3级食物特征提取网络的级联结构来实现特征由全局到局部的转移。此外,针对食物图片尺度变化大的特点,本文模型在每级食物特征提取网络中加入了特征金字塔结构,提高了模型对目标大小的鲁棒性。结果 本文模型在目前主流公开的食物图片数据集Food-101、ChineseFoodNet和Food-172上进行实验,分别获得了91.4%、82.8%、90.3%的Top-1正确率,与现有方法相比提高了1%~8%。结论 本文提出了一种多级卷积神经网络食物图片识别模型,可以自动定位食物图片区分度较大的区域,融合食物图片的全局与局部特征,实现了食物图片的细粒度识别,有效提高了食物图片的识别精度。实验结果表明,该模型在目前主流食物图片数据集上取得了最好的结果。  相似文献   

14.
为了进一步提高图像描述生成文本的精度,提出一种结合全局-局部特征和注意力机制的图像描述方法。该方法在传统的编码器-解码器模型上进行改进,从整体角度来看,编码器阶段使用残差网络ResNet101提取图像的全局特征和局部特征,以避免对象丢失或对象预测错误问题,在解码器阶段采用嵌入改进后的注意力机制的双向[GRU]生成文本序列。从局部角度来看,该模型提出的注意力机制是一种独立的循环结构,通过计算图像局部特征向量与语义向量之间的相似度来获取注意力权重,增强图像特征与语义信息之间的映射。在MSCOCO数据集上的实验结果显示,该算法在BLEU、CIDEr、METEOR等评价指标上均获得了不同程度的提升,表明使用该模型生成的描述文本准确度高且细节丰富。  相似文献   

15.
邓滔 《计算机应用研究》2021,38(4):1224-1229
针对行人再识别问题,目前多数方法将行人的局部或全局特征分开考虑,从而忽略了行人整体之间的关系,即行人全局特征和局部特征之间的联系。本文提出一种增强特征融合网络(enhanced feature convergent network,EFCN)。在全局分支中,提出适用于获取全局特征的注意力网络作为嵌入特征,嵌入在基础网络模型中以提取行人的全局特征;在局部分支中,提出循环门单元变换网络(gated recurrent unit change network,GRU-CN)得到代表性的局部特征;再使用特征融合方法将全局特征和局部特征融合成最终的行人特征;最后借助损失函数训练网络。通过大量的对比实验表明,该算法网络模型在标准的Re-ID数据集上可以获得较好的实验结果。提出的增强特征融合网络能提取辨别性较强的行人特征,该模型能够应用于大场景非重叠多摄像机下的行人再识别问题,具有较高的识别能力和识别精度,且对背景变化的行人图像能提取具有较强的鲁棒性特征。  相似文献   

16.
在目标检测网络(ObjectNet)和场景识别网络相结合的方法中,由于ObjectNet提取的目标特征和场景网络提取的场景特征的维度和性质不一致,且目标特征中存在影响场景判断的冗余信息,导致场景识别的准确率低。针对这个问题,提出一种改进的结合目标检测的室内场景识别方法。首先,在ObjectNet中引入类转换矩阵(CCM),将ObjectNet输出的目标特征进行转化,使得目标特征的维度与场景特征的维度相一致,以此减少特征维度不一致带来的信息丢失;然后采用上下文门控(CG)机制对特征中的冗余信息进行抑制,从而降低不相关信息的权重,提高了目标特征在场景识别中的作用。该方法在MIT Indoor67数据集上的识别准确率达到90.28%,与维护空间布局的对象语义特征(SOSF)方法相比识别准确率提高了0.77个百分点;其在SUN397数据集上识别准确率达到81.15%,与交替专家层次结构(HoAS)方法相比识别准确率提高了1.49个百分点。实验结果表明,所提方法提高了室内场景识别的准确率。  相似文献   

17.
针对深度学习图像去噪算法存在网络过深导致细节丢失的问题,提出一种双通道扩张卷积注意力网络CEANet。拼接信息保留模块将每一层的输出特征图融合,弥补卷积过程中丢失的图像细节特征进行密集学习;扩张卷积可以在去噪性能和效率之间进行权衡,用更少的参数获取更多的信息,增强模型对噪声图像的表示能力,基于扩张卷积的稀疏模块通过扩大感受野获得重要的结构信息和边缘特征,恢复复杂噪声图像的细节;基于注意力机制的特征增强模块通过全局特征和局部特征进行融合,进一步指导网络去噪。实验结果表明,在高斯白噪声等级为25和50时,CEANet都获得了较高的峰值信噪比均值和结构相似性均值,能够更高效地捕获图像细节信息,在边缘保持和噪声抑制方面,具有较好的性能。相关实验证明了该算法进行图像去噪的有效性。  相似文献   

18.
王萍  陈楠  鲁磊 《计算机应用》2023,43(2):529-535
已有跌倒检测工作主要关注室内场景,且大多偏重对人员身体姿态特征进行建模,而忽略了场景背景信息以及人员与地面的交互信息。针对这个问题,从实际电梯场景应用入手,提出一种基于场景先验及注意力引导的跌倒检测算法。首先,利用电梯历史数据,以高斯概率分布建模的方式从人员的活动轨迹中自动化地学习场景先验信息;随后,把场景先验信息作为空间注意力掩膜与神经网络的全局特征融合,以此聚焦地面区域的局部信息;然后,将融合后的局部特征与全局特征采用自适应加权的方式进一步聚合,从而形成更具鲁棒性和判别力的特征;最后,将特征送入由全局平均池化层和全连接层构成的分类模块中进行跌倒类别预测。在自构建的电梯场景Elevator Fall Detection和公开的UR Fall Detection数据集上的实验结果表明,所提算法的检测准确率分别达到了95.36%和99.01%,相较于网络结构复杂的ResNet50算法,分别提高了3.52个百分点和0.61个百分点。可见所构建的高斯场景先验引导的注意力机制可使网络关注地面区域的特征,更有利于对跌倒的识别,由此得到的检测模型准确率高且算法满足实时性应用要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号