首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
为了让网络捕捉到更有效的内容来进行行人的判别,该文提出一种基于阶梯型特征空间分割与局部分支注意力网络(SLANet)机制的多分支网络来关注局部图像的显著信息。首先,在网络中引入阶梯型分支注意力模块,该模块以阶梯型对特征图进行水平分块,并且使用了分支注意力给每个分支分配不同的权重。其次,在网络中引入多尺度自适应注意力模块,该模块对局部特征进行处理,自适应调整感受野尺寸来适应不同尺度图像,同时融合了通道注意力和空间注意力筛选出图像重要特征。在网络的设计上,使用多粒度网络将全局特征和局部特征进行结合。最后,该方法在3个被广泛使用的行人重识别数据集Market-1501,DukeMTMC-reID和CUHK03上进行验证。其中在Market-1501数据集上的mAP和Rank-1分别达到了88.1%和95.6%。实验结果表明,该文所提出的网络模型能够提高行人重识别准确率。  相似文献   

2.
针对杂乱场景下难以有效地提取行人关键信息和局部遮挡时全局特征方法失效的问题,提出了一种双金字塔结构引导的多粒度行人重识别(person re-identification,ReID)方法。首先在ResNet50中嵌入注意力金字塔,引导网络由粗到细依次挖掘不同粒度的特征,使网络更倾向于关注复杂环境中行人的显著区域;其次通过结构不对称的双重注意力特征金字塔分支(double attention feature pyramid branch,DFP branch)提取多尺度的行人特征,丰富特征的多样性,同时双重注意力机制可使分支从浅层信息中捕获高细粒度的局部特征;最后将粒度较粗的全局特征与多层级细粒度的局部特征融合,两种金字塔相互作用,以此获得更多具有鉴别性的多粒度特征,改善行人遮挡问题。在多个数据集上进行了实验,结果表明,各项评价指标均高于目前大多数主流模型,其中在DukeMTMC-reID数据集上,Rank-1、mAP和平均逆负处罚(mean inverse negative penalty,mINP)分别达到了91.6%、81.9%、48.1%。  相似文献   

3.
刘艺  赵明富  宋涛  司良群  雷雨 《激光杂志》2023,(12):184-189
针对因行人重识别中行人图像的背景、姿势等差异和行人图像的属性相似导致的行人重识别准确率低的问题,提出了一种基于特征相关性学习的行人重识别方法,加强了局部特征提取的准确性和相关性,充分考虑了行人身体部位和其他部位之间的相关性。首先使用Resnet-50网络和人体关键点估计模型来提取局部特征和全局特征,然后对局部特征和全局特征进行分支操作,对局部特征进行相关性学习,加强各个局部特征与其他局部特征之间的联系,提高相似属性行人图像之间的鉴别性;对全局特征通过池化操作提取更为精确的全局特征,最后将相关性学习后的局部特征和池化后的全局特征进行拼接作为预测行人身份的对比特征。此模型在Market-1501数据集及DukeMTMC-ReID数据集上的mAP指标分别达到了85.6%和76.1%,验证了所提网络模型的有效性。  相似文献   

4.
针对真实环境中由于复杂背景和物体遮挡、角度变换、行人姿态变化带来的行人重识别(person re-identification,person re-ID) 问题,设计了基于通道注意力(efficient channel attention,ECA) 机制和多尺度卷积(poly-scale convolution,PSConv) 的行人重识别模型。首先利用残差网络提取全局特征,在网络末端加入基于ECA机制及PSConv的特征融合模块,将全局特征和该模块提取的全局特征进行融合,之后将新的全局特征进行分割得到局部特征,最后将新的全局特征和分割得到的局部特征融合得到最终特征,并计算损失函数。模型在Market1501和DukeMTMC-reID 数据集上进行实验验证。在Market1501数据集中,Rank-1和平均精度均值分别达到94.3%和85.2%,在DukeMTMC-reID数据集中,上述两参数分别达到86.3%和75.4%。实验结果可知,该模型可应对实际环境中的复杂情况,增强行人特征的辨别力,有效提高行人重识别的准确率和精度。  相似文献   

5.
基于多粒度特征融合网络的行人重识别   总被引:2,自引:0,他引:2  
匡澄  陈莹 《电子学报》2021,49(8):1541-1550
行人重识别旨在跨监控设备下检索出特定的行人目标.为捕捉行人图像的多粒度特征进而提高识别精度,基于OSNet基准网络提出一种多粒度特征融合网络(Multi-granularity Feature Fusion Network for Person Re-Identi-fication,MFN)进行端对端的学习.MFN由全局分支、特征擦除分支和局部分支组成,其中特征擦除分支由双通道注意力擦除模型构成,此模型包含通道注意力擦除模块(Channel Attention-based Dropout Moudle,CDM)和空间注意力擦除模块(Spatial Attention-based Dropout Moudle,SDM).CDM对通道的注意力强度排序并擦除低注意力通道,SDM在空间维度上以一定概率擦除最具有判别力的特征,两者通过并联方式相互作用,提高模型的识别能力.全局分支采用特征金字塔结构提取多尺度特征,局部分支将特征均匀切块后级联成一个单一特征,提取关键局部信息.大量实验结果表明了本文方法的有效性,在Market1501、DukeMTMC-reID和CUHK03-Labeled(Detected)数据集上,mAP/Rank-1分别达到了90.1%/95.8%、81.8%/91.4%和80.7%/82.3%(78.7%/81.6%),大幅优于其他现有方法.  相似文献   

6.
结合全局特征和局部特征是提高行人再识别精度的一种途径。现有的算法通常从人体特定的语义区域提取特征,由于没有将人体结构考虑在内,增加了学习难度,在差异较大的场景下效率和鲁棒性较差。为了较好地解决上述问题,本文提出一种融合了全局特征、局部特征以及人体结构特征的多粒度特征融合的行人再识别算法。本算法不引入任何人体结构先验知识,在特征提取方面,采用均值池化和最大池化对特征图加权得到强辨识性的全局特征。对特征图切片得到局部特征,在原有局部特征的基础上,引入局部相对特征作为人体结构特征。在度量方面,采用三元组损失与ID损失在不同尺度下的多级监督机制。在Market1501、DukeMTMC-reID的实验表明,算法的Rank-1指标相比于部分卷积基线(PCB)方法提升了1.3%、3.9%,平均精度均值(mAP)提升了5.1%、9.8%。  相似文献   

7.
由于行人在真实场景下易受到背景、遮挡、姿态等问题的影响,为获取行人图像中更具辨别能力的特征,提出一种基于注意力机制和局部关联特征的行人重识别方法。首先,在网络框架中嵌入注意力模块以关注图像中表达能力强的特征;然后,利用图像中相邻区域的关联得到局部关联特征,并结合全局特征。本文方法在Market1501和DukeMTMC-ReID数据集上进行实验,Rank-1指标分别达到了95.3%和90.1%。结果证明,本文方法能充分获取判别力强的特征信息,使模型具有较强的识别能力。  相似文献   

8.
在人群计数中,针对尺度变化、行人分布不均以及夜间较差成像条件,提出了一种基于RGBT(RGB-Thermal)图像的多模态人群计数算法,称为双流残差扩张网络,它由前端特征提取网络、多尺度的残差扩张卷积模块和全局注意力模块所构成。其中,前端网络用来提取RGB特征和热特征,扩张卷积模块进一步提取不同尺度的行人特征信息,全局注意力模块用来建立全局特征之间的依赖关系。此外,还引入了一种新的多尺度差异性损失,以提高网络的计数性能。为评估该方法,在RGBTCC(RGBT Crowd Counting)数据集和DroneRGBT数据集上进行了对比实验。实验结果表明,在RGBTCC数据集上与CMCRL(Cross-modal Collaborative Representation Learning)算法相比该算法的GAME(0)(Grid Average Mean absolute Errors)和RMSE(Root Mean Squared Error)分别降低了0.8和3.49,在DroneRGBT数据集上与MMCCN(Multi-Modal Crowd Counting Network)算法比...  相似文献   

9.
在人群计数中,针对尺度变化、行人分布不均以及夜间较差成像条件,提出了一种基于RGBT(RGB-Thermal)图像的多模态人群计数算法,称为双流残差扩张网络,它由前端特征提取网络、多尺度的残差扩张卷积模块和全局注意力模块所构成。其中,前端网络用来提取RGB特征和热特征,扩张卷积模块进一步提取不同尺度的行人特征信息,全局注意力模块用来建立全局特征之间的依赖关系。此外,还引入了一种新的多尺度差异性损失,以提高网络的计数性能。为评估该方法,在RGBTCC(RGBT Crowd Counting)数据集和DroneRGBT数据集上进行了对比实验。实验结果表明,在RGBTCC数据集上与CMCRL(Cross-modal Collaborative Representation Learning)算法相比该算法的GAME(0)(Grid Average Mean absolute Errors)和RMSE(Root Mean Squared Error)分别降低了0.8和3.49,在DroneRGBT数据集上与MMCCN(Multi-Modal Crowd Counting Network)算法比...  相似文献   

10.
多目标跟踪(Multi-Object Tracking,MOT)是智能交通和智慧城市的关键技术之一。针对真实场景下行人多目标跟踪困难的问题,提出了一种基于注意力机制的行人多目标跟踪(Pedestrian Multi-Object Tracking based on Self-Attention,PMOT)算法。在特征提取网络增加注意力机制模块,利用Transformer的编码器结构对行人特征的空间信息进行编码以增强行人的局部特征,实现目标关联精度的提升。为了改善由于长时间遮挡导致的行人目标丢失问题,PMOT算法在数据关联中扩展一个参考特征分支,并结合行人运动特征与外观特征的相似度来实现目标匹配。实验结果表明,提出的算法在MOT17数据集上取得77.0%的跟踪准确度,有效提高了行人目标的跟踪效果。  相似文献   

11.
跨模态行人重识别(Re-ID)是智能监控系统所面临的一项具有很大挑战的问题,现有的跨模态研究方法中主要基于全局或局部学习表示有区别的模态共享特征。然而,很少有研究尝试融合全局与局部的特征表示。该文提出一种新的多粒度共享特征融合(MSFF)网络,该网络结合了全局和局部特征来学习两种模态的不同粒度表示,从骨干网络中提取多尺度、多层次的特征,全局特征表示的粗粒度信息与局部特征表示的细粒度信息相互协同,形成更具有区别度的特征描述符。此外,为使网络能够提取更有效的共享特征,该文还针对网络中的两种模态的嵌入模式提出了子空间共享特征模块的改进方法,改变传统模态特征权重的特征嵌入方式。将该模块提前放入骨干网络中,使两种模态的各自特征映射到同一子空间中,经过骨干网络产生更丰富的共享权值。在两个公共数据集实验结果证明了所提方法的有效性,SYSU-MM01数据集最困难全搜索单镜头模式下平均精度mAP达到了60.62%。  相似文献   

12.
场景识别是计算机视觉研究中的一项基本任务.与图像分类不同,场景识别需要综合考虑场景的背景信息、局部场景特征以及物体特征等因素,导致经典卷积神经网络在场景识别上性能欠佳.为解决此问题,文中提出了一种基于深度卷积特征的场景全局与局部表示方法.此方法对场景图片的卷积特征进行变换从而为每张图片生成一个综合的特征表示.使用CAM...  相似文献   

13.
人脸表情识别在人机交互等人工智能领域发挥着 重要作用,当前研究忽略了人脸的语 义信息。本 文提出了一种融合局部语义与全局信息的人脸表情识别网络,由两个分支组成:局部语义区 域提取分支 和局部-全局特征融合分支。首先利用人脸解析数据集训练语义分割网络得到人脸语义解析 ,通过迁移训 练的方法得到人脸表情数据集的语义解析。在语义解析中获取对表情识别有意义的区域及其 语义特征, 并将局部语义特征与全局特征融合,构造语义局部特征。最后,融合语义局部特征与全局特 征构成人脸 表情的全局语义复合特征,并通过分类器分为7种基础表情之一。本文同时提出了解冻部分 层训练策略, 该训练策略使语义特征更适用于表情识别,减 少语义信息冗余性。在两个公开数据集JAFFE 和KDEF上 的平均识别准确率分别达到了93.81%和88.78% ,表现优于目前的深度学习方法和传统方法。实验结果证 明了本文提出的融合局部语义和全局信息的网络能够很好地描述表情信息。  相似文献   

14.
Aggregation of local and global contextual information by exploiting multi-level features in a fully convolutional network is a challenge for the pixel-wise salient object detection task. Most existing methods still suffer from inaccurate salient regions and blurry boundaries. In this paper, we propose a novel edge-aware global and local information aggregation network (GLNet) to fully exploit the integration of side-output local features and global contextual information and utilization of contour information of salient objects. The global guidance module (GGM) is proposed to learn discriminative multi-level information with the direct guidance of global semantic knowledge for more accurate saliency prediction. Specifically, the GGM consists of two key components, where the global feature discrimination module exploits the inter-channel relationship of global semantic features to boost representation power, and the local feature discrimination module enables different side-output local features to selectively learn informative locations by fusing with global attentive features. Besides, we propose an edge-aware aggregation module (EAM) to employ the correlation between salient edge information and salient object information for generating estimated saliency maps with explicit boundaries. We evaluate our proposed GLNet on six widely-used saliency detection benchmark datasets by comparing with 17 state-of-the-art methods. Experimental results show the effectiveness and superiority of our proposed method on all the six benchmark datasets.  相似文献   

15.
Image-based facial age estimation is considered an intractable problem because aging characteristics are hard to obtain. Most previous works have focused on extracting age-related features, but rarely explored which local region plays an important role. Several works combine local face regions with global face to estimate age in a heuristic way, where the local regions are uniformly cropped for each individual. In this paper, we design an individual adaptive segmentation of local regions of interest to perform personalized local features extraction and build hierarchical age features by erasing the local regions of interest iteratively for each individual. A joint multi-input and multi-output (MIMO) network for multi-task learning of age classification and regression tasks is designed by combining global features and personalized local features as inputs. In addition, we conduct extensive experiments to validate the effectiveness of the proposed method for age estimation, which beats most state-of-the-art methods in three public datasets and also works well for gender and race estimation.  相似文献   

16.
With the prevalence of accessible depth sensors, dynamic skeletons have attracted much attention as a robust modality for action recognition. Convolutional neural networks (CNNs) excel at modeling local relations within local receptive fields and are typically inefficient at capturing global relations. In this article, we first view the dynamic skeletons as a spatio-temporal graph (STG) and then learn the localized correlated features that generate the embedded nodes of the STG by message passing. To better extract global relational information, a novel model called spatial–temporal graph interaction networks (STG-INs) is proposed, which perform long-range temporal modeling of human body parts. In this model, human body parts are mapped to an interaction space where graph-based reasoning can be efficiently implemented via a graph convolutional network (GCN). After reasoning, global relation-aware features are distributed back to the embedded nodes of the STG. To evaluate our model, we conduct extensive experiments on three large-scale datasets. The experimental results demonstrate the effectiveness of our proposed model, which achieves the state-of-the-art performance.  相似文献   

17.
针对乳腺钼靶图像中良恶性肿块难以诊断的问题,提出一种基于注意力机制与迁移学习的乳腺钼靶肿块分类方法,并用于医学影像中乳腺钼靶肿块的良恶性分类。首先,构建一种新的网络模型,该模型将注意力机制CBAM(Convolutional Block Attention Module)与残差网络ResNet50相结合,用于提高网络对肿块病变特征的提取能力,增强特定语义的特征表示。其次,提出一种新的迁移学习方法,用切片数据集代替传统方法中作为迁移学习源域的ImageNet,完成局部肿块切片到全局乳腺图片的领域自适应学习,可用于提升网络对细节病理特征的感知能力。实验结果表明,所提方法在局部乳腺肿块切片数据集和全局乳腺钼靶数据集上的AUC(Area Under Receiver Operating Characteristics Curve)分别达到0.8607和0.8081。结果证实本文分类方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号