首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 578 毫秒
1.
为解决交通场景解析中局部和全局上下文信息自适应聚合的问题,提出3模块架构的局部和全局上下文注意力融合网络(LGCAFN)。前端的特征提取模块由基于串联空洞空间金字塔池化(CASPP)单元改进的ResNet-101组成,能够更加有效地提取物体的多尺度局部特征;中端的结构化学习模块由8路长短期记忆(LSTM)网络分支组成,可以更加准确地推理物体邻近8个不同方向上场景区域的空间结构化特征;后端的特征融合模块采用基于注意力机制的3阶段融合方式,能够自适应地聚合有用的上下文信息并屏蔽噪声上下文信息,且生成的多模态融合特征能够更加全面且准确地表示物体的语义信息。在Cityscapes标准和扩展数据集上的实验结果表明,相较于逆变换网络(ITN)和对象上下文表示网络(OCRN)等方法,LGCAFN实现了最优的平均交并比(mIoU),达到了84.0%和86.3%,表明LGCAFN能够准确地解析交通场景,有助于实现车辆自动驾驶。  相似文献   

2.
伪装目标检测(COD)旨在精确且高效地检测出与背景高度相似的伪装物体, 其方法可为物种保护、医学病患检测和军事监测等领域提供助力, 具有较高的实用价值. 近年来, 采用深度学习方法进行伪装目标检测成为一个比较新兴的研究方向. 但现有大多数COD算法都是以卷积神经网络(CNN)作为特征提取网络, 并且在结合多层次特征时, 忽略了特征表示和融合方法对检测性能的影响. 针对基于卷积神经网络的伪装目标检测模型对被检测目标的全局特征提取能力较弱问题, 提出一种基于Transformer的跨尺度交互学习伪装目标检测方法. 该模型首先提出了双分支特征融合模块, 将经过迭代注意力的特征进行融合, 更好地融合高低层特征; 其次引入了多尺度全局上下文信息模块, 充分联系上下文信息增强特征; 最后提出了多通道池化模块, 能够聚焦被检测物体的局部信息, 提高伪装目标检测准确率. 在CHAMELEON、CAMO以及COD10K数据集上的实验结果表明, 与当前主流的伪装物体检测算法相比较, 该方法生成的预测图更加清晰, 伪装目标检测模型能取得更高精度.  相似文献   

3.
方面情感分析旨在预测句子或文档中一个特定方面的情感极性,现阶段大部分的研究都是使用注意力机制对上下文进行建模。然而,目前情感分类模型在使用BERT模型计算表征之间的依赖关系抽取特征时,大多未根据不同的语境背景考虑上下文信息,导致建模后的特征缺乏上下文的语境信息。同时,方面词的重要性未能得到充分的重视而影响模型整体分类的性能。针对上述问题,提出双特征融合注意力方面情感分析模型(DFLGA-BERT),分别设计了局部与全局的特征抽取模块,充分捕捉方面词和上下文的语义关联。并将一种改进的“准”注意力添加到DFLGA-BERT的全局特征抽取器中,使模型学习在注意力的融合中使用减性注意力以削弱噪声产生的负面影响。基于条件层规泛化(CLN)设计了局部特征和全局特征的特征融合结构来更好地融合局部和全局特征。在SentiHood和SemEval 2014 Task 4数据集上进行了实验,实验结果表明,与基线模型相比该模型在融入了上下文语境特征后取得了较明显的性能提升。  相似文献   

4.
左梅 《计算机应用研究》2020,37(8):2292-2296
只基于注意力机制的深度记忆网络不能有效处理目标上下文情感依赖于具体目标的情况,为了解决该问题,提出了一个对目标敏感的深度记忆网络模型。该模型利用注意力机制来获取决定目标上下文情感的信息,然后通过交互模块将上下文情感表示和上下文与目标之间的交互信息融合成分类特征,最后分类得到目标的情感极性。在SemEval 2014 task4的两个数据集上进行实验,实现了比只基于注意力机制的DMN模型明显更好的◢F▼◣▽1值。实验结果表明,在解决上下文情感依赖于具体目标的问题时,考虑上下文与目标之间的交互信息是有效的。  相似文献   

5.
C3D作为一种典型的三维卷积神经网络被应用于视频动作识别任务。针对其存在的特征提取不足、易出现过拟合以及识别准确率较低等问题,提出一种融合混合注意力机制的C3D三维卷积网络模型。在原C3D网络插入由GCNet通道注意力模块和3D-Crisscross空间注意力模块构建的混合注意力模块,这两种注意力网络具有全局上下文建模操作,能够对三维特征建立远程依赖关系,加强网络对视频特征在通道和空间上的特征提取能力,提高模型的分类性能。将所提方法在UCF-101和HMDB-51两个大型视频数据集上进行测试,并与深度学习的其他模型进行比较,结果表明,该方法相对于其他深度学习模型具有相对更高的准确率,在UCF-101和HMDB-51数据集上的识别准确率可以达到96.7%和63.3%,而且与原C3D方法相比在效果上有明显提升。  相似文献   

6.
非模式实例分割是最近提出的对实例分割的扩展,其任务是对每个对象实例的可见区域和被遮挡区域都进行预测,感知完整的物理结构和语义概念。在预测对象被遮挡部分的形状和语义时,往往由于特征表示的识别能力不够和对上下文信息缺乏而导致对遮挡区域预测欠拟合甚至错误。针对这个问题,提出一个上下文注意模块和反馈注意力机制的特征金字塔结构,引入反馈连接进行再学习。该方法能够有效捕获全局语义信息和精细的空间细节,通过在COCO-amodal数据集训练和验证,非模式实例分割掩码平均精确率从8.4%提高到14.3%,平均召回率从16.6%提高到20.8%。实验结果表明,该方法能够显著提高对物体被遮挡部分预测的准确率,有效解决欠拟合问题。  相似文献   

7.
本文致力于设计一个有效且高效的伪装物体分割(camouflaged object segmentation, COS)模型.为此,本文开发了一个生物启发的框架,称为金字塔定位和聚焦网络(pyramid positioning and focus network, PFNet+),其模仿了自然界中的捕食过程.具体地,本文的PFNet+包含3个关键模块,即上下文增强模块(context enrichment, CEn)、金字塔定位模块(pyramid positioning module, PPM)和聚焦模块(focus module, FM). CEn通过整合上下文信息来增强骨干特征的表征能力,从而提供更有辨别性的骨干特征. PPM模仿捕食中的检测过程,以金字塔的方式从全局的角度定位潜在的目标物体.然后FM执行捕食中的识别过程,通过在歧义区域的聚焦逐步细化初始的预测结果.值得注意的是,在FM中,本文开发了一个新颖的分心挖掘策略,用于分心区域的发现和去除,以提高预测的性能.大量的实验证明本文的PFNet+能够实时运行(56 fps),在4个标准度量指标下, PFNet+在3个具有挑战性的数...  相似文献   

8.
方面级情感分析是自然语言处理的热门研究方向之一,相比于传统的情感分析技术,基于方面的情感分析是细粒度的,能够判断句子中多个目标的情感倾向,能更加准确地挖掘用户对目标的情感极性。针对以往研究忽略目标单独建模的问题,提出了一种基于双向长短期记忆神经网络(BiLSTM)的交互注意力神经网络模型(Bi-IAN)。该模型通过BiLSTM对目标和上下文分别进行建模,获得目标和上下文的隐藏表示,提取其中的语义信息。接下来利用交互注意模块学习上下文和目标之间的注意力,分别生成目标和上下文的表示,捕捉目标和上下文之内和之间的相关性,并重构评价对象和上下文的表示,最终通过非线性层得到分类结果。在数据集SemEval 2014任务4和Chinese review datasets上的实验训练显示,在正确率和F1-score上,比现有的基准情感分析模型有更好的效果。  相似文献   

9.
目的 针对传统红外与可见光图像融合方法中人工设计特征提取和特征融合的局限性,以及基于卷积神经网络(convolutional neural networks, CNN)的方法无法有效提取图像中的全局上下文信息和特征融合过程中融合不充分的问题,本文提出了基于视觉Transformer和分组渐进式融合策略的端到端无监督图像融合网络。方法 首先,将在通道维度上进行自注意力计算的多头转置注意力模块和通道注意力模块组合成视觉Transformer,多头转置注意力模块解决了自注意力计算量随像素大小呈次方增大的问题,通道注意力可以强化突出特征。其次,将CNN和设计的视觉Transformer并联组成局部—全局特征提取模块,用来提取源图像中的局部细节信息和全局上下文信息,使提取的特征既具有通用性又具有全局性。此外,为了避免融合过程中信息丢失,通过将特征分组和构造渐进残差结构的方式进行特征融合。最后,通过解码融合特征得到最终的融合图像。结果 实验在TNO数据集和RoadScene数据集上与6种方法进行比较。主观上看,本文方法能够有效融合红外图像和可见光图像中的互补信息,得到优质的融合图像。从客观定量分析...  相似文献   

10.
针对会话推荐本身存在的噪声干扰和样本稀疏性问题,提出一种基于对比超图转换器的会话推荐(CHT)模型。首先,将会话序列建模为超图;其次,通过超图转换器构建项目的全局上下文信息和局部上下文信息。最后,在全局关系学习上利用项目级(I-L)编码器和会话级(S-L)编码器捕获不同级别的项目嵌入,经过信息融合模块进行项目嵌入和反向位置嵌入融合,并通过软注意力模块得到全局会话表示,而在局部关系学习上借助权重线图卷积网络生成局部会话表示。此外,引入对比学习范式最大化全局会话表示和局部会话表示之间的互信息,以提高推荐性能。在多个真实数据集上的实验结果表明,CHT模型的推荐性能优于目前的主流模型。相较于次优模型S2-DHCN(Self-Supervised Hypergraph Convolutional Networks),在Tmall数据集上,所提模型的P@20最高达到了35.61%,MRR@20最高达到了17.11%,分别提升了13.34%和13.69%;在Diginetica数据集上,所提模型的P@20最高达到了54.07%,MRR@20最高达到了18.59%,分别提升了0.76%和0.43%,验...  相似文献   

11.
This paper presents a probabilistic framework for discovering objects in video. The video can switch between different shots, the unknown objects can leave or enter the scene at multiple times, and the background can be cluttered. The framework consists of an appearance model and a motion model. The appearance model exploits the consistency of object parts in appearance across frames. We use maximally stable extremal regions as observations in the model and hence provide robustness to object variations in scale, lighting and viewpoint. The appearance model provides location and scale estimates of the unknown objects through a compact probabilistic representation. The compact representation contains knowledge of the scene at the object level, thus allowing us to augment it with motion information using a motion model. This framework can be applied to a wide range of different videos and object types, and provides a basis for higher level video content analysis tasks. We present applications of video object discovery to video content analysis problems such as video segmentation and threading, and demonstrate superior performance to methods that exploit global image statistics and frequent itemset data mining techniques.  相似文献   

12.
Motion, as a feature of video that changes in temporal sequences, is crucial to visual understanding. The powerful video representation and extraction models are typically able to focus attention on motion features in challenging dynamic environments to complete more complex video understanding tasks. However, previous approaches discriminate mainly based on similar features in the spatial or temporal domain, ignoring the interdependence of consecutive video frames. In this paper, we propose the motion sensitive self-supervised collaborative network, a video representation learning framework that exploits a pretext task to assist feature comparison and strengthen the spatiotemporal discrimination power of the model. Specifically, we first propose the motion-aware module, which extracts consecutive motion features from the spatial regions by frame difference. The global–local contrastive module is then introduced, with context and enhanced video snippets being defined as appropriate positive samples for a broader feature similarity comparison. Finally, we introduce the snippet operation prediction module, which further assists contrastive learning to obtain more reliable global semantics by sensing changes in continuous frame features. Experimental results demonstrate that our work can effectively extract robust motion features and achieve competitive performance compared with other state-of-the-art self-supervised methods on downstream action recognition and video retrieval tasks.  相似文献   

13.
Anticipating future actions without observing any partial videos of future actions plays an important role in action prediction and is also a challenging task. To obtain abundant information for action anticipation, some methods integrate multimodal contexts, including scene object labels. However, extensively labelling each frame in video datasets requires considerable effort. In this paper, we develop a weakly supervised method that integrates global motion and local fine-grained features from current action videos to predict next action label without the need for specific scene context labels. Specifically, we extract diverse types of local features with weakly supervised learning, including object appearance and human pose representations without ground truth. Moreover, we construct a graph convolutional network for exploiting the inherent relationships of humans and objects under present incidents. We evaluate the proposed model on two datasets, the MPII-Cooking dataset and the EPIC-Kitchens dataset, and we demonstrate the generalizability and effectiveness of our approach for action anticipation.  相似文献   

14.
随着网络视频的爆炸式增长,视频记忆度成为热点研究方向。视频记忆度是衡量一个视频令人难忘的程度指标,设计自动预测视频记忆度的计算模型有广泛的应用和前景。当前对视频记忆度预测的研究多集中于普遍的视觉特征或语义因素,没有考虑深度特征对视频记忆度的影响。着重探索了视频的深度特征,在视频预处理后利用现有的深度估计模型提取深度图,将视频原始图像和深度图一起输入预训练的ResNet152网络来提取深度特征;使用TF-IDF算法提取视频的语义特征,并对视频记忆度有影响的单词赋予不同的权重;将深度特征、语义特征和从视频内容中提取的C3D时空特征进行后期融合,提出了一个融合多模态的视频记忆度预测模型。在MediaEval 2019会议提供的大型公开数据集(VideoMem)上进行实验,在视频的短期记忆度预测任务中达到了0.545(长期记忆度预测任务:0.240)的Spearman相关性,证明了该模型的有效性。  相似文献   

15.
16.
提出一种基于视觉注意机制的运动目标跟踪方法。该方法借鉴人类的视觉注意机制的研究成果,建立视觉注意机制的计算模型,计算视频中各部分内容的视觉显著性。结合视觉显著性计算结果,提取视频图像中的显著性目标。利用颜色分布模型作为目标的特征表示模型,与视频中各显著目标进行特征匹配,实现目标的跟踪。在多个视频序列中进行实验,并给出相应的实验结果及分析。实验结果表明,提出的目标检测与跟踪算法是正确有效的。  相似文献   

17.
基于运动目标轨迹优化的监控视频浓缩方法   总被引:1,自引:0,他引:1  
视频浓缩是包含原视频有效信息的简短表示,以便于视频的存储、浏览和检索。然而,大部分视频浓缩方法得到的浓缩视频中会丢失少量目标,不能完整表达原始视频的全部内容。本文介绍了一种基于目标轨迹优化的视频浓缩方法。首先使用改进的目标轨迹提取算法提取原视频中目标的 轨迹,然后利用马尔可夫随机场模型和松弛线性规划算法得到每条轨迹的最优时间标签,将其与背景序列和目标轨迹结合生成浓缩视频。实验结果表明,与传统的视频浓缩方法相比,本文方法生成的浓缩视频具有较高的浓缩比,保证了信息的完整性又具有良好的视觉效果。  相似文献   

18.

The most successful approaches to video understanding and video matching use local spatio-temporal features as a sparse representation for video content. In the last decade, a great interest in evaluation of local visual features in the domain of images is observed. The aim is to provide researchers with guidance when selecting the best approaches for new applications and data-sets. FeEval is presented, a framework for the evaluation of spatio-temporal features. For the first time, this framework allows for a systematic measurement of the stability and the invariance of local features in videos. FeEval consists of 30 original videos from a great variety of different sources, including HDTV shows, 1080p HD movies and surveillance cameras. The videos are iteratively varied by well defined challenges leading to a total of 1710 video clips. We measure coverage, repeatability and matching performance under these challenges. Similar to prior work on 2D images, this leads to a new robustness and matching measurement. Supporting the choices of recent state of the art benchmarks, this allows for a in-depth analysis of spatio-temporal features in comparison to recent benchmark results.

  相似文献   

19.
20.
This paper describes a fully automatic content-based approach for browsing and retrieval of MPEG-2 compressed video. The first step of the approach is the detection of shot boundaries based on motion vectors available from the compressed video stream. The next step involves the construction of a scene tree from the shots obtained earlier. The scene tree is shown to capture some semantic information as well as to provide a construct for hierarchical browsing of compressed videos. Finally, we build a new model for video similarity based on global as well as local motion associated with each node in the scene tree. To this end, we propose new approaches to camera motion and object motion estimation. The experimental results demonstrate that the integration of the above techniques results in an efficient framework for browsing and searching large video databases.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号