首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
张兆丰  吴泽民  杜麟  胡磊 《计算机科学》2017,44(10):312-317
生物学研究表明,人会 明显地注意 视频中的运动目标。为模拟该特性并快速完成视频显著图的计算,提出一种压缩域时空显著度检测方法(Temporal-Spatial Saliency in Compress Domain model,TS2CD)。分别利用H.264视频中对宏块的残差编码长度和运动矢量编码长度模拟人眼的显著性刺激强度,从而得到视频显著特征。通过线性的加权融合算法,综合两种编码长度得到的空域显著图和时域显著图,得到最终的视频显著图。在3个公开的数据库上的实验表明,TS2CD算法是当前性能最优的方法。  相似文献   

2.
目的 传统显著性检测模型大多利用手工选择的中低层特征和先验信息进行物体检测,其准确率和召回率较低,随着深度卷积神经网络的兴起,显著性检测得以快速发展。然而,现有显著性方法仍存在共性缺点,难以在复杂图像中均匀地突显整个物体的明确边界和内部区域,主要原因是缺乏足够且丰富的特征用于检测。方法 在VGG(visual geometry group)模型的基础上进行改进,去掉最后的全连接层,采用跳层连接的方式用于像素级别的显著性预测,可以有效结合来自卷积神经网络不同卷积层的多尺度信息。此外,它能够在数据驱动的框架中结合高级语义信息和低层细节信息。为了有效地保留物体边界和内部区域的统一,采用全连接的条件随机场(conditional random field,CRF)模型对得到的显著性特征图进行调整。结果 本文在6个广泛使用的公开数据集DUT-OMRON(Dalian University of Technology and OMRON Corporation)、ECSSD(extended complex scene saliency dataset)、SED2(segmentation evalution database 2)、HKU、PASCAL-S和SOD(salient objects dataset)上进行了测试,并就准确率—召回率(precision-recall,PR)曲线、F测度值(F-measure)、最大F测度值、加权F测度值和均方误差(mean absolute error,MAE)等性能评估指标与14种最先进且具有代表性的方法进行比较。结果显示,本文方法在6个数据集上的F测度值分别为0.696、0.876、0.797、0.868、0.772和0.785;最大F测度值分别为0.747、0.899、0.859、0.889、0.814和0.833;加权F测度值分别为0.656、0.854、0.772、0.844、0.732和0.762;MAE值分别为0.074、0.061、0.093、0.049、0.099和0.124。无论是前景和背景颜色相似的图像集,还是多物体的复杂图像集,本文方法的各项性能均接近最新研究成果,且优于大多数具有代表性的方法。结论 本文方法对各种场景的图像显著性检测都具有较强的鲁棒性,同时可以使显著性物体的边界和内部区域更均匀,检测结果更准确。  相似文献   

3.
现有基于深度学习的显著性检测算法主要针对二维RGB图像设计,未能利用场景图像的三维视觉信息,而当前光场显著性检测方法则多数基于手工设计,特征表示能力不足,导致上述方法在各种挑战性自然场景图像上的检测效果不理想。提出一种基于卷积神经网络的多模态多级特征精炼与融合网络算法,利用光场图像丰富的视觉信息,实现面向四维光场图像的精准显著性检测。为充分挖掘三维视觉信息,设计2个并行的子网络分别处理全聚焦图像和深度图像。在此基础上,构建跨模态特征聚合模块实现对全聚焦图像、焦堆栈序列和深度图3个模态的跨模态多级视觉特征聚合,以更有效地突出场景中的显著性目标对象。在DUTLF-FS和HFUT-Lytro光场基准数据集上进行实验对比,结果表明,该算法在5个权威评估度量指标上均优于MOLF、AFNet、DMRA等主流显著性目标检测算法。  相似文献   

4.
视频显著性检测是计算机视觉领域的一个热点研究方向,其目的在于通过联合空间和时间信息实现视频序列中与运动相关的显著性目标的连续提取.由于视频序列中目标运动模式多样、场景复杂以及存在相机运动等,使得视频显著性检测极具挑战性.本文将对现有的视频显著性检测方法进行梳理,介绍相关实验数据集,并通过实验比较分析现有方法的性能.首先,本文介绍了基于底层线索的视频显著性检测方法,主要包括基于变换分析的方法、基于稀疏表示的方法、基于信息论的方法、基于视觉先验的方法和其他方法五类.然后,对基于学习的视频显著性检测方法进行了总结,主要包括传统学习方法和深度学习方法,并着重对后一类方法进行了介绍.随后,介绍了常用的视频显著性检测数据集,给出了四种算法性能评价指标,并在不同数据集上对最新的几种算法进行了定性和定量的比较分析.最后,对视频显著性检测的关键问题进行了总结,并对未来的发展趋势进行了展望.  相似文献   

5.
目的 现有的显著对象检测模型能够很好地定位显著对象,但是在获得完整均匀的对象和保留清晰边缘的任务上存在不足。为了得到整体均匀和边缘清晰的显著对象,本文提出了结合语义辅助和边缘特征的显著对象检测模型。方法 模型利用设计的语义辅助特征融合模块优化骨干网的侧向输出特征,每层特征通过语义辅助选择性融合相邻的低层特征,获得足够的结构信息并增强显著区域的特征强度,进而检测出整体均匀的显著对象。通过设计的边缘分支网络以及显著对象特征得到精确的边缘特征,将边缘特征融合到显著对象特征中,加强特征中显著对象边缘区域的可区分性,以便检测出清晰的边缘。同时,本文设计了一个双向多尺度模块来提取网络中的多尺度信息。结果 在4种常用的数据集ECSSD (extended complex scene saliency dataset)、DUT-O (Dalian University of Technology and OMRON Corporation)、HKU-IS和DUTS上与12种较流行的显著模型进行比较,本文模型的最大F值度量(max F-measure,MaxF)和平均绝对误差(mean absolution error,MAE)分别是0.940、0.795、0.929、0.870和0.041、0.057、0.034、0.043。从实验结果看,本文方法得到的显著图更接近真值图,在MaxF和MAE上取得最佳性能的次数多于其他12种方法。结论 本文提出的结合语义辅助和边缘特征的显著对象检测模型十分有效。语义辅助特征融合和边缘特征的引入使检测出的显著对象更为完整均匀,对象的边缘区分性也更强,多尺度特征提取进一步改善了显著对象的检测效果。  相似文献   

6.
针对移动镜头下的运动目标检测中的背景建模复杂、计算量大等问题,提出一种基于运动显著性的移动镜头下的运动目标检测方法,在避免复杂的背景建模的同时实现准确的运动目标检测。该方法通过模拟人类视觉系统的注意机制,分析相机平动时场景中背景和前景的运动特点,计算视频场景的显著性,实现动态场景中运动目标检测。首先,采用光流法提取目标的运动特征,用二维高斯卷积方法抑制背景的运动纹理;然后采用直方图统计衡量运动特征的全局显著性,根据得到的运动显著图提取前景与背景的颜色信息;最后,结合贝叶斯方法对运动显著图进行处理,得到显著运动目标。通用数据库视频上的实验结果表明,所提方法能够在抑制背景运动噪声的同时,突出并准确地检测出场景中的运动目标。  相似文献   

7.
提出一种基于视觉注意机制的运动目标跟踪方法。该方法借鉴人类的视觉注意机制的研究成果,建立视觉注意机制的计算模型,计算视频中各部分内容的视觉显著性。结合视觉显著性计算结果,提取视频图像中的显著性目标。利用颜色分布模型作为目标的特征表示模型,与视频中各显著目标进行特征匹配,实现目标的跟踪。在多个视频序列中进行实验,并给出相应的实验结果及分析。实验结果表明,提出的目标检测与跟踪算法是正确有效的。  相似文献   

8.
李冠彬  张锐斐  刘梦梦  刘劲  林倞 《软件学报》2023,34(12):5905-5920
视频描述技术旨在为视频自动生成包含丰富内容的文字描述,近年来吸引了广泛的研究兴趣.一个准确而精细的视频描述生成方法,不仅需要对视频有全局上的理解,更离不开具体显著目标的局部空间和时序特征.如何建模一个更优的视频特征表达,一直是视频描述工作的研究重点和难点.另一方面,大多数现有工作都将句子视为一个链状结构,并将视频描述任务视为一个生成单词序列的过程,而忽略了句子的语义结构,这使得算法难以应对和优化复杂的句子描述及长句子中易引起的逻辑错误.为了解决上述问题,提出一种新颖的语言结构引导的可解释视频语义描述生成方法,通过设计一个基于注意力的结构化小管定位机制,充分考虑局部对象信息和句子语义结构.结合句子的语法分析树,所提方法能够自适应地加入具有文本内容的相应时空特征,进一步提升视频描述的生成效果.在主流的视频描述任务基准数据集MSVD和MSR-VTT上的实验结果表明,所提出方法在大多数评价指标上都达到了最先进的水平.  相似文献   

9.
Salient object detection aims to automatically localize the attractive objects with respect to surrounding background in an image. It can be applied to image browsing, image cropping, image compression, content-based image retrieval, and etc. In the literature, the low-level (pixel-based) features (e.g., color and gradient) were usually adopted for modeling and computing visual attention; these methods are straightforward and efficient but limited by performance, due to losing global organization and inference. Some recent works attempt to use the region-based features but often lead to incomplete object detection. In this paper, we propose an efficient approach of salient object detection using region-based representation, in which two novel region-based features are extracted for proposing salient map and the salient object are localized with a region growing algorithm. Its brief procedure includes: 1) image segmentation to get disjoint regions with characteristic consistency; 2) region clustering; 3) computation of the region-based center-surround feature and color-distribution feature; 4) combination of the two features to propose the saliency map; 5) region growing for detecting salient object. In the experiments, we evaluate our method with the public dataset provided by Microsoft Research Asia. The experimental results show that the new approach outperforms other four state-of-the-arts methods with regard to precision, recall and F-measure.  相似文献   

10.
11.
图像描述(Image captioning)是一个融合了计算机视觉和自然语言处理这两个领域的研究方向,本文为图像描述设计了一种新颖的显著性特征提取机制(Salient feature extraction mechanism,SFEM),能够在语言模型预测每一个单词之前快速地向语言模型提供最有价值的视觉特征来指导单词预测,有效解决了现有方法对视觉特征选择不准确以及时间性能不理想的问题.SFEM包含全局显著性特征提取器和即时显著性特征提取器这两个部分:全局显著性特征提取器能够从多个局部视觉向量中提取出显著性视觉特征,并整合这些特征到全局显著性视觉向量中;即时显著性特征提取器能够根据语言模型的需要,从全局显著性视觉向量中提取出预测每一个单词所需的显著性视觉特征.本文在MS COCO(Microsoft common objects in context)数据集上对SFEM进行了评估,实验结果表明SFEM能够显著提升基准模型(baseline)生成图像描述的准确性,并且SFEM在生成图像描述的准确性方面明显优于广泛使用的空间注意力模型,在时间性能上也大幅领先空间注意力模型.  相似文献   

12.
Human action recognition has great potential in many applications relevant to artificial intelligence, which can accelerate some research on expert and intelligent systems, such as feature selection. To improve the performance on human action recognition in realistic scenarios, a novel Salient Foreground Trajectory extraction method based on saliency detection and low-rank matrix recovery is proposed to learn the discriminative features from complicated video context. Specifically, a new trajectory saliency combining appearance saliency and motion saliency is proposed to divide the dense trajectories into salient trajectories and non-salient ones. The salient trajectories are approximately corresponding to the interested foreground region, while the non-salient subset is mainly composed of the dominating background trajectories. Furthermore, according to the low rank property of background motion, if the video has background motion, the background trajectory subspace is further constructed on the non-salient trajectory subset via low-rank matrix recovery method. Then the possible background trajectories in the salient subset could be subtracted. Finally, the resulting salient foreground trajectory features are encoded by the approach of Bag of Features or Fisher Vector for action classification. Experiments on KTH, UCF Sports and Olympic Sports have shown that the proposed Salient Foreground Trajectory method is effective and achieves comparable results to the state of the art.  相似文献   

13.
音视显著性检测方法采用的双流网络结构,在音视信号不一致时,双流网络的音频信息对视频信息产生负面影响,削弱物体的视觉特征;另外,传统融合方式忽视了特征属性的重要程度。针对双流网络的问题进行研究,提出了一种基于视觉信息补偿的多流音视显著性算法(MSAVIC)。首先,在双流网络的基础上增加单独的视频编码分支,保留视频信号中完整的物体外观和运动信息。其次,利用特征融合策略将视频编码特征与音视频显著性特征相结合,增强视觉信息的表达,实现音视不一致情况下对视觉信息的补偿。理论分析和实验结果表明,MSAVIC在四个数据集上超过其他方法2%左右,在显著性检测方面具有较好的效果。  相似文献   

14.
Detection of salient objects in an image is now gaining increasing research interest in computer vision community. In this study, a novel region-contrast based saliency detection solution involving three phases is proposed. First, a color-based super-pixels segmentation approach is used to decompose the image into regions. Second, three high-level saliency measures which could effectively characterize the salient regions are evaluated and integrated in an effective manner to produce the initial saliency map. Finally, we construct a pairwise graphical model to encourage that adjacent image regions with similar features take continuous saliency values, thus producing the more perceptually consistent saliency map. We extensively evaluate the proposed method on three public benchmark datasets, and show it can produce promising results when compared to 14 state-of-the-art salient object detection approaches.  相似文献   

15.
为实现图像显著区域或目标的低级特征与语义信息有意义的结合,以获取结构更完整、边界更清晰的显著性检测结果,提出一种结合双流特征融合及对抗学习的彩色图像显著性检测(SaTSAL)算法.首先,以VGG-16和Res2Net-50为双流异构主干网络,实现自底向上、不同级别的特征提取;之后,分别针对每个流结构,将相同级别的特征图...  相似文献   

16.
郑斌  牛玉贞  柯玲玲 《计算机应用》2015,35(9):2624-2628
图像视觉显著性检测算法在已有数据集上已经取得很好的结果,但是目前的多个数据集存在两个严重的问题:首先,数据集中的图像以只包含一个显著对象的图像为主;其次,在建立显著对象标注结果的过程中,忽略了用户对同一幅图像中包含的多个显著对象的不同认知。上述问题导致了在已有数据集上对显著性检测算法进行评估,不能体现算法在实际应用中的真实效果。为此,提出体现用户认知的多显著对象图像标注方法,首先设计并实现辅助软件,收集用户对各显著对象的重要程度的认知情况,包括显著区域与相应的重要程度;然后融合收集的多用户数据,绘制出以灰度图为表现形式的显著对象标注结果,并通过灰度值体现多用户对于每个显著对象的认知情况。基于改进的显著对象标注方法,建立了一个包含1000幅多显著对象图像的数据集,并为每幅图像提供了体现用户认知的显著对象标注结果。对10种具有代表性的显著性检测算法在已有数据集和建立的数据集上的性能进行了比较。实验结果表明,这些显著性检测算法在建立的数据集上的性能有大幅度的降低,例如受试者工作特征曲线下面积(ROC-AUC)评估参数的最大降幅超过了0.5,这证实了已有数据集存在的问题及建立新数据集的需求,同时指出显著性检测算法在处理包含多显著对象的复杂图像上存在的不足。  相似文献   

17.
Salient object detection aims to extract the attractive objects in images and videos. It can support various robotics tasks and multimedia applications, such as object detection, action recognition and scene analysis. However, efficient detection of salient objects in videos still faces many challenges as compared to that in still images. In this paper, we propose a novel video-based salient object detection method by exploring spatio-temporal characteristics of video content, i.e., spatial-temporal difference and spatial-temporal coherence. First, we initialize the saliency map for each keyframe by deriving spatial-temporal difference from color cue and motion cue. Next, we generate the saliency maps of other frames by propagating the saliency intra and inter frames with the constraint of spatio-temporal coherence. Finally, the saliency maps of both keyframes and non-keyframes are refined in the saliency propagation. In this way, we can detect salient objects in videos efficiently by exploring their spatio-temporal characteristics. We evaluate the proposed method on two public datasets, named SegTrackV2 and UVSD. The experimental results show that our method outperforms the state-of-the-art methods when taking account of both effectiveness and efficiency.  相似文献   

18.
目的 全卷积模型的显著性目标检测大多通过不同层次特征的聚合实现检测,如何更好地提取和聚合特征是一个研究难点。常用的多层次特征融合策略有加法和级联法,但是这些方法忽略了不同卷积层的感受野大小以及产生的特征图对最后显著图的贡献差异等问题。为此,本文结合通道注意力机制和空间注意力机制有选择地逐步聚合深层和浅层的特征信息,更好地处理不同层次特征的传递和聚合,提出了新的显著性检测模型AGNet(attention-guided network),综合利用几种注意力机制对不同特征信息加权解决上述问题。方法 该网络主要由特征提取模块(feature extraction module, FEM)、通道—空间注意力融合模块(channel-spatial attention aggregation module, C-SAAM)和注意力残差细化模块(attention residual refinement module,ARRM)组成,并且通过最小化像素位置感知(pixel position aware, PPA)损失训练网络。其中,C-SAAM旨在有选择地聚合浅层的边缘信息以及深层抽象的语义特征,利用通道注意力和空间注意力避免融合冗余的背景信息对显著性映射造成影响;ARRM进一步细化融合后的输出,并增强下一个阶段的输入。结果 在5个公开数据集上的实验表明,AGNet在多个评价指标上达到最优性能。尤其在DUT-OMRON(Dalian University of Technology-OMRON)数据集上,F-measure指标相比于排名第2的显著性检测模型提高了1.9%,MAE(mean absolute error)指标降低了1.9%。同时,网络具有不错的速度表现,达到实时效果。结论 本文提出的显著性检测模型能够准确地分割出显著目标区域,并提供清晰的局部细节。  相似文献   

19.
汪虹余  张彧  杨恒  穆楠 《计算机应用》2021,41(10):2970-2978
近年来,显著性目标检测受到工业界和学术界的大量关注,成为了计算机视觉领域中一项重要的基础研究,该问题的解决有助于各类视觉任务取得突破性进展。尽管针对可见光场景的显著性检测工作已经取得了有效成果,但如何在信噪比偏低、可用有效信息匮乏的弱光图像中提取边界清晰、内部结构准确的显著性目标,仍然是具有挑战性的难题。针对弱光场景下显著性目标检测存在边界模糊、结构不完整等造成准确率较低的问题,提出基于蚁群优化(ACO)算法的显著性检测模型。首先,通过多尺度超像素分割将输入图像转换为具有不同节点的无向图;其次,基于最优特征选择策略来更充分地获取低对比度弱光图像中所包含的更多显著目标的特征信息,并摒弃冗余的噪声信息;然后,引入空间对比度策略用于探索弱光图像中具有相对较高对比度的全局显著性线索。而为了在低信噪比情况下也能获取准确的显著性估计,利用ACO算法对显著图进行优化。通过在3个公共数据集(MSRA、CSSD和PASCAL-S)以及夜间弱光图像(NI)数据集上进行实验,可以看出,所提模型在3个公共数据集上的曲线下面积(AUC)值分别达到了87.47%、84.27%和81.58%,在NI数据集上的AUC值比排名第2的低秩矩阵恢复(LR)模型提高了2.17个百分点。实验结果表明,相较于11种主流的显著性检测模型,所提模型具有结构更准确且边界更清晰的检测效果,有效抑制了弱光场景对显著性目标检测性能的干扰。  相似文献   

20.
Bottom-up spatiotemporal visual attention model for video analysis   总被引:3,自引:0,他引:3  
The human visual system (HVS) has the ability to fixate quickly on the most informative (salient) regions of a scene and therefore reducing the inherent visual uncertainty. Computational visual attention (VA) schemes have been proposed to account for this important characteristic of the HVS. A video analysis framework based on a spatiotemporal VA model is presented. A novel scheme has been proposed for generating saliency in video sequences by taking into account both the spatial extent and dynamic evolution of regions. To achieve this goal, a common, image-oriented computational model of saliency-based visual attention is extended to handle spatiotemporal analysis of video in a volumetric framework. The main claim is that attention acts as an efficient preprocessing step to obtain a compact representation of the visual content in the form of salient events/objects. The model has been implemented, and qualitative as well as quantitative examples illustrating its performance are shown.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号