首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
传统的相似图像检索大多基于颜色、纹理、场景等特征,缺少对图像的局部特征提取,忽视了局部特征对相似图像检索的影响,检索效果较差。本文采用视觉BOW(Bag of words)模型,提取图像中尺度不变的SIFT特征,形成视觉单词向量,设计了一个基于视觉单词的相似图像分类检索方法,取得了较好的分类检索效果。  相似文献   

2.
《现代电子技术》2019,(18):73-76
视频的大数据时代已经到来,将视频序列分割成镜头来进行视频内容分析和视频检索是十分重要的研究方向。文中提出一种基于帧间一致(Frame Consistency,FC)模型和光流特征的视频镜头分割技术。利用基于视觉感知的"整体到局部"的思想,首先浏览视频,除去视频的冗余信息,以降低计算成本,并通过提取视频的视觉特征构建帧间一致性函数,以此创建可能的镜头分割集合,并结合运动特征进一步优化分割结果。该技术在评估上,其精确度、召回率和F1值,都呈现出较好的效果。  相似文献   

3.
一种压缩域中基于镜头的视频检索方法   总被引:1,自引:0,他引:1  
镜头是视频的基本单元。文章提出了一个计算镜头纹理直方图和在压缩域中基于镜头的视频检索方法。对镜头中所有Ⅰ帧的DC图分别提取颜色和纹理直方图,然后分别形成镜头的可变阿尔法颜色和纹理直方图.并用镜头的这些特征在镜头层次上用不同的距离度量方法进行视频检索。实验结果表明,基于镜头的检索用L1度量距离比用L2和Χ^2度量距离有更好的检索性能,而且避免了基于关键帧检索中由于镜头运动等原因可能导致镜头关键帧选择不当对检索性能的影响,因而比基于关键帧检索具有更好的检索性能。  相似文献   

4.
《现代电子技术》2017,(21):62-65
基于内容的图像检索的一个突出问题是提取整幅图像的全局特征,而用户通常只关注一幅图像中的局部区域。对于如今海量的数据库,提取图像的全局特征使得数据库的信息量变得非常大。这样,从巨大的图像特征库中查找匹配的图像特征时检索准确率将大大降低。针对用户感兴趣的局部区域,提出视觉关键词的概念。一幅图像用若干个视觉关键词替代,这样一幅图像的特征量将大大减小。视觉关键词是用户感兴趣的图像区域,这样使得检索更加具有针对性。实验结果表明检索准确率有明显提高。  相似文献   

5.
针对仿射畸变问题,首先构建了基于最大稳定极值区域(MSER)的仿射不变性检测子:根据分离集合森林以及并查集算法提取极值区域,结合成分树和最大稳定判定条件提取MSER。以MSER为底层局部特征区域,生成SIFT描述子并聚类成视觉关键词表。利用标准加权思想,在检索图像上框选查询对象,根据库图像与查询对象的相似度对检索结果进行排序;同时,基于搜索单元区域匹配法的空间一致性度量准则,得到最终的检索结果。实验表明,该极值区域具有可靠的仿射不变性,所开发的检索机制也能显著提升图像检索系统的性能与可靠性。  相似文献   

6.
基于内容的图像及视频检索   总被引:7,自引:1,他引:6  
基于内容的图像及视频检索是当前计算机视觉、多媒体数据库管理研究领域的热点之一,较系统地介绍了该研究领域的现状、对于静态图像,主要介绍了基于颜色、纹理、形状、区域或目标等低级图像特征信息的检索以及基于交互式反馈的检索方法;对于视频序列,则介绍了镜头检测、镜头内容表示、场景的语义描述等技术,最后指出了该研究领域存在的难点及今后的工作。  相似文献   

7.
陆颖  陶建伟  刘佩林 《信息技术》2012,(5):16-20,24
基于内容的图像检索是近年来计算机视觉领域的重要方向之一,如何快速准确地匹配视觉信息内容是图像检索最关键的部分。目前大多数检索方法采用BOF(bag of features)算法,该算法的检索精度较低,且运行速度较慢。提出了一种新的匹配方法,提高检索精度的同时有效减少了检索时间。本算法利用特征点的四个相对独立的角度对其进行分类,可大幅减少需要比较的特征算子的数量,并对每一分类中的特征点使用k-means算法聚类,得到若干个聚类中心。本方法对每一聚类的特征点进行汉明编码,并采用倒排表的方式进行信息存储。实验对象使用Holiday图像库,结果显示,检索精度和检索速度较原先算法得到了较大程度的改善,检索精度最高可提高55.9%,至0.8557,检索时间最多可降低49.3%,至0.35s。  相似文献   

8.
综合利用了图像的颜色、形状和纹理特征,实现了对视频关键帧进行基于内容的检索。首先研究关键帧的选取、特征匹配等问题,再从视频处理的层次化结构的底层分析入手,构建了视频的连续帧图像序列,运用时间自适应检测法对镜头的关键帧进行了选取,建立了关键帧图像数据库。实验结果证明该方法性能良好。  相似文献   

9.
随着视频获取设备和技术的不断发展,视频数量增长快速,在海量视频中精准查找目标视频片段是具有挑战的任务。跨模态视频片段检索旨在根据输入一段查询文本,模型能够从视频库中找出符合描述的视频片段。现有的研究工作多是关注文本与候选视频片段的匹配,忽略了视频上下文的“语境”信息,在视频理解时,存在对特征关系表达不足的问题。针对此,该文提出一种基于显著特征增强的跨模态视频片段检索方法,通过构建时间相邻网络学习视频的上下文信息,然后使用轻量化残差通道注意力突出视频片段的显著特征,提升神经网络对视频语义的理解能力。在公开的数据集TACoS和ActivityNet Captions的实验结果表明,该文所提方法能更好地完成视频片段检索任务,比主流的基于匹配的方法和基于视频-文本特征关系的方法取得了更好的表现。  相似文献   

10.
关键帧的提取是视频数据结构化的一部分,在获得关键帧之后就可以进入基于内容的图像检索阶段,实现基于内容的视频检索。本文提出了一种在镜头边界检测之后再进行视频帧聚类的方法来提取关键帧。聚类形成了数据更小的子镜头,最后从子镜头中选择与聚类中心距离最小的一帧作为关键帧。最后,通过仿真实验表明该方法能够快速有效地提取出视频关键帧。  相似文献   

11.
Typically, k-means clustering or sparse coding is used for codebook generation in the bag-of-visual words (BoW) model. Local features are then encoded by calculating their similarities with visual words. However, some useful information is lost during this process. To make use of this information, in this paper, we propose a novel image representation method by going one step beyond visual word ambiguity and consider the governing regions of visual words. For each visual application, the weights of local features are determined by the corresponding visual application classifiers. Each weighted local feature is then encoded not only by considering its similarities with visual words, but also by visual words’ governing regions. Besides, locality constraint is also imposed for efficient encoding. A weighted feature sign search algorithm is proposed to solve the problem. We conduct image classification experiments on several public datasets to demonstrate the effectiveness of the proposed method.  相似文献   

12.
现今常用的线性结构视频推荐方法存在推荐结果非个性化、精度低等问题,故开发高精度的个性化视频推荐方法迫在眉睫。提出了一种基于自编码器与多模态数据融合的视频推荐方法,对文本和视觉两种数据模态进行视频推荐。具体来说,所提方法首先使用词袋和TF-IDF方法描述文本数据,然后将所得特征与从视觉数据中提取的深层卷积描述符进行融合,使每个视频文档都获得一个多模态描述符,并利用自编码器构造低维稀疏表示。本文使用3个真实数据集对所提模型进行了实验,结果表明,与单模态推荐方法相比,所提方法推荐性能明显提升,且所提视频推荐方法的性能优于基准方法。  相似文献   

13.
Near-duplicate (ND) detection appears as a timely issue recently, being regarded as a powerful tool for various emerging applications. In the Web 2.0 environment particularly, the identification of near-duplicates enables the tasks such as copyright enforcement, news topic tracking, image and video search. In this paper, we describe an algorithm, namely Scale-Rotation invariant Pattern Entropy (SR-PE), for the detection of near-duplicates in large-scale video corpus. SR-PE is a novel pattern evaluation technique capable of measuring the spatial regularity of matching patterns formed by local keypoints. More importantly, the coherency of patterns and the perception of visual similarity, under the scenario that there could be multiple ND regions undergone arbitrary transformations, respectively, are carefully addressed through entropy measure. To demonstrate our work in large-scale dataset, a practical framework composed of three components: bag-of-words representation, local keypoint matching and SR-PE evaluation, is also proposed for the rapid detection of near-duplicates.  相似文献   

14.
Storyboarding is a standard method for visual summarisation of shots in film and video preproduction. Reverse storyboarding is the generation of similar visualisations from existing footage. The key attributes of preproduction storyboards are identified, then computational techniques that extract corresponding features from video, render them appropriately, and composite them into a single storyboard image are developed. The result succinctly represents background composition, foreground object appearance and motion, and camera motion. For a variety of shots, it is shown that the visual representation conveys all the essential elements of shot composition.  相似文献   

15.
Clustering of shots is frequently used for accessing video data and enabling quick grasping of the associated content. In this work we first group video shots by a classic hierarchical algorithm, where shot content is described by a codebook of visual words and different codebooks are compared by a suitable measure of distortion. To deal with the high number of levels in a hierarchical tree, a novel procedure of Leading-Cluster-Analysis is then proposed to extract a reduced set of hierarchically arranged previews. The depth of the obtained structure is driven both from the nature of the visual content information, and by the user needs, who can navigate the obtained video previews at various levels of representation. The effectiveness of the proposed method is demonstrated by extensive tests and comparisons carried out on a large collection of video data.  相似文献   

16.
赵宏伟  李清亮  刘萍萍 《电子学报》2014,42(9):1863-1867
传统的Bag of Words模型检索方法并不具备局部特征间的空间关系,因此影响检索性能.本文提出了基于分级显著信息的空间编码方法.通过分层次的提取显著区域并对每个显著区域内的特征点进行空间编码.目的是探索特征间的空间关系,并根据分级显著信息提高特征间的相关性.在几何验证过程中,本文通过任意三点间的角度编码和位移编码构成的空间编码方法完成图像对之间的空间关系匹配,同时根据图像各个区域间的显著程度赋予该区域空间关系匹配得分相应权重,得到最终的几何得分,重新排列检索结果.实验结果表明本文提出的方法既改善了最终检索结果的精确度又降低了几何验证阶段的计算时间.  相似文献   

17.
胡正平  涂潇蕾 《信号处理》2011,27(10):1536-1542
针对场景分类问题中,传统的“词包”模型不包含图像的上下文信息,且没有考虑图像特征间的类别差异问题,本文提出一种多方向上下文特征结合空间金字塔模型的场景分类方法。该方法首先对图像进行均匀网格分块并提取尺度不变(SIFT)特征,对每个局部图像块分别结合其周围三个方向的空间相邻区域,形成三种上下文特征;然后,将每类训练图像的上下文特征分别聚类形成视觉词汇,再将其连接形成最终的视觉词汇表,得到图像的视觉词汇直方图;最后,结合空间金字塔匹配算法形成金字塔直方图,并采用SVM分类器来进行分类。该方法将图像块在特征域的相似性同空间域的上下文关系有机地结合起来并加以类别区分,从而形成了具有更好区分力的视觉词汇表。在通用场景图像库上的实验表明,相比传统方法具有更好的分类性能。   相似文献   

18.
该文针对行人识别中的特征表示问题,提出一种混合结构的分层特征表示方法,这种混合结构结合了具有表示能力的词袋结构和学习适应性的深度分层结构。首先利用基于梯度的HOG局部描述符提取局部特征,再通过一个由空间聚集受限玻尔兹曼机组成的深度分层编码方法进行编码。对于每个编码层,利用稀疏性和选择性正则化进行无监督受限玻尔兹曼机学习,再应用监督微调来增强分类任务中视觉特征表示,采用最大池化和空间金字塔方法得到高层图像特征表示。最后采用线性支持向量机进行行人识别,提取深度分层特征遮挡等与目标无关部分自然分离,有效提高了后续识别的准确性。实验结果证明了所提出方法具有较高的识别率。  相似文献   

19.
A novel method for visual object tracking in stereo videos is proposed, which fuses an appearance based representation of the object based on Local Steering Kernel features and 2D color–disparity histogram information. The algorithm employs Kalman filtering for object position prediction and a sampling technique for selecting the candidate object regions of interest in the left and right channels. Disparity information is exploited, for matching corresponding regions in the left and right video frames. As tracking evolves, any significant changes in object appearance due to scale, rotation, or deformation are identified and embodied in the object model. The object appearance changes are identified simultaneously in the left and right channel video frames, ensuring correct 3D representation of the resulting bounding box in a 3D display monitor. The proposed framework performs stereo object tracking and it is suitable for application in 3D movies, 3D TV content and 3D video content captured by consuming stereo cameras. Experimental results proved the effectiveness of the proposed method in tracking objects under geometrical transformations, zooming and partial occlusion, as well as in tracking slowly deforming articulated 3D objects in stereo video.  相似文献   

20.
刘硕研  须德  冯松鹤  刘镝  裘正定 《电子学报》2010,38(5):1156-1161
基于视觉单词的词包模型表示(Bag-of-Words)算法是目前场景分类中的主流方法.传统的视觉单词是通过无监督聚类图像块的特征向量得到的.针对传统视觉单词生成算法中没有考虑任何语义信息的缺点,本论文提出一种基于上下文语义信息的图像块视觉单词生成算法:首先,本文中使用的上下文语义信息是视觉单词之间的语义共生概率,它是由概率潜在语义分析模型(probabilistic Latent Semantic Analysis)自动分析得到,无需任何人工标注.其次,我们引入Markov随机场理论中类别标记的伪似然度近似的策略,将图像块在特征域的相似性同空间域的上下文语义共生关系有机地结合起来,从而更准确地为图像块定义视觉单词.最后统计视觉单词的出现频率作为图像的场景表示,利用支持向量机分类器完成图像的场景分类任务.实验结果表明,本算法能有效地提高视觉单词的语义准确性,并在此基础上改善场景分类的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号