共查询到17条相似文献,搜索用时 156 毫秒
1.
2.
准确提取视频高层语义特征,有助于更好地进行基于内容的视频检索。视频局部高层语义特征描述的是图像帧中的物体。考虑到物体本身以及物体所处的特定场景所具有的特点,我们提出一种将图像帧的局部信息和全局信息结合起来提取视频局部高层语义特征的算法。在TRECVID2005数据集上的实验结果表明,与单独基于局部或者单独基于全局的方法相比,此方法具有较好的性能。 相似文献
3.
本文综述了基于语义的视频检索的研究现状,以帮助未来的研究人员了解基于语义的视频检索领域中可用的技术,视频检索系统的产生是为了在互联网或数据库中的大量视频数据集中找到用户想要查询的视频.本文对基于语义的视频检索过程进行了说明与讨论,本文还对基于语义的视频检索中,解决语义鸿沟这一主要问题的相关技术进行了综述.语义鸿沟的形成是因为从视频内容中提取的低层特征与现实世界中用户对这些特征的认知存在差异,将视频内容的低层特征转化为高层的语义概念是一个备受关注的研究课题. 相似文献
4.
一种图像底层视觉特征到高层语义的映射方法 总被引:4,自引:0,他引:4
基于语义内容的图像检索已经成为解决图像底层特征与人类高层语义之间“语义鸿沟”的关键。根据图像语义检索的思想,提出了一种采用支持向量机(Support Machine Vector)实现图像底层视觉特征到高层语义的映射方法,并在此基础上针对特例库实现了图像的语义标注和检索。实验结果表明,该映射方法能较好地表达人的语义,以提高图像的检索效率。 相似文献
5.
6.
LI Yang 《数字社区&智能家居》2008,(19)
传统的基于内容的视频检索是利用图像的颜色、纹理以及形状等底层特征来对视频进行检索,然而这些底层特征并没有深层次地挖掘出视频的语义内容。在用支持矢量机对图像进行分类的基础上,提出了一种基于贝叶斯网络的对视频静态语义如室内/室外进行探测的新方法,实验结果验证该方法的有效性。 相似文献
7.
李杨 《数字社区&智能家居》2008,(7):117-118
传统的基于内容的视频检索是利用图像的颜色、纹理以及形状等底层特征来对视频进行检索,然而这些底层特征并没有深层次地挖掘出视频的语义内容。在用支持矢量机对图像进行分类的基础上,提出了一种基于贝叶斯网络的对视频静态语义如室内/室外进行探测的新方法,实验结果验证该方法的有效性。 相似文献
8.
基于语义的视频检索要处理的两项关键技术就是解决视频低层特征和高层语义概念间的语义鸿沟以及有效的语义提取模型。文中通过对视频进行多层次语义分析,采用有效的语义对象分割方法提取视频中的语义对象,以语义对象为中间层,并融合图像、声音、文本的多模式视频特征,从而缩小语义鸿沟。其次,视频语义概念具有多粒度性,由于本体在表示概念及概念间联系时的优越性,文中提出基于本体的语义提取模型,在从图像、声音、文本中提取出的原子概念中,推理出更高层次的复合概念。最终运用该模型提取的视频语义就具有更丰富的语义层次和语义粒度,从而更接近人类思维中的高层语义概念。 相似文献
9.
摘 要 基于语义的视频检索要处理的两项关键技术就是解决视频低层特征和高层语义概念间的语义鸿沟以及有效的语义提取模型.本文通过对视频进行多层次语义分析,采用有效的语义对象分割方法提取视频中的语义对象,以语义对象为中间层,并融合图像、声音、文本的多模式视频特征,从而缩小语义鸿沟。其次,视频语义概念具有多粒度性,由于本体在表示概念及概念间联系时的优越性,本文提出基于本体的语义提取模型,在从图像、声音、文本中提取出的原子概念中,推理出更高层次的复合概念。最终运用该模型提取的视频语义就具有更丰富的语义层次和语义粒度,从而更接近人类思维中的高层语义概念。 相似文献
10.
视频数据的不断丰富以及人们对视频检索的要求越来越复杂,使得视频语义信息建模和高层语义概念提取逐渐成为视频检索中的重要组成部分.本文提出一种基于本体的视频语义概念检测方法,利用贝叶斯网络构造视频中概念语义关系的检测本体,构建了视频中概念之间的层次关系,并能够通过推理完成复合语义概念的检测.该方法从语义信息学的角度对视频内容进行分析,在一定程度上削弱了语义鸿沟的影响,并且取得了较好的查询结果. 相似文献
11.
由于基于图像高层语义信息的图像检索与传统的图像特征匹配检索相比,在检索的准确性、结果相关性以及降低误检率等方面具有明显的优势,因此高效的图像检索方法应该充分利用图像蕴涵的高层语义信息。为了利用图像的高层语义信息来进行图像检索,在深入研究图像高层语义的低层特征描述的基础上,提出了图像语义的层次划分,并对每个高层语义层提出了语义抽取和检索算法。实验结果表明,该检索算法可以有效地对图像高层语义信息进行提取,并可作为新型高效图像检索系统的一个模型。 相似文献
12.
13.
Fan Jianping Zhu Xingquan Hacid Mohand-Said Elmagarmid Ahmed K. 《Multimedia Tools and Applications》2002,17(1):97-120
In this paper, we develop a content-based video classification approach to support semantic categorization, high-dimensional indexing and multi-level access. Our contributions are in four points: (a) We first present a hierarchical video database model that captures the structures and semantics of video contents in databases. One advantage of this hierarchical video database model is that it can provide a framework for automatic mapping from high-level concepts to low-level representative features. (b) We second propose a set of useful techniques for exploiting the basic units (e.g., shots or objects) to access the videos in database. (c) We third suggest a learning-based semantic classification technique to exploit the structures and semantics of video contents in database. (d) We further develop a cluster-based indexing structure to both speed-up query-by-example and organize databases for supporting more effective browsing. The applications of this proposed multi-level video database representation and indexing structures for MPEG-7 are also discussed. 相似文献
14.
15.
传统的视频检索大多采用基于关键词的方法,难以获得让用户满意的查准率和查全率。为此提出一种基于本体的视频检索技术,该技术借助于领域本体,以其基本概念为关键词通过互联网图像搜索引擎在线获取样本图像组,提取SIFT特征建立图像特征词典,抽取图像特征直方图并计算相似度,辅助完成视频的自动标注,初始化视频检索库;同时,借助于领域本体,对从用户的查询输入中抽取的关键词进行语义扩展,将以扩展概念集进行检索的结果返回给用户,以此实现基于本体的视频检索。最后,结合实例对该算法进行实现和分析,表明了该方法的可行性和有效性。 相似文献
16.
近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,本文提出了一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN),该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,本文提出了一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出了一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法. 相似文献
17.
基于统计学理论,提出了一种视频多粒度语义分析的通用方法,使得多层次语义分析与多模式信息融合得到统一.为了对时域内容进行表示,首先提出一种具有时间语义语境约束的关键帧选取策略和注意力选择模型;在基本视觉语义识别后,采用一种多层视觉语义分析框架来抽取视觉语义;然后应用隐马尔可夫模型(HMM)和贝叶斯决策进行音频语义理解;最后用一种具有两层结构的仿生多模式融合方案进行语义信息融合.实验结果表明,该方法能有效融合多模式特征,并提取不同粒度的视频语义. 相似文献