排序方式: 共有17条查询结果,搜索用时 31 毫秒
11.
镜头检索是基于内容的视频检索的重要内容.本文首次尝试将二分图的最优匹配用于镜头检索.与现有方法相比,本文提出的方法强调在一一对应的前提下,全面客观地度量两个镜头的相似度.把两个镜头的相似度度量建模为一个带权的二分图:镜头中的每一帧看成二分图的一个结点,两个镜头之间任意帧的相似值作为边的权值.在一一对应的前提下,利用最优匹配的Kuhn-Munkres算法求出该二分图的最大权,以此作为两个镜头的相似度.考虑到检索速度问题,提出了两个改进算法.实验对比结果证实了本文所提方法在镜头检索中的优异表现. 相似文献
12.
一种新的基于模糊聚类的镜头检索方法 总被引:1,自引:0,他引:1
镜头检索是基于内容的视频检索的重要内容,而镜头内部内容往往是变化的,这给镜头检索带来了很大的困难。为了描述这种镜头内部的不一致性,这里首次使用模糊聚类的方法,把镜头分为多个等价类,等价类内部内容是一致的,这些等价类客观全面地描述了镜头内部内容的变化。把这些等价类用于镜头检索,获得了良好的检索结果。实验对比结果也证实了该方法的有效性。 相似文献
13.
基于颜色聚类和多帧融合的视频文字识别方法 总被引:1,自引:0,他引:1
提出一种基于颜色聚类和多帧融合的视频文字识别方法,首先,在视频文字检测模块,综合考虑了文字区域的两个显著特征:一致的颜色和密集的边缘,利用近邻传播聚类算法,根据图像中边缘颜色的复杂程度,自适应地把彩色边缘分解到若干边缘子图中去,使得在各个子图中检测文字区域更为准确.其次,在视频文字增强模块,基于文字笔画强度图过滤掉模糊的文字区域,并综合平均融合和最小值融合的优点,对在不同视频帧中检测到的、包含相同内容的文字区域进行融合,能够得到背景更为平滑、笔画更为清晰的文字区域图像.最后,在视频文字提取模块,通过自适应地选取具有较高文字对比度的颜色分量进行二值化,能够取得比现有方法更好的二值化结果;另一方面,基于图像中背景与文字的颜色差异,利用颜色聚类的方法去除噪声,能够有效地提高文字识别率.实验结果表明,该方法能够比现有方法取得更好的文字识别结果. 相似文献
14.
15.
视频片段检索是基于内容的视频检索的主要方式,它需要解决两个问题:(1) 从视频库里自动分割出与查询片段相似的多个片段;(2) 按照相似度从高到低排列这些相似片段.首次尝试运用图论的匹配理论来解决这两个问题.针对问题(1),把检索过程分为两个阶段:镜头检索和片段检索.在镜头检索阶段,利用相机运动信息,一个变化较大的镜头被划分为几个内容一致的子镜头,两个镜头的相似性通过对应子镜头的相似性计算得到;在片段检索阶段,通过考察相似镜头的连续性初步得到一个个相似片段,再运用最大匹配的Hungarian算法来确定真正的相似片段.针对问题(2),考虑了片段相似性判断的视觉、粒度、顺序和干扰因子,提出用最优匹配的Kuhn-Munkres算法和动态规划算法相结合,来解决片段相似度的度量问题.实验对比结果表明,所提出的方法在片段检索中可以取得更高的检索精度和更快的检索速度. 相似文献
16.
基于内容的视频检索关键技术 总被引:7,自引:0,他引:7
基于内容的视频检索一直是计算机科学研究的难点问题,该文提出了它的研究问题、检索策略、检索种类和评价指标,指出了存在的问题及解决的方法。这些策略和方法作为北大方正媒体资产管理系统的核心功能,运用于电视台大型视频数据库的检索,取得了比较好的效果。 相似文献
17.
随着互联网与多媒体技术的迅猛发展,网络数据的呈现形式由单一文本扩展到包含图像、视频、文本、音频和3D模型等多种媒体,使得跨媒体检索成为信息检索的新趋势.然而,"异构鸿沟"问题导致不同媒体的数据表征不一致,难以直接进行相似性度量,因此,多种媒体之间的交叉检索面临着巨大挑战.随着深度学习的兴起,利用深度神经网络模型的非线性建模能力有望突破跨媒体信息表示的壁垒,但现有基于深度学习的跨媒体检索方法一般仅考虑图像和文本两种媒体数据之间的成对关联,难以实现更多种媒体的交叉检索.针对上述问题,提出了跨媒体深层细粒度关联学习方法,支持多达5种媒体类型数据(图像、视频、文本、音频和3D模型)的交叉检索.首先,提出了跨媒体循环神经网络,通过联合建模多达5种媒体类型数据的细粒度信息,充分挖掘不同媒体内部的细节信息以及上下文关联.然后,提出了跨媒体联合关联损失函数,通过将分布对齐和语义对齐相结合,更加准确地挖掘媒体内和媒体间的细粒度跨媒体关联,同时利用语义类别信息增强关联学习过程的语义辨识能力,提高跨媒体检索的准确率.在两个包含5种媒体的跨媒体数据集PKU XMedia和PKU XMediaNet上与现有方法进行实验对比,实验结果表明了所提方法的有效性. 相似文献