首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 183 毫秒
1.
基于HMM的足球视频语义分析研究   总被引:1,自引:1,他引:0  
针对视频高层语义分析问题,文章结合足球比赛的领域知识,按照足球比赛转播,视频编辑的一般规律,根据足球比赛语义事件随机性的特点,选择特定的视频物理特征,应用 HMM (隐马尔科夫模型) 分析视频的语义结构,确定视频和HMM 模型中各元素的对应关系,构建一个基于HMM 的视频语义分析框架,并通过进行足球视频 HMM 参数的训练,得到视频各语义事件的 HMM 模型,达到视频语义自动分析的目的.  相似文献   

2.
针对足球视频精彩进球事件检测,提出一种归一化的语义加权和规则足球进球检测融合方案.首先构建了进球事件的隐马尔科夫模型(HMM);然后提出一种语义观测权重的镜头新特征,以此建立归一化的语义加权和规则,分别实现了基于HMM方法和语义加权和规则方法的进球事件检测;最后提出一种基于逻辑距离的融合方案,将2种方法的检测结果通过最优权重进行决策级融合,显著地提高了进球事件的检测性能.采用文中方案建立的语义加权和规则基于客观的视频统计信息、不过多依赖于人的主观观察,克服了同类方法中的人力耗费问题,不需要复杂训练,计算量较小;并通过实验证明了该方案的有效性.  相似文献   

3.
足球视频精彩镜头的检测和语义识别是实现基于内容的足球视频检索的关键技术之一,具有很高的学术价值和广泛的应用前景.文中改进了现有的回放场景和球门检测方法,通过回放因子特征的构造改进了情感激励模型的事件检测性能.针对不同用户的观看需求,给出3种不同粒度的精彩镜头边界.对足球视频中进球、射门和犯规事件的特点进行了分析,基于事件规则实现了这3类事件的语义识别.实验结果表明,加入了回放场景特征的情感激励曲线可以更精确地反应足球比赛的激烈情况.对于语义事件的识别,特别是对进球事件的识别具有较高的准确率和查全率.  相似文献   

4.
提出了一种足球视频的语义结构,即足球视频由多个语义事件构成,每个语义事件由数个语义镜头组成。为了分析这种语义结构,建立了“精彩事件”和“一般事件”两种语义事件的多个隐马尔科夫模型(HMMs),并提出了场地比率、人脸比率、边缘、运动强度四种特征作为HMMs的观测值输入。利用HMM的三种算法训练HMMs,分析出精彩事件,并为每个镜头标注语义。  相似文献   

5.
毕殿杰  陈涛 《微机发展》2010,(5):219-222
限于当前的技术水平,视频检索技术难以在底层特征与高层语义之间建立通用的视频分析模型。文中结合足球视频的领域知识,着重分析了一类特殊的语义事件——精彩事件,基于统计的方法提出了动态贝叶斯网络事件检测模型,以及相应的学习和推理算法。实验结果表明,该方法可有效地提取足球视频中的精彩语义事件,具有较高的查全率和查准率,较强的鲁棒性,是一种很有前景的视频语义事件检测方法;同时证明了,通过结合某一领域知识,底层特征与高层语义之间是可以建立起某种联系的。  相似文献   

6.
本文对基于内容的音频检索提出了一种分级方法,第一级:用HMM对音频事件的统计特性建模;第二级:用SVM结合一些音频事件对特定语义场景建模,完成对语义场景的检索。实验证明,HMM和SVM的结合对音频语义级场景的检索达到比较理想的效果。  相似文献   

7.
限于当前的技术水平,视频检索技术难以在底层特征与高层语义之间建立通用的视频分析模型.文中结合足球视频的领域知识,着重分析了一类特殊的语义事件--精彩事件,基于统计的方法提出了动态贝叶斯网络事件检测模型,以及相应的学习和推理算法.实验结果表明,该方法可有效地提取足球视频中的精彩语义事件,具有较高的查全率和查准率,较强的鲁棒性,是一种很有前景的视频语义事件检测方法;同时证明了,通过结合某一领域知识,底层特征与高层语义之间是可以建立起某种联系的.  相似文献   

8.
足球视频事件检测对视频检索具有重要意义。然而,足球视频中事件较少,且主要发生在远镜头中,难以捕捉关键球员和关键动作,导致足球事件检测困难。近年来,基于深度学习的方法在足球视频事件检测上取得了一定的进展,但对事件的高层语义学习仍不够充分,检测结果有待进一步提高。如何提升足球视频事件检测的准确性是亟待解决的问题。以任意球射门事件为研究对象,提出了足球规则与深度学习相结合的事件检测模型。为了深入了解任意球射门事件的内在特性,人工总结了事件规则并在公共足球数据集上进行了验证,同时提出了规则的应用场景。针对足球视频中事件过少的问题,设计了基于规则的初始定位算法对视频进行预处理。通过多规则组合和应用,从原始视频中初步定位可能发生任意球射门事件的位置,并将其作为深度学习模型的输入进行进一步预测。在公共足球数据集上将所提模型与其他模型进行对比实验。结果表明,该模型取得了最好的效果,其精确率达到78%,召回率达到81.25%。相比其他模型,其精确率的提升尤为明显。可见,足球规则与深度学习相结合的任意球事件检测模型有效提升了任意球射门事件的检测性能,为足球视频中其他事件的检测提供了参考依据。  相似文献   

9.
基于统计学理论,提出了一种视频多粒度语义分析的通用方法,使得多层次语义分析与多模式信息融合得到统一.为了对时域内容进行表示,首先提出一种具有时间语义语境约束的关键帧选取策略和注意力选择模型;在基本视觉语义识别后,采用一种多层视觉语义分析框架来抽取视觉语义;然后应用隐马尔可夫模型(HMM)和贝叶斯决策进行音频语义理解;最后用一种具有两层结构的仿生多模式融合方案进行语义信息融合.实验结果表明,该方法能有效融合多模式特征,并提取不同粒度的视频语义.  相似文献   

10.
足球视频整场比赛持续时间较长,许多视频内容并非广大观众的兴趣所在,因此足球视频场景分类成为了近几十年来研究界的一项重要课题,许多机器学习方法也被应用于这个课题上.本文提出的基于C3D (三维卷积神经网络)的足球视频场景分类算法,将三维卷积运用于足球视频领域,并通过实验验证了本文算法的可行性.本文实验的流程如下:首先,基于帧间差分法和徽标检测法检测法对足球视频场景切换进行检测,实现镜头分割.在此基础上,提取分割镜头的语义特征并将其进行标记,然后通过C3D对足球事件进行分类.本文将足球视频分为7类,分别为远镜头、中镜头、特写镜头、回放镜头、观众镜头、开场镜头及VAR (视频助理裁判)镜头.实验结果表明,该模型在足球视频数据集上的分类准确率为96%.  相似文献   

11.
Highlight detection is a fundamental step in semantics based video retrieval and personalized sports video browsing. In this paper, an effective hidden Markov models (HMMs) based soccer video event detection method based on a hierarchical video analysis framework is proposed. Soccer video shots are classified into four coarse mid-level semantics: global, median, close-up and audience. Global and local motion information is utilized for the refinement of coarse mid-level semantics. Sequential soccer video is segmented into event clips. Both the temporal transitions of the mid-level semantics and the overall features of an event clip are fused using HMMs to determine the type of event. Highlight detection performance of dynamic Bayesian networks (DBN), conditional random fields (CRF) and the proposed HMM based approach are compared. The average F-score of our highlights (including goal, shoot, foul and placed kick) detection approach is 82.92%, which outperforms that of DBN and CRF by 9.85% and 11.12% respectively. The effects of number of hidden states, overall features, and the refinement of mid-level semantics on the event detection performance are also discussed.  相似文献   

12.
针对传统航拍视频图像CNN模型天气分类效果差、无法满足移动设备应用以及现有天气图像数据集匮乏且场景单一的问题, 构建了晴天、雨天、雪天、雾天4类面向多场景的无人机航拍天气图像数据集, 并提出了基于轻量级迁移学习的无人机航拍视频图像天气场景分类模型. 该模型采用迁移学习的方法, 在ImageNet数据集上训练好两种轻量级CNN, 并设计3个轻量级CNN分支进行特征提取. 特征提取首先采用ECANet注意力机制改进的EfficientNet-b0作为主分支提取整幅图像特征, 并使用两个MobileNetv2分支分别对天空和非天空局部独有的深层特征进行提取. 其次, 通过Concatenate将这3个区域进行特征融合. 最后, 使用Softmax层对4类天气场景实现分类. 实验结果表明, 该方法应用于移动等计算受限设备时对于天气场景分类的识别准确率达到了97.3%, 有着较好的分类效果.  相似文献   

13.
The broadcast soccer video is usually recorded by one main camera, which is constantly gazing somewhere of playfield where a highlight event is happening. So the camera parameters and their variety have close relationship with semantic information of soccer video, and much interest has been caught in camera calibration for soccer video. The previous calibration methods either deal with goal scene, or have strict calibration conditions and high complexity. So, it does not properly handle the non-goal scene such as midfield or center-forward scene. In this paper, based on a new soccer field model, a field symbol extraction algorithm is proposed to extract the calibration information. Then a two-stage calibration approach is developed which can calibrate camera not only for goal scene but also for non-goal scene. The preliminary experimental results demonstrate its robustness and accuracy.  相似文献   

14.
一种有效的视频场景检测方法   总被引:3,自引:2,他引:3  
合理地组织视频数据对于基于内容的视频分析和应用有着重要的意义。现有的基于镜头的视频分析方法由于镜头信息粒度太小而不能反映视频语义上的联系,因此有必要将视频内容按照高层语义单元——场景进行组织。提出了一种快速有效的视频场景检测方法,根据电影编辑的原理,对视频场景内容的发展模式进行了分类,给出了场景构造的原则;提出一种新的基于滑动镜头窗的组合方法,将相似内容的镜头组织成为镜头类;定义了镜头类相关性函数来衡量镜头类之间的相关性并完成场景的生成。实验结果证明了该方法的快速有效性。  相似文献   

15.
Joint scene classification and segmentation based on hidden Markov model   总被引:2,自引:0,他引:2  
Scene classification and segmentation are fundamental steps for efficient accessing, retrieving and browsing large amount of video data. We have developed a scene classification scheme using a Hidden Markov Model (HMM)-based classifier. By utilizing the temporal behaviors of different scene classes, HMM classifier can effectively classify presegmented clips into one of the predefined scene classes. In this paper, we describe three approaches for joint classification and segmentation based on HMM, which search for the most likely class transition path by using the dynamic programming technique. All these approaches utilize audio and visual information simultaneously. The first two approaches search optimal scene class transition based on the likelihood values computed for short video segment belonging to a particular class but with different search constrains. The third approach searches the optimal path in a super HMM by concatenating HMM's for different scene classes.  相似文献   

16.
随着智能手机和5G网络的普及,短视频已经成为人们碎片时间获取知识的主要途径。针对现实生活场景短视频数据集不足及分类精度较低等问题,提出融合深度学习技术的双流程短视频分类方法。在主流程中,构建A-VGG-3D网络模型,利用带有注意力机制的VGG网络提取特征,采用优化的3D卷积神经网络进行短视频分类,提升短视频在时间维度上的连续性、平衡性和鲁棒性。在辅助流程中,使用帧差法判断镜头切换抽取出短视频中的若干帧,通过滑动窗口机制与级联分类器融合的方式对其进行多尺度人脸检测,进一步提高短视频分类准确性。实验结果表明,该方法在UCF101数据集和自建的生活场景短视频数据集上对于非剧情类与非访谈类短视频的查准率和查全率最高达到98.9%和98.6%,并且相比基于C3D网络的短视频分类方法,在UCF101数据集上的分类准确率提升了9.7个百分点,具有更强的普适性。  相似文献   

17.
在拥有海量数据和强大计算能力的人工智能时代,音频场景分类成为了场景理解的重要研究内容之一.针对音频场景分类建模困难和精确率不高的问题,本文提出一种基于卷积神经网络和极端梯度提升算法相结合的系统模型.首先,将预处理后的音频信号转换成梅尔声谱图,然后输入到卷积神经网络中完成抽象特征提取,最后利用极端梯度提升算法进行分类.为了评估模型的有效性,在城市音频场景UrbanSound8K数据集上进行分类性能测试,结果表明,该混合算法模型对音频场景的分类精确率可以达到89%,优于传统的神经网络算法模型,说明该混合模型对音频场景分类问题的有效性.  相似文献   

18.
Automatic video segmentation plays a vital role in sports videos annotation. This paper presents a fully automatic and computationally efficient algorithm for analysis of sports videos. Various methods of automatic shot boundary detection have been proposed to perform automatic video segmentation. These investigations mainly concentrate on detecting fades and dissolves for fast processing of the entire video scene without providing any additional feedback on object relativity within the shots. The goal of the proposed method is to identify regions that perform certain activities in a scene. The model uses some low-level feature video processing algorithms to extract the shot boundaries from a video scene and to identify dominant colours within these boundaries. An object classification method is used for clustering the seed distributions of the dominant colours to homogeneous regions. Using a simple tracking method a classification of these regions to active or static is performed. The efficiency of the proposed framework is demonstrated over a standard video benchmark with numerous types of sport events and the experimental results show that our algorithm can be used with high accuracy for automatic annotation of active regions for sport videos.  相似文献   

19.
为了解决复杂场景变换时视频拼接的精度问题,提出了一种仿射不变轮廓匹配的拼接算法——利用场景中主要区域的轮廓信息对视频图像进行匹配,然后利用匹配点求解运动参数进行拼接。该方法克服了传统拼接算法在复杂的场景变化以及重叠区小的情况下拼接精度低的问题。与基于SIFT的拼接算法对比表明,该算法实现了图像序列的高精度拼接,不仅能适应仿射变换,并且对于重叠区域小,存在运动遮挡的视频具有一定的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号