首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 296 毫秒
1.
基于子窗口区域的足球视频镜头分类   总被引:1,自引:1,他引:0       下载免费PDF全文
为了对海量视频数据进行有效的管理和快速浏览,急需对数字视频进行基于内容的视频检索。镜头分类是足球视频处理与检索的重要部分,针对目前现有足球镜头分类方法存在算法准确性不高或运算量过大的问题,提出了一种新的基于子窗口区域的镜头分类方法。该方法采用在HSV颜色空间中计算足球视频帧子窗口区域球场色像素比率,并辅以边缘信息的检测,对足球视频中的主镜头、中镜头、特写镜头和其他镜头进行了分类,实验结果表明该方法切实可行,具有很高的检出率和准确率。  相似文献   

2.
目的 视频中的人体行为识别技术对智能安防、人机协作和助老助残等领域的智能化起着积极的促进作用,具有广泛的应用前景。但是,现有的识别方法在人体行为时空特征的有效利用方面仍存在问题,识别准确率仍有待提高。为此,本文提出一种在空间域使用深度学习网络提取人体行为关键语义信息并在时间域串联分析从而准确识别视频中人体行为的方法。方法 根据视频图像内容,剔除人体行为重复及冗余信息,提取最能表达人体行为变化的关键帧。设计并构造深度学习网络,对图像语义信息进行分析,提取表达重要语义信息的图像关键语义区域,有效描述人体行为的空间信息。使用孪生神经网络计算视频帧间关键语义区域的相关性,将语义信息相似的区域串联为关键语义区域链,将关键语义区域链的深度学习特征计算并融合为表达视频中人体行为的特征,训练分类器实现人体行为识别。结果 使用具有挑战性的人体行为识别数据集UCF (University of Central Florida)50对本文方法进行验证,得到的人体行为识别准确率为94.3%,与现有方法相比有显著提高。有效性验证实验表明,本文提出的视频中关键语义区域计算和帧间关键语义区域相关性计算方法能够有效提高人体行为识别的准确率。结论 实验结果表明,本文提出的人体行为识别方法能够有效利用视频中人体行为的时空信息,显著提高人体行为识别准确率。  相似文献   

3.
目的 微表情是人在外界信息和刺激下做出的无意识面部动作,是判断受试人情绪和行为的重要佐证,在社会安全、商业谈判和心理辅导等领域都有着广泛的应用。微表情不同于一般的表情,分类与定位较为困难。针对这种情况,提出了一种基于光流窗口的双分支微表情定位网络(dual-branch optical flow spotting network,DFSN)和一种利用峰值帧光流信息的微表情分类网络,以识别视频中的微表情。方法 在定位任务中,首先提取面部图像,选择光流窗口大小和位置,计算面部光流并进行预处理;接下来输入双分支网络中进行两次分类,分别针对有无微表情和在有微表情前提下微表情所处阶段分类,并结合两个损失函数抑制过拟合;最后绘制出微表情强度曲线,曲线峰值所处位置即为所求微表情峰值帧。在分类任务中,选取视频起始帧和定位网络取得的峰值帧作为光流窗口,并利用欧拉运动放大算法(Eulerian motion magnification,EMM)放大微表情,最后采用峰值帧光流信息分类微表情视频。结果 微表情定位网络分别在CASME II (Chinese Academy of Sciences Micro-expression Database II)数据集和CASME数据集上按照使用留一被试交叉验证法进行了实验,与目前最好的定位方法比较,此网络在CASME II上获得了最低的NMAE(normalized mean absolute error)值0.101 7,比Optical flow+UPC方法提高了9%。在CASME上获得的NMAE值为0.137 8,在此数据集上为次优定位方法。在定位网络得到的峰值基础上,分类网络在CASME II上取得了89.79%的准确率,在CASME上取得了66.06%的准确率。若采用数据集标注的峰值,分类网络在CASME II上取得了91.83%的准确率,在CASME上取得了76.96%的准确率。结论 提出的微表情定位网络可以有效定位视频中微表情峰值帧的位置,帮助后续网络进行分类,微表情分类网络可以有效区分不同种类的微表情视频。  相似文献   

4.
目的 相比静态表情图片,视频序列中蕴含更多的情感信息,视频序列中的具有明显表情的序列在特征提取与识别中具有关键作用,但是视频中同时存在的中性表情也可能会对模型参数的训练造成干扰,影响最终的判别。为了减少这种干扰带来的误差,本文对动态时间规整算法进行改进,提出一种滑动窗口动态时间规整算法(SWDTW)来自动选取视频中表情表现明显的图片序列;同时,为了解决人脸图像受环境光照因素影响较大和传统特征提取过程中存在过多人为干预的问题,构建一种基于深度卷积神经网络的人脸视频序列处理方法。方法 首先截取表情视频中人脸正面帧,用梯度方向直方图特征计算代价矩阵,并在代价矩阵上增加滑动窗口机制,计算所有滑动窗口的平均距离;然后通过平均距离最小值选取全局最优表情序列;最后采用深度卷积神经网络对规整后的人脸表情图像序列进行无监督学习和面部表情分类,统计视频序列图像分类概率和,进而得出视频序列的表情类别。结果 在CK+与MMI数据库上进行5次交叉实验,分别取得了92.54%和74.67%的平均识别率,与随机选取视频序列相比,分别提高了19.86%和22.24%;此外,与目前一些优秀的视频表情识别方法相比,也表现出了优越性。结论 本文提出的SWDTW不仅有效地实现了表情序列的选取,而且增强了卷积神经网络在视频面部表情分类中的鲁棒性,提高了视频人脸表情分析的自适应性度和识别率。  相似文献   

5.
目的 航空发动机孔探图像的损伤检测关系到航空发动机是否要非例行更换,直接影响飞机的飞行安全和利用率。现有的孔探图像损伤检测方法直接使用目标检测方法训练一个多类别损伤检测器,使用相同的参数在不同位置检测损伤。由于没有考虑同类型损伤在发动机不同区域发生概率的不同,导致现有方法的检测准确率较低。为了提高损伤检测的准确率,提出了一种自适应参数的航空发动机孔探图像损伤检测方法。方法 通过识别孔探图像所属的发动机区域,针对不同区域孔探图像设置不同的参数用于检测发动机损伤。同时为了避免单检测器上不同类型损伤之间相互干扰,采用独立检测器检测单一类型的损伤,并对误检率高的损伤进行真假识别。通过合并检测到的不同类型的损伤,得到最终的损伤检测结果。此外,为了改进水平的矩形检测框,使用分割结果产生旋转的检测框,有效地减少了框中的背景区域。结果 在13个航空发动机区域的2 654幅孔探图像上针对烧蚀、裂缝、材料丢失、涂层脱落、刻痕和凹坑等6种典型的发动机损伤进行检测实验。提出的损伤检测方法在准确率和召回率两方面分别达到了90.4%和90.7%,相较于目标检测方法YOLOv5 (you only look once version 5)的准确率和召回率高24.8%和25.1%。实验结果表明,本文方法在航空发动机损伤检测方面优于其他对比方法。结论 本文所提出的自适应参数的航空发动机损伤检测模型通过识别发动机图像所属的部位,针对同种类型的损伤检测器设定不同的参数,有效地提高了检测器的检测性能。同时,针对容易误检的裂缝、刻痕和凹坑增加了真假损伤判别器,有效地减少了误检的情况。  相似文献   

6.
目的 卷积神经网络广泛应用于目标检测中,视频目标检测的任务是在序列图像中对运动目标进行分类和定位。现有的大部分视频目标检测方法在静态图像目标检测器的基础上,利用视频特有的时间相关性来解决运动目标遮挡、模糊等现象导致的漏检和误检问题。方法 本文提出一种双光流网络指导的视频目标检测模型,在两阶段目标检测的框架下,对于不同间距的近邻帧,利用两种不同的光流网络估计光流场进行多帧图像特征融合,对于与当前帧间距较小的近邻帧,利用小位移运动估计的光流网络估计光流场,对于间距较大的近邻帧,利用大位移运动估计的光流网络估计光流场,并在光流的指导下融合多个近邻帧的特征来补偿当前帧的特征。结果 实验结果表明,本文模型的mAP(mean average precision)为76.4%,相比于TCN(temporal convolutional networks)模型、TPN+LSTM(tubelet proposal network and long short term memory network)模型、D(&T loss)模型和FGFA(flow-guided feature aggregation)模型分别提高了28.9%、8.0%、0.6%和0.2%。结论 本文模型利用视频特有的时间相关性,通过双光流网络能够准确地从近邻帧补偿当前帧的特征,提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。  相似文献   

7.
目的 立体视频能提供身临其境的逼真感而越来越受到人们的喜爱,而视觉显著性检测可以自动预测、定位和挖掘重要视觉信息,可以帮助机器对海量多媒体信息进行有效筛选。为了提高立体视频中的显著区域检测性能,提出了一种融合双目多维感知特性的立体视频显著性检测模型。方法 从立体视频的空域、深度以及时域3个不同维度出发进行显著性计算。首先,基于图像的空间特征利用贝叶斯模型计算2D图像显著图;接着,根据双目感知特征获取立体视频图像的深度显著图;然后,利用Lucas-Kanade光流法计算帧间局部区域的运动特征,获取时域显著图;最后,将3种不同维度的显著图采用一种基于全局-区域差异度大小的融合方法进行相互融合,获得最终的立体视频显著区域分布模型。结果 在不同类型的立体视频序列中的实验结果表明,本文模型获得了80%的准确率和72%的召回率,且保持了相对较低的计算复杂度,优于现有的显著性检测模型。结论 本文的显著性检测模型能有效地获取立体视频中的显著区域,可应用于立体视频/图像编码、立体视频/图像质量评价等领域。  相似文献   

8.
目的 无人机摄像资料的分辨率直接影响目标识别与信息获取,所以摄像分辨率的提高具有重大意义。为了改善无人机侦察视频质量,针对目前无人机摄像、照相数据的特点,提出一种无人机侦察视频超分辨率重建方法。方法 首先提出基于AGAST-Difference与Fast Retina Keypoint (FREAK)的特征匹配算法对视频目标帧与相邻帧之间配准,然后提出匹配区域搜索方法找到目标帧与航片的对应关系,利用航片对视频帧进行高频补偿,最后采用凸集投影方法对补偿后视频帧进行迭代优化。结果 基于AGAST-Difference与FREAK的特征匹配算法在尺度、旋转、视点等变化及运行速度上存在很大优势,匹配区域搜索方法使无人机视频的高频补偿连续性更好,凸集投影迭代优化提高了重建的边缘保持能力,与一种简单有效的视频序列超分辨率复原算法相比,本文算法重建质量提高约4 dB,运行速度提高约5倍。结论 提出了一种针对无人机的视频超分辨率重建方法,分析了无人机视频超分辨率问题的核心所在,并且提出基于AGAST-Difference与FREAK的特征匹配算法与匹配区域搜索方法来解决图像配准与高频补偿问题。实验结果表明,本文算法强化了重建图像的一致性与保真度,特别是对图像边缘细节部分等效果极为明显,且处理速度更快。  相似文献   

9.
一个自动阈值选择的镜头检测算法   总被引:5,自引:0,他引:5  
对现有视频分割工作进行了简要回顾 ,并在已有的 Twin Comparison方法基础上 ,提出了一种新的象素域镜头检测算法 .该算法使用了一个滑动窗口进行镜头边界识别 ,仅需要一趟视频解码和扫描 ,提高了算法的速度 ,这样该算法可以应用于实时视频流的镜头检测 .同时该算法够根据滑动窗口中的帧间颜色直方图差异值来动态计算用于识别镜头变换的局部阈值 ,提高了镜头边界检测算法的精度 .实验结果显示 ,文中所述方法在速度和精确度上都优于 TwinComparison算法  相似文献   

10.
目的 疲劳驾驶是引发车辆交通事故的主要原因之一,针对现有方法在驾驶员面部遮挡情况下对眼睛状态识别效果不佳的问题,提出了一种基于自商图—梯度图共生矩阵的驾驶员眼部疲劳检测方法。方法 利用以残差网络(residual network,ResNet)为前置网络的SSD(single shot multibox detector)人脸检测器来获取视频中的有效人脸区域,并通过人脸关键点检测算法分割出眼睛局部区域图像;建立驾驶员眼部的自商图与梯度图共生矩阵模型,分析共生矩阵的数字统计特征,选取效果较好的特征用以判定人眼的开闭状态;结合眼睛闭合时间百分比(percentage of eyelid closure,PERCLOS)与最长闭眼持续时间(maximum closing duration,MCD)两个疲劳指标来判别驾驶员的疲劳状态。结果 在六自由度汽车性能虚拟仿真实验平台上模拟汽车驾驶,采集并分析驾驶员面部视频,本文方法能够有效识别驾驶员面部遮挡时眼睛的开闭状态,准确率高达99.12%,面部未遮挡时的识别精度为98.73%,算法处理视频的速度约为32帧/s。对比方法1采用方向梯度直方图特征与支持向量机分类器相结合的人脸检测算法,并以眼睛纵横比判定开闭眼状态,在面部遮挡时识别较弱;以卷积神经网络(convolutional neural network,CNN)判别眼睛状态的对比方法2虽然在面部遮挡情况下的准确率高达98.02%,但眨眼检测准确率效果不佳。结论 基于自商图—梯度图共生矩阵的疲劳检测方法能够有效识别面部遮挡时眼睛的开闭情况和驾驶员的疲劳状态,具有较快的检测速度与较高的准确率。  相似文献   

11.
足球视频整场比赛持续时间较长,许多视频内容并非广大观众的兴趣所在,因此足球视频场景分类成为了近几十年来研究界的一项重要课题,许多机器学习方法也被应用于这个课题上.本文提出的基于C3D (三维卷积神经网络)的足球视频场景分类算法,将三维卷积运用于足球视频领域,并通过实验验证了本文算法的可行性.本文实验的流程如下:首先,基于帧间差分法和徽标检测法检测法对足球视频场景切换进行检测,实现镜头分割.在此基础上,提取分割镜头的语义特征并将其进行标记,然后通过C3D对足球事件进行分类.本文将足球视频分为7类,分别为远镜头、中镜头、特写镜头、回放镜头、观众镜头、开场镜头及VAR (视频助理裁判)镜头.实验结果表明,该模型在足球视频数据集上的分类准确率为96%.  相似文献   

12.
钟忺  杨光  卢炎生 《计算机科学》2016,43(6):289-293
随着多媒体技术的发展,当今工作和生活中的多媒体信息日渐丰富。如何通过分析海量视频快速有效地检索出有用信息成为一个日益严重的问题。为了解决上述问题,提出了一种基于双阈值滑动窗口 子镜头分割和完全连通图的关键帧提取方法。该方法采用基于双阈值的镜头分割算法,通过设置双阈值滑动窗口来判断镜头的突变边界和渐变边界,从而划分镜头;并采用基于滑动窗口的子镜头分割算法,通过给视频帧序列加一个滑动窗口,在窗口的范围内利用帧差来对镜头进行再划分,得到子镜头;此外,利用基于子镜头分割的关键帧提取算法,通过处理顶点为帧、边为帧差的完全连通图的方法来提取关键帧。实验结果表明,与其他方法相比,提出的方法平均精确率较高,并且平均关键帧数目较低,可以很好地提取视频的关键帧。  相似文献   

13.
传统的场景分割方法中往往通过比较关键帧来测量镜头间的相似度而忽略了镜头内的时域信息 ,针对这种缺陷提出一种基于主色跟踪和质心运动的视频场景分割的方法。首先 ,在量化的 HSV空间中 ,利用主色跟踪所得镜头的时间信息结合帧颜色直方图得到镜头的主色直方图 ,并且引入镜头质心特征向量的概念 ,通过其与帧向量的差异性获得镜头的运动信息 ;然后将所测得的镜头相似度用在改进的双向滑动窗口法中检测场景。实验结果验证了该方法的有效性。  相似文献   

14.
根据视频语义分析和视频摘要等应用对于视频数据结构化的需求,提出了一种针对足球视频的镜头分类方法.通过logo模板匹配检测并定位出视频中的慢镜头,对其余的正常比赛部分做镜头边界检测完成视频切分.基于分块的思想,对正常比赛镜头帧计算其各块的场地像素比率值作为特征,利用SVM分类器将正常比赛镜头分为远镜头、中镜头、球员特写或场外镜头3类.至此,整个视频流可以表示为结构化的四类镜头类型标示序列.实验结果表明,该方法在视频切分和镜头类型识别的准确性方面具有良好的效果.  相似文献   

15.
汤三  柴毅  尹宏鹏 《计算机应用研究》2011,28(11):4383-4385
为减少视频处理数据量及提高检测效率,提出一种快速的自适应镜头检测方法。该方法利用跳帧法从原始视频帧中提取新的视频帧序列,通过计算滑窗内亮度直方图帧差到帧差均值的距离来检测镜头变换。实验结果表明,在显著提高检测效率的同时,该方法能有效检测出镜头变换。  相似文献   

16.
一种有效的视频场景检测方法   总被引:3,自引:2,他引:3  
合理地组织视频数据对于基于内容的视频分析和应用有着重要的意义。现有的基于镜头的视频分析方法由于镜头信息粒度太小而不能反映视频语义上的联系,因此有必要将视频内容按照高层语义单元——场景进行组织。提出了一种快速有效的视频场景检测方法,根据电影编辑的原理,对视频场景内容的发展模式进行了分类,给出了场景构造的原则;提出一种新的基于滑动镜头窗的组合方法,将相似内容的镜头组织成为镜头类;定义了镜头类相关性函数来衡量镜头类之间的相关性并完成场景的生成。实验结果证明了该方法的快速有效性。  相似文献   

17.
利用单尺度特征映射进行多尺度行人检测存在准确率和效率较低的问题。为此,提出一种基于多分辨率滤波通道的多尺度检测方法。应用尺度感知池增强感受域对应性,通过软决策树实现尺度不变性,在使用滑动窗口分类策略时,结合地平面约束和稀疏网格来降低计算成本,加快行人检测速度。在Caltech数据集上的实验结果表明,该方法的检测准确率达88.89%,检测速度达15.68 frame/s,其检测准确率优于VJ、WordChannels等方法。  相似文献   

18.
In this paper, we address two complex issues: 1) Text frame classification and 2) Multi-oriented text detection in video text frame. We first divide a video frame into 16 blocks and propose a combination of wavelet and median-moments with k-means clustering at the block level to identify probable text blocks. For each probable text block, the method applies the same combination of feature with k-means clustering over a sliding window running through the blocks to identify potential text candidates. We introduce a new idea of symmetry on text candidates in each block based on the observation that pixel distribution in text exhibits a symmetric pattern. The method integrates all blocks containing text candidates in the frame and then all text candidates are mapped on to a Sobel edge map of the original frame to obtain text representatives. To tackle the multi-orientation problem, we present a new method called Angle Projection Boundary Growing (APBG) which is an iterative algorithm and works based on a nearest neighbor concept. APBG is then applied on the text representatives to fix the bounding box for multi-oriented text lines in the video frame. Directional information is used to eliminate false positives. Experimental results on a variety of datasets such as non-horizontal, horizontal, publicly available data (Hua’s data) and ICDAR-03 competition data (camera images) show that the proposed method outperforms existing methods proposed for video and the state of the art methods for scene text as well.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号