首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
白晨  范涛  王文静  王国中 《计算机应用研究》2023,40(11):3276-3281+3288
针对传统视频摘要算法没有充分利用视频的多模态信息、难以确保摘要视频片段时序一致性的问题,提出了一种融合多模态特征与时区检测的视频摘要算法(MTNet)。首先,通过GoogLeNet与VGGish预训练模型提取视频图像与音频的特征表示,设计了一种维度平滑操作对齐两种模态特征,使模型具备全面的表征能力;其次,考虑到生成的视频摘要应具备全局代表性,因此通过单双层自注意力机制结合残差结构分别提取视频图像与音频特征的长范围时序特征,获取模型在时序范围的单一向量表示;最后,通过分离式时区检测与权值共享方法对视频逐个时序片段的摘要边界与重要性进行预测,并通过非极大值抑制来选取关键视频片段生成视频摘要。实验结果表明,在两个标准数据集SumMe与TvSum上,MTNet的表征能力与鲁棒性更强;它的F1值相较基于无锚框的视频摘要算法DSNet-AF以及基于镜头重要性预测的视频摘要算法VASNet,在两个数据集上分别有所提高。  相似文献   

2.
将视频切分为镜头是视频内容分析及基于内容的视频检索和浏览的第一步。针对视频镜头边界检测,提出了一种基于特征跟踪的新算法。该算法从镜头起始帧中提取出一组角点特征,然后在后续帧中基于Kalman滤波进行特征窗跟踪,最后根据对应特征窗内的像素特征变化规律,得到镜头边界检测所需的测度,判断镜头切换的性质和渐变镜头的起止时间。实验结果表明该算法运算复杂度低,且具有较强的鲁棒性。  相似文献   

3.
为了能快速、有效地进行视频场景分割,论文提出一种基于镜头竞争力的多模态视频场景分割算法,充分考虑视频中多模态之间的时序关联共生特性,通过对视频物理特征的提取、融合计算出镜头间相似度,结合镜头竞争力的判定思想分割出视频场景.实验结果表明,该算法能较为高效地进行视频场景分割,查全率和查准率可达82.1%和86.7%.  相似文献   

4.
王剑峰  杜奎然 《计算机工程》2011,37(24):269-271
针对视频中的叠化与淡入淡出现象,提出一种基于三步筛选的渐变镜头检测算法。提取视频帧的亮度和方差作为特征,通过有限状态机实现初始渐变检测,并计算视频帧的颜色、共生矩阵、运动特征,从而进行三步筛选,保证检测的准确性。对TRECVID视频进行实验,结果表明,该算法对渐变具有较好的检测性能,对运动及闪光现象有较强的鲁棒性。  相似文献   

5.
视频聚类是视频索引和检索的重要组成部分.本文针对镜头已分割好的视频如何提取更高语义层次的场景,考虑帧图像间以帧分块的局部似然比特征和小波变换的全局边缘特征相结合的综合相似性度量,利用视频编辑的一种常用特征及代表性镜头的选取原则,给出了一种新的语义场景的提取算法.数值实验表明该算法对基于对话类的视频类型有很好的场景提取效果,与WBS(Window-based Sweep Algorithm)算法相比,查全率和查准率分别提高了8.7%和28.4%.  相似文献   

6.
基于人脸检测与SIFT的播音员镜头检测   总被引:5,自引:0,他引:5  
杨武夷  曾智  张树武  李和平 《软件学报》2009,20(9):2417-2425
播音员镜头的检测是新闻视频结构化的关键步骤之一.提出了一种基于人脸检测与SIFT特征点匹配的播音员镜头自动检测算法.该方法首先利用人脸检测器过滤出具有人脸的候选镜头,然后利用颜色直方图判断镜头是否可能相似,再利用SIFT特征点匹配从候选镜头关键帧中找出相关的镜头组,最后利用各镜头组的信息判断出哪些是播音员镜头.对比传统的方法,该方法除了训练一个通用的人脸检测器外,不需要模板,也不需要针对某类新闻节目训练特别的分类器,可以直接利用算法对新类型的新闻节目提取播音员镜头.实验结果表明,该算法能够广泛地适应于各种不同种类的新闻节目、不同视觉质量的视频,可以有效地应用于新闻视频分析.  相似文献   

7.
足球视频整场比赛持续时间较长,许多视频内容并非广大观众的兴趣所在,因此足球视频场景分类成为了近几十年来研究界的一项重要课题,许多机器学习方法也被应用于这个课题上.本文提出的基于C3D (三维卷积神经网络)的足球视频场景分类算法,将三维卷积运用于足球视频领域,并通过实验验证了本文算法的可行性.本文实验的流程如下:首先,基于帧间差分法和徽标检测法检测法对足球视频场景切换进行检测,实现镜头分割.在此基础上,提取分割镜头的语义特征并将其进行标记,然后通过C3D对足球事件进行分类.本文将足球视频分为7类,分别为远镜头、中镜头、特写镜头、回放镜头、观众镜头、开场镜头及VAR (视频助理裁判)镜头.实验结果表明,该模型在足球视频数据集上的分类准确率为96%.  相似文献   

8.
基于颜色特征的视频数据库检索系统   总被引:2,自引:0,他引:2  
为了在视频数据库中提供有效的视频检索和浏览功能,必须建立高效的索引.由于视频数据具有层次性的结构,在镜头边界检测后,可以利用聚类方法按不同的相似性尺度对镜头关键帧进行处理,对视频数据建立索引.该系统采用颜色特征,使用Twin Comparison算法实现镜头检测和直方图平均法实现关键帧提取,对关键帧采用K均值聚类算法处理,建立视频数据库索引.实验结果表明该系统能较好地实现视频快速浏览和检索功能.  相似文献   

9.
在视频理解任务中,为了减少行为检测任务中的数据标注成本同时提高检测精度,本文提出一种基于骨骼数据的弱监督视频行为检测方法,使用视频级的类别标注对行为检测网络进行弱监督训练.本文以二维人体骨骼数据和RGB图像数据作为网络输入,利用循环神经网络从骨骼数据中提取时域信息并送入全连接层输出所需的特征.骨骼数据提取的特征与RGB数据提取的特征分别传入注意力网络生成相应的权重,用来生成加权特征与加权时序类别激活图值.最后根据加权特征与加权时序类别激活图值进行行为的分类与时域定位.实验结果表明,所提出的结合人体骨骼数据的算法比有监督算法少使用了数据的时间标注.算法在THUMOS14数据集和ActivityNet1.3数据集上能够提高检测准确率.  相似文献   

10.
基于特征信息的镜头检测研究   总被引:1,自引:0,他引:1       下载免费PDF全文
视频镜头检测是基于内容视频检索的第一步,提出了一种基于特征信息的视频镜头检测方法,该方法首先利用小波变换提取原始视频帧的颜色特征和纹理特征,计算相邻帧颜色特征的互信息量和纹理特征的信息熵差,然后计算镜头间的相似度,该方法可以有效地检测出突变镜头和渐变镜头,对闪光灯及物体和摄像机运动有较强的鲁棒性,实验结果表明该方法具有良好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号