首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
白晨  范涛  王文静  王国中 《计算机应用研究》2023,40(11):3276-3281+3288
针对传统视频摘要算法没有充分利用视频的多模态信息、难以确保摘要视频片段时序一致性的问题,提出了一种融合多模态特征与时区检测的视频摘要算法(MTNet)。首先,通过GoogLeNet与VGGish预训练模型提取视频图像与音频的特征表示,设计了一种维度平滑操作对齐两种模态特征,使模型具备全面的表征能力;其次,考虑到生成的视频摘要应具备全局代表性,因此通过单双层自注意力机制结合残差结构分别提取视频图像与音频特征的长范围时序特征,获取模型在时序范围的单一向量表示;最后,通过分离式时区检测与权值共享方法对视频逐个时序片段的摘要边界与重要性进行预测,并通过非极大值抑制来选取关键视频片段生成视频摘要。实验结果表明,在两个标准数据集SumMe与TvSum上,MTNet的表征能力与鲁棒性更强;它的F1值相较基于无锚框的视频摘要算法DSNet-AF以及基于镜头重要性预测的视频摘要算法VASNet,在两个数据集上分别有所提高。  相似文献   

2.
随着网络视频的爆炸式增长,视频记忆度成为热点研究方向。视频记忆度是衡量一个视频令人难忘的程度指标,设计自动预测视频记忆度的计算模型有广泛的应用和前景。当前对视频记忆度预测的研究多集中于普遍的视觉特征或语义因素,没有考虑深度特征对视频记忆度的影响。着重探索了视频的深度特征,在视频预处理后利用现有的深度估计模型提取深度图,将视频原始图像和深度图一起输入预训练的ResNet152网络来提取深度特征;使用TF-IDF算法提取视频的语义特征,并对视频记忆度有影响的单词赋予不同的权重;将深度特征、语义特征和从视频内容中提取的C3D时空特征进行后期融合,提出了一个融合多模态的视频记忆度预测模型。在MediaEval 2019会议提供的大型公开数据集(VideoMem)上进行实验,在视频的短期记忆度预测任务中达到了0.545(长期记忆度预测任务:0.240)的Spearman相关性,证明了该模型的有效性。  相似文献   

3.
在暴力场景检测任务中,现有的方法着重于对音频或视频的单模态特征进行研究。近年来,虽然基于视听融合的双模态特征已被应用于暴力场景检测并取得了不错的效果,但该方法仍然忽视了媒体中字幕所包含的信息。针对这种情况,提出一种融合视听与字幕信息多模态特征的分类模型用于暴力场景检测。通过基于可训练COPE特征提取的方法提取音频特征,并与基于CNN-LSTM的视觉特征和基于CNN-RNN的字幕特征进行融合。在公开暴力数据集上进行测试,实验表明提出的方法相比于现有方法取得了更高的mAP值,在暴力场景检测任务中表现较好。  相似文献   

4.
针对视频人脸识别中由于光照、表情、姿态等变化而影响识别性能的问题,提出一种基于视觉单词优化仿射尺度不变特征变换的视频人脸识别算法。首先从兴趣点提取仿射尺度不变特征变换的图像描述符,将其作为人脸图像表示法;然后,由高斯差分检测,使用视觉单词的索引取代这些描述符;最后,计算视觉单词之间的巴氏距离,并利用最大相似性原则完成识别。在两大通用视频人脸数据库Honda及Mo Bo上的实验验证了该算法的有效性。实验结果表明,相比其他几种较为先进的视频人脸识别算法,该算法明显提高了识别率,并且大大降低了计算复杂度,有望应用于实时视频人脸识别系统。  相似文献   

5.
对新闻视频进行结构分析,提出一种基于多模态特征融合的新闻故事单元分割方法。将新闻视频分割成音频流和视频流,选择静音区间为音频候选点,将镜头边界切变点作为视频候选点,做主持人镜头和主题字幕的探测,挑选主持人镜头为候选区间,并记录主题字幕的起始位置和结束位置,利用时间轴融合音频候选点、视频候选点、主持人镜头和主题字幕,对新闻视频进行故事单元分割。实验结果表明,该方法的查全率为83.18%,查准率为83.92%。  相似文献   

6.
目的 借助深度学习强大的识别与检测能力,辅助人工进行电力场景下的危险描述与作业预警是一种较为经济和高效的电力安全监管手段。然而,目前主流的以目标检测技术为基础的预警系统只能给出部分危险目标的信息,忽视了电力设备的单目危险关系和成对对象间潜在的二元危险关系。不同于以往的方法,为了拓展危险预警模块的识别能力与功能范畴,本文提出了一种在电力场景下基于视觉关系检测的自动危险预警描述生成方法。方法 对给定的待检测图像,通过目标检测模块得到图中对象的类别名称和限界框位置;分别对图像进行语义特征、视觉特征和空间位置特征的抽取,将融合后的总特征送入关系检测模块,输出单个对象的一元关系和成对对象间的关系三元组;根据检测出的对象类别和关系信息,进行危险预测并给出警示描述。结果 本文自主搜集了多场景下的电力生产作业图像并进行标注,同时进行大量消融实验。实验显示,结合了语义特征、空间特征和视觉特征的关系检测器在前5召回率Recall@5和前10召回率Recall@10上的精度分别达到86.80%和93.93%,比仅使用视觉特征的关系检测器的性能提高约15%。结论 本文提出的融合多模态特征输入的视觉关系检测网络能够较好地给出谓词关系的最佳匹配,并减少不合理的关系预测,且具有一定零样本学习(zero-shot learning)能力。相关可视化结果表明,整体系统能够较好地完成电力场景下的危险预警描述任务。  相似文献   

7.
技术可以从冗长的原始视频中提取出关键帧或关键镜头,生成简明紧凑的视频摘要,在基本概括了视频主要内容的基础上极大地缩短用户浏览时间。针对目前视频摘要算法普遍忽略视频中的运动信息而导致摘要缺乏逻辑性和故事性的问题,提出了一种基于多模态特征融合的动态视频摘要算法(MFFSN),采用了有监督的编码器-解码器的网络框架。在编码端通过深度神经网络提取原始视频帧的多尺度空间特征和光流图像的多尺度运动特征,利用运动引导注意力模块(Motion Guided Attention,MGA)进行时空注意力建模,对空间特征和运动特征进行有机融合得到多模态特征;在解码阶段,采用自注意力机制关注数据中的显著特征,再通过回归网络得到帧重要性分数;最后根据背包算法选择关键镜头生成动态摘要。在Sum Me基准数据集上的实验结果证明提出的MFFSN摘要算法优于现有的同类视频摘要算法。  相似文献   

8.
针对单模态行人检测在光照条件较差、目标部分遮挡、目标多尺度时检测效果较差的问题,提出了一种基于可见和红外双模态特征金字塔融合的行人检测算法。使用深度卷积神经网络代替传统的手工设计特征方式分别自动从可见模态及红外热模态的图片中提取单模态特征,根据ResNet(Residual Net)的阶段性特征图谱搭建特征金字塔网络,生成每个模态的特征金字塔,并将两个模态的特征金字塔进行逐层融合。选择深度学习通用目标检测算法--Faster R-CNN作为后续的目标定位与分类算法来解决多模态行人检测问题。在特征金字塔融合阶段,针对级联融合和较大值融合容易忽略弱特征,无法有效融合互补特征的问题,提出了一种锐化特征的特征金字塔融合方法,根据阈值强化突出强特征,互补叠加弱特征,有效利用每个模态的特征,进一步提高模型的检测效果。实验结果表明,特征金字塔聚合的多模态行人检测算法可以有效解决多模态行人检测问题,在KAIST数据集上的检测效果超过了目前该数据集上的最佳模型。  相似文献   

9.
显著性目标检测,在包括图像/视频分割、目标识别等在内的许多计算机视觉问题中是极为重要的一步,有着十分广泛的应用前景。从显著性检测模型过去近10年的发展历程可以清楚看到,多数检测方法是采用视觉特征来检测的,视觉特征决定了显著性检测模型的性能和效果。各类显著性检测模型的根本差异之一就是所选用的视觉特征不同。首次较为全面地回顾和总结常用的颜色、纹理、背景等视觉特征,对它们进行了分类、比较和分析。先从各种颜色特征中挑选较好的特征进行融合,然后将颜色特征与其他特征进行比较,并从中选择较优的特征进行融合。在具有挑战性的公开数据集ESSCD、DUT-OMON上进行了实验,从PR曲线、F-Measure方法、MAE绝对误差三个方面进行了定量比较,检测出的综合效果优于其他算法。通过对不同视觉特征的比较和融合,表明颜色、纹理、边框连接性、Objectness这四种特征在显著性目标检测中是非常有效的。  相似文献   

10.
使用图像信息补充三维点云的几何和纹理信息,可以对三维物体进行有效地检测与分类。为了能够更好地将图像特征融入点云,设计了一个端到端的深度神经网络,提出了一个新颖的融合模块PI-Fusion(point cloud and image fusion),使用图像特征以逐点融合的方式来增强点云的语义信息。另外,在点云下采样的过程中,使用距离最远点采样和特征最远点采样的融合采样方式,以在小目标上采样到更多的点。经过融合图像和点云特征的三次下采样之后,通过一个候选点生成层将点移动到目标物体的中心。最后,通过一个单阶段目标检测头,得出分类置信度和回归框。在公开数据集KITTI的实验表明,与3DSSD相比,此方法在简单、中等、困难难度的检测上分别提升了3.37、1.92、1.58个百分点。  相似文献   

11.
Pornographic video detection based on multimodal fusion is an effective approach for filtering pornography. However, existing methods lack accurate representation of audio semantics and pay little attention to the characteristics of pornographic audios. In this paper, we propose a novel framework of fusing audio vocabulary with visual features for pornographic video detection. The novelty of our approach lies in three aspects: an audio semantics representation method based on an energy envelope unit (EEU) and bag-of-words (BoW), a periodicity-based audio segmentation algorithm, and a periodicity-based video decision algorithm. The first one, named the EEU+BoW representation method, is proposed to describe the audio semantics via an audio vocabulary. The audio vocabulary is constructed by k-means clustering of EEUs. The latter two aspects echo with each other to make full use of the periodicities in pornographic audios. Using the periodicity-based audio segmentation algorithm, audio streams are divided into EEU sequences. After these EEUs are classified, videos are judged to be pornographic or not by the periodicity-based video decision algorithm. Before fusion, two support vector machines are respectively applied for the audio-vocabulary-based and visual-features-based methods. To fuse their results, a keyframe is selected from each EEU in terms of the beginning and ending positions, and then an integrated weighted scheme and a periodicity-based video decision algorithm are adopted to yield final detection results. Experimental results show that our approach outperforms the traditional one which is only based on visual features, and achieves satisfactory performance. The true positive rate achieves 94.44% while the false positive rate is 9.76%.  相似文献   

12.
基于内容的敏感图像检测方法是过滤互联网上敏感信息的有效手段。然而,基于全局特征的检测方法误检率偏高,现有的基于BoW(bag-of-visual-words)的检测方法速度较慢。为了快速准确地检测敏感图像,本文提出基于视觉注意模型VAMAI(visual attention model for adult images)的敏感图像检测方法,包括构造面向敏感图像的视觉注意模型VAMAI、基于兴趣区域和SURF(speeded up robust features)的视觉词表算法、全局特征选择及其与BoW的融合三部分。首先,结合显著图模型、肤色分类模型和人脸检测模型,构造VAMAI,用于较准确地提取兴趣区域。然后,基于兴趣区域和SURF构建视觉词表,用于提高基于BoW的检测方法的检测速度与检测精度。最后,比较多种全局特征的性能,从中选择颜色矩,将它与BoW的支持向量机分类结果进行后融合。实验结果表明:VAMAI能够较准确地检测兴趣区域;从检测速度和检测精度两方面显著地提高了敏感图像的检测性能。  相似文献   

13.
针对视频中运动行人遮挡问题,提出了一种基于区域特征的顶视运动行人检测算法.首先结合三帧差分和背景减除算法检测出所有可能的行人运动区域,然后找出运动区域的轮廓以及区域的外接矩形,并计算运动区域的面积,最后根据外接矩形的长宽比以及运动区域面积进行区域筛选,找出有效的运动区域,从而检测出行人.实验结果表明,该方法能够快速准确地检测出视频中的行人.  相似文献   

14.
提出一种基于红外和可见光视频融合的夜间行人检测算法。算法融合可见光和红外两种视频信息,使行人检测结果更直观,能够提供视觉丰富的环境信息。首先,通过时空滤波技术和目标热成像特征对红外视频进行滤噪,然后根据红外视频中的亮度信息用区域种子生长算法进行运动目标分割,再根据区域形状及颜色信息进行目标筛选,最后将红外和可见光视频融合起来增强检测结果,使视频中提供的信息更加丰富。  相似文献   

15.
视频失真主要来源于空间和时间失真导致的视频质量退化。针对这两种视频质量退化,提出了一种结合时空特征和视觉感知的全参考视频质量评价方法STPFVQA。首先,使用ResNet50卷积网络从参考视频和失真视频中提取空间感知特征;其次将提取的空间感知特征送入transformer编解码器中,用来构建视频的序列化关系,同时对比参考视频和失真视频,探索失真对视频序列关系造成的影响;然后将transformer的输出送入预测头,形成帧级分数;最后为了模拟人类视觉系统感知的滞后性,从短期、长期和全局记忆效应来综合考虑获得最终的视频质量分数。为了验证方法的可行性,在LIVE、IVC-IC、CSIQ和IVPL四个公开数据集上进行了实验。实验结果表明提出模型更符合人类视觉系统感知情况。在IVC-IC和CSIQ数据集上相比最先进的序列依赖模型(serial dependence modeling,SDM),SROCC评价指标分别高出2.6%和3.1%,KROCC评价指标高出6.1%和7.9%,PLCC评价指标高出2.3%和5.5%。  相似文献   

16.
目的 行人检测在自动驾驶、视频监控领域中有着广泛应用,是一个热门的研究话题。针对当前基于深度学习的行人检测算法在分辨率较低、行人尺度较小的情况下存在误检和漏检问题,提出一种融合多层特征的多尺度的行人检测算法。方法 首先,针对行人检测问题,删除了深度残差网络的一部分,仅采用深度残差网络的3个区域提取特征图,然后采用最邻近上采样法将最后一层提取的特征图放大两倍后再用相加法,将高层语义信息丰富的特征和低层细节信息丰富的特征进行融合;最后将融合后的3层特征分别输入区域候选网络中,经过softmax分类,得到带有行人的候选框,从而实现行人检测的目的。结果 实验结果表明,在Caltech行人检测数据集上,在每幅图像虚警率(FPPI)为10%的条件下,本文算法丢失率仅为57.88%,比最好的模型之一——多尺度卷积神经网络模型(MS-CNN)丢失率(60.95%)降低3.07%。结论 深层的特征具有高语义信息且感受野较大的特点,而浅层的特征具有位置信息且感受野较小的特点,融合两者特征可以达到增强深层特征的效果,让深层的特征具有较为丰富的目标位置信息。融合后的多层特征图具有不同程度的细节和语义信息,对检测不同尺度的行人有较好的效果。所以利用融合后的特征进行行人检测,能够提高行人检测性能。  相似文献   

17.
基于内容的视频拷贝检测是多媒体领域的一个研究热点.由于拷贝变换的多样性和综合性,单一特征难以获得很好的检测效果.提出一种多特征综合的方法来提高视频拷贝检测的效果.除了使用传统的局部和全局视觉特征外,还使用非正交二值子空间(NBS)方法来表示视频内容,并在其基础上使用归一化互相关(NCC)来提高拷贝视频内容相似度计算的效果.在此基础上,还采用多种措施对拷贝视频的判定结果进行精化.实验结果表明,该套方案对多种拷贝变换具有很强的鲁棒性,并且能够得到很好的检测精度.  相似文献   

18.
为提升在复杂环境下智能物流分拣系统中条形码检测的精度和速度,提出一种基于多尺度特征的条形码快速检测算法。采用深度学习中主流one-stage目标检测器作为基础框架,通过级联不同特征融合层和压缩层实现语义信息充分提取,在不同特征提取层分别嵌入膨胀卷积和深度可分离卷积,对特征提取效果和速度进行有效优化提升。将算法应用于实际分拣现场数据进行测试分析,与已有的YoLo-v3和Vgg-SSD网络等进行对比,该算法在准确度和速度方面具有明显优势,能够较好解决实际应用问题。  相似文献   

19.
提出了一种监控场景下的面部遮挡检测方法。基于AdaBoost算法进行人脸验证,通过面部划分,分块分析是否存在遮挡情况。首先判断是否有人进入,在有人进入的情况下进行面部遮挡检测,对眼部区域采用AdaBoost方法及墨镜特征提取方法判断是否遮挡,而对嘴部区域采用高斯肤色模型进行判断。实验结果表明,该方法能实时检测面部遮挡的情况,并达到了较好的效果,适用于银行ATM等监控场景,具有较高的应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号