首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 343 毫秒
1.
目的 由于光流估算的缺陷、噪声干扰以及现有运动注意力模型的局限性,导致运动注意力计算结果不能准确反映运动的显著性特征,制约了运动显著图的进一步应用。为提高运动注意力计算的准确性,提出一种基于时—空多尺度分析的运动注意力计算方法。方法 该方法根据视觉运动注意力来自于时—空运动反差的注意力形成机理构建运动注意力模型;通过时间尺度滤波去除噪声影响;鉴于视觉观测对尺度的依赖性,通过对视频帧的多尺度分解,在多个空间尺度进行运动注意力的计算,根据宏块像素值的相关系数大小对低尺度、中低尺度和原始尺度的运动注意力计算结果进行融合,得到最终的运动注意力显著图。结果 对多个视频测试序列的测试,测试结果表明,本文方法比同类方法更能真实有效地反映出视频场景中的运动显著性特征,大大提高了运动显著图的准确性。结论 为有效提高运动注意力计算不准确的问题,提出一种基于时—空多尺度分析的运动注意力计算方法,对于不同复杂视频运动场景,该方法能明显增强运动注意力计算的准确性,为视觉运动注意力的进一步应用奠定了良好基础。  相似文献   

2.
石祥滨  李怡颖  刘芳  代钦 《计算机应用研究》2021,38(4):1235-1239,1276
针对双流法进行视频动作识别时忽略特征通道间的相互联系、特征存在大量冗余的时空信息等问题,提出一种基于双流时空注意力机制的端到端的动作识别模型T-STAM,实现了对视频关键时空信息的充分利用。首先,将通道注意力机制引入到双流基础网络中,通过对特征通道间的依赖关系进行建模来校准通道信息,提高特征的表达能力。其次,提出一种基于CNN的时间注意力模型,使用较少的参数学习每帧的注意力得分,重点关注运动幅度明显的帧。同时提出一种多空间注意力模型,从不同角度计算每帧中各个位置的注意力得分,提取多个运动显著区域,并且对时空特征进行融合进一步增强视频的特征表示。最后,将融合后的特征输入到分类网络,按不同权重融合两流输出得到动作识别结果。在数据集HMDB51和UCF101上的实验结果表明T-STAM能有效地识别视频中的动作。  相似文献   

3.
一种层次的电影视频摘要生成方法   总被引:1,自引:0,他引:1       下载免费PDF全文
合理地组织视频数据对于基于内容的视频分析和检索有着重要的意义。提出了一种基于运动注意力模型的电影视频摘要生成方法。首先给出了一种基于滑动镜头窗的聚类算法将相似的镜头组织成为镜头类;然后根据电影视频场景内容的发展模式,在定义两个镜头类的3种时序关系的基础上,提出了一种基于镜头类之间的时空约束关系的场景检测方法;最后利用运动注意力模型选择场景中的重要镜头和代表帧,由选择的代表帧集合和重要镜头的关键帧集合建立层次视频摘要(场景级和镜头级)。该方法较全面地涵盖了视频内容,又突出了视频中的重要内容,能够很好地应用于电影视频的快速浏览和检索。  相似文献   

4.
针对视频运动模糊严重影响插帧效果的情况,提出了一种新型的模糊视频插帧方法。首先,提出一种多任务融合卷积神经网络,该网络结构由两个模块组成:去模糊模块和插帧模块。其中,去模糊模块采用残差块堆叠的深度卷积神经网络(CNN),提取并学习深度模糊特征以实现两帧输入图像的运动模糊去除;插帧模块用于估计帧间的体素流,所得体素流将用于指导像素进行三线性插值以合成中间帧。其次,制作了大型模糊视频仿真数据集,并提出一种先分后合、由粗略至细致的训练策略,实验结果表明该策略促进了多任务网络有效收敛。最后,对比前沿的去模糊和插帧算法组合,实验指标显示所提方法合成中间帧时峰值信噪比最少提高1.41 dB,结构相似性提升0.020,插值误差降低1.99。视觉对比及重制序列展示表明,所提模型对于模糊视频有着显著的帧率上转换效果,即能够将两帧模糊视频帧端对端重制为清晰且视觉连贯的三帧视频帧。  相似文献   

5.
基于深度学习的视频超分辨率方法主要关注视频帧内和帧间的时空关系,但以往的方法在视频帧的特征对齐和融合方面存在运动信息估计不精确、特征融合不充分等问题。针对这些问题,采用反向投影原理并结合多种注意力机制和融合策略构建了一个基于注意力融合网络(AFN)的视频超分辨率模型。首先,在特征提取阶段,为了处理相邻帧和参考帧之间的多种运动,采用反向投影结构来获取运动信息的误差反馈;然后,使用时间、空间和通道注意力融合模块来进行多维度的特征挖掘和融合;最后,在重建阶段,将得到的高维特征经过卷积重建出高分辨率的视频帧。通过学习视频帧内和帧间特征的不同权重,充分挖掘了视频帧之间的相关关系,并利用迭代网络结构采取渐进的方式由粗到精地处理提取到的特征。在两个公开的基准数据集上的实验结果表明,AFN能够有效处理包含多种运动和遮挡的视频,与一些主流方法相比在量化指标上提升较大,如对于4倍重建任务,AFN产生的视频帧的峰值信噪比(PSNR)在Vid4数据集上比帧循环视频超分辨率网络(FRVSR)产生的视频帧的PSNR提高了13.2%,在SPMCS数据集上比动态上采样滤波视频超分辨率网络(VSR-DUF)产生的视频帧的PSNR提高了15.3%。  相似文献   

6.
由于光流估算的缺陷、噪声干扰以及现有运动注意力模型的局限性,导致运动注意力计算结果不能准确反映运动的显著性特征。本文提出了一种基于多尺度分析的运动注意力计算方法,该方法根据视觉注意力形成机理构建运动注意力模型;然后通过时间尺度滤波去除噪声影响;鉴于视觉观测对尺度的依赖性,进行空间多尺度动注意力融合,最终得到运动注意力计算结果。测试结果表明本文方法比同类方法更能真实有效地反映出视频场景中的运动显著性特征。  相似文献   

7.
《计算机科学与探索》2016,(12):1744-1751
针对视频处理中运动目标的精确检测这一问题,提出了一种自适应的低秩稀疏分解算法。该算法首先用背景模型与待求解的帧向量构建增广矩阵,然后使用鲁棒的主成分分析(robust principal component analysis,RPCA)对降维后的增广矩阵进行低秩稀疏分解,分离出的低秩部分和稀疏噪声分别对应于视频帧的背景和运动前景,然后使用增量奇异值分解方法用当前得到的背景向量更新背景模型。实验结果表明,该算法能更好地处理光线变化、背景运动等复杂场景,并有效降低算法的延迟和内存的占用。  相似文献   

8.
帧速率上转换主要是用来实现两个不同帧率视频扫描格式之间的转换。它可以应用于HDTV和低比特码率编码等应用场合。将场景检测引入到帧率上转换方法中,根据视频内容的变化来检测场景的变换,然后自适应地选择内插(Interpolation)/外推(Extrapolation)的方法,从而解决了传统运动补偿内插法针对序列剧烈运动或场景切换难以处理的问题。同时,结合残差能量的大小和运动矢量的相关性对运动矢量的可靠性进行分类,对不可靠运动矢量采用可变块大小运动估计进行重新搜索,不断更新运动矢量,逐步消除由于运动矢量的不准确带来的方块效应和边缘模糊现象。实验结果表明,算法较传统的插值算法对内插图像的主观质量和客观质量都有所提高。  相似文献   

9.
行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为帧间差距较小,易造成视频帧的冗余,基于此,通过均匀稀疏采样策略完成全视频段的时域建模,在降低视频帧冗余度的前提下实现长时序信息的充分保留;其次,通过多列卷积获取多尺度时空特征,弱化视角变化对视频图像带来的干扰;后引入光流数据信息,通过空间注意力机制引导的特征提取网络获取光流数据的深层次特征,进而利用不同数据模式之间的优势互补,提高网络在不同场景下的准确性和鲁棒性;最后,将获取的多尺度时空特征和光流信息在网络的全连接层进行融合,实现了端到端的长视频行为识别;实验结果表明,所提方法在UCF101和HMDB51数据集上平均精度分别为97.2%和72.8%,优于其他对比方法,实验结果证明了该方法的有效性.  相似文献   

10.
为提高群体活动场景下细粒度人体姿态估计的准确率,优化网路中人体识别及姿态估计算法,在现有研究的基础上,提出一种结合多尺度预测以及改进并行注意力模块的多目标人体姿态估计算法。在充分利用不同尺度特征信息的基础上,实现高质量的人体姿态估计;针对运动场景下多目标人体姿态数据集较少,提出一种数据集CUPB Sport Dataset。实验结果表明,该算法在公开基准数据集和自制数据集上分别达到了81.4 mAP和79.7 mAP,验证了该算法在运动场景下针对多目标的高效性。  相似文献   

11.
目的 为研究多场景下的行人检测,提出一种视觉注意机制下基于语义特征的行人检测方法。方法 首先,在初级视觉特征基础上,结合行人肤色的语义特征,通过将自下而上的数据驱动型视觉注意与自上而下的任务驱动型视觉注意有机结合,建立空域静态视觉注意模型;然后,结合运动信息的语义特征,采用运动矢量熵值计算运动显著性,建立时域动态视觉注意模型;在此基础上,以特征权重融合的方式,构建时空域融合的视觉注意模型,由此得到视觉显著图,并通过视觉注意焦点的选择完成行人检测。结果 选用标准库和实拍视频,在Matlab R2012a平台上,进行实验验证。与其他视觉注意模型进行对比仿真,本文方法具有良好的行人检测效果,在实验视频上的行人检测正确率达93%。结论 本文方法在不同的场景下具有良好的鲁棒性能,能够用于提高现有视频监控系统的智能化性能。  相似文献   

12.
鲁志红  郭丹  汪萌 《自动化学报》2015,41(5):1034-1041
提出了一种基于加权运动估计、矢量分割和可变块层次化处理的运动补偿内插(Motion-compensated frame interpolation, MCFI)算法. 首先, 提出一种加权运动估计改善了运动矢量(Motion vector, MV)的准确度, 其次, 通过矢量聚类分割将视频帧分割为运动区域和背景, 然后对运动区域的运动矢量进行了可变块层次化处理. 此过程中, 采用可变块合并算法保证了运动物体的边缘结构信息不被损坏. 同时考虑到部分可变块的多方向性, 使用了自适应矢量中值滤波器和矢量平滑降低了运动块大小, 能有效地消除传统方法中出现的方块效应和重影现象. 实验结果表明该算法在内插图像的主观视觉效果和客观评估标准上都有所提高, 而且对于运动较快及背景较复杂的视频序列同样具有较强的适应性.  相似文献   

13.
宋传鸣  赵长伟  刘丹  王相海 《软件学报》2016,27(11):2946-2960
运动估计是去除视频时间维冗余的编码技术,而目前通用的平移运动模型无法有效地表示物体的局部非刚性复杂运动.为此,提出一种基于改进高斯-牛顿法的弹性运动估计方法.首先,通过分析初始迭代点对高斯-牛顿迭代结果的影响,采用基于2bit深度像素的均匀搜索预测初始迭代点;其次,通过理论和实验分析发现,不同的迭代步长对弹性运动估计/补偿性能有明显的影响,采用离散余弦变换的低频能量比率估计步长的上限,再利用黄金分割法对步长进行求精.实验结果表明,对于具有不同场景特点的视频序列,该算法始终能够保持较高的估计精度,运动补偿的平均峰值信噪比,比基于块平移模型的全搜索算法和传统弹性运动估计算法分别提高1.73dB和1.42dB.并且,该算法具有更快的收敛速度,一般仅需1~3次迭代就能取得高于传统弹性运动估计和块平移全搜索的峰值信噪比.  相似文献   

14.
在分布式视频编码(DVC)中,如何在各种运动场景下生成高质量的边信息并提升解码性能是一个重点研究领域。提出一种基于深度学习的光流插帧边信息生成算法(optical flow interpolation,OFI),编码端采用区间重叠的分布式算数码(distributed arithmetic coding,DAC)对视频进行编码,解码端生成边信息时提取已解码关键帧,输入深度学习光流插帧网络。网络采用多层光流模块产生光流,并结合光流向后弯曲关键帧产生初步的边信息估计,再由融合过程消除遮挡产生更加细化的结果,最后边信息辅助解码树完成解码。实验结果表明,与现有方法相比,该方法PSNR最大可提升2.25 dB,主要体现在线性运动场景下。同时在线性和非线性场景下SSIM指标可提升0.001 5~0.064 8,在解码视频率失真曲线上也体现出一致的结果,证明了该算法对线性运动边信息估计有较好的提升,对非线性运动边信息结构也有良好的恢复性。  相似文献   

15.
汪朝林  周宇  王晓东  章联军 《计算机应用》2015,35(12):3442-3446
针对现有I帧错误隐藏方法不能平衡恢复图像质量与算法复杂度的问题,提出了一种高效的I帧分区错误隐藏方法。首先,利用视频帧之间的运动相关性将丢失宏块分为运动宏块和静止宏块。对于静止宏块,采用帧拷贝法进行掩盖;对于运动宏块,再根据其周围正确解码宏块的纹理信息将其分为平滑块和纹理块。对平滑块采用双线性插值法进行恢复;对纹理块利用比较精细的指数分布权重的加权模板匹配(WTE)法进行掩盖。实验结果表明,与WTE算法相比,所提方法的峰值信噪比(PSNR)平均提高了2.6 dB,计算复杂度平均降低了90%。对于场景连续的具有不同特征和分辨率的视频序列,所提方法都具有一定的适用性。  相似文献   

16.
将帧率变换技术与新型视频压缩编码标准HEVC相结合有利于提升视频的压缩效率。针对直接利用HEVC码流信息中的低帧率视频的运动矢量进行帧率上变换时效果不理想的问题,文中提出了一种基于运动矢量细化的帧率上变换与HEVC结合的视频压缩算法。首先,在编码端对原始视频进行抽帧,降低视频帧率;其次,对低帧率视频进行HEVC编解码;然后,在解码端与从HEVC码流中提取出的运动矢量相结合,利用前向-后向联合运动估计对其进行进一步的细化,使细化后的运动矢量更加接近于对象的真实运动;最后,利用基于运动补偿的帧率上变换技术将视频序列恢复至原始帧率。实验结果表明,与HEVC标准相比,所提算法在同等视频质量下可节省一定的码率。同时,与其他算法相比,在节省码率相同的情况下,所提算法重建视频的PSNR值平均可提升0.5 dB。  相似文献   

17.
石念峰  侯小静  张平 《计算机应用》2017,37(9):2605-2609
为提高运动视频关键帧的运动表达能力和压缩率,提出柔性姿态估计和时空特征嵌入结合的运动视频关键帧提取技术。首先,利用人体动作的时间连续性保持建立具有时间约束限制的柔性部件铰接人体(ST-FMP)模型,通过非确定性人体部位动作连续性约束,采用N-best算法估计单帧图像中的人体姿态参数;接着,采用人体部位的相对位置和运动方向描述人体运动特征,通过拉普拉斯分值法实施数据降维,获得局部拓扑结构表达能力强的判别性人体运动特征向量;最后,采用迭代自组织数据分析技术(ISODATA)算法动态地确定关键帧。在健美操动作视频关键帧提取实验中,ST-FMP模型将柔性混合铰接人体模型(FMP)的非确定性人体部位的识别准确率提高约15个百分点,取得了81%的关键帧提取准确率,优于KFE和运动块的关键帧算法。所提算法对人体运动特征和人体姿态敏感,适用于运动视频批注审阅。  相似文献   

18.
针对含有飞机复杂机构的虚拟培训场景建模过程复杂、生成的场景帧率低、交互性差等问题,提出一种虚拟场景建模方法。首先,对原动件在其运动范围内进行运动状态采样;然后利用机构仿真平台进行运动学建模与解算,获取所有零件的运动状态作为机构的运动状态库,并对运动状态库进行压缩;最后,在虚拟现实引擎中将库文件与经过材质编辑的网格模型融合,采用索引、插值替代实时解算,以获取零件的位置姿态数据,生成虚拟场景。使用起落架收放机构与后缘襟翼收放机构进行实验,结果表明,该方法可以实现真实感强、交互性好的飞机复杂机构虚拟培训场景运动建模。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号