首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 60 毫秒
1.
目前大多数人脸识别方法依赖于卷积神经网络,通过级联的形式构建多层处理单元,利用卷积操作融合局部特征,忽略了人脸全局语义信息,缺乏对人脸重点区域的关注度。针对上述问题,提出一种基于改进视觉Transformer的人脸识别方法,引入Shuffle Transformer作为特征提取骨干网络,通过自注意力机制以及Shuffle操作捕捉特征图全局信息,建立特征点之间的长距离依赖关系,提高模型的特征感知能力;同时,结合ArcFace损失函数和中心损失函数的特点,设计融合损失作为目标函数,利用类内约束扩大角度间隔,提高特征空间的辨别性。该方法在LFW、CALFW、CPLFW、AgeDB-30和CFP五个具有挑战性的基准测试人脸数据集上分别取得了99.83%、95.87%、90.05%、98.05%、97.23%的平均准确率,能够有效提升人脸特征提取能力,识别效果优于同等规模卷积神经网络。  相似文献   

2.
普通摄像设备拍摄的视频帧速率有限,从而影响观众的特殊观感体验,提高视频帧速率的后处理过程是必不可少的,视频插帧就是其中关键技术之一.视频插帧是指根据两个连续视频帧合成中间帧数据,在影视作品、体育比赛精彩视频片段慢动作回放等方面有广泛的应用.基于光流的视频插帧方法能有效解决视频中场景、目标的移动估计问题,但是其受制于光流估计的速度,无法很好地应用于实时视频任务.本文提出一种新的光流预测模型,并将其用于视频插帧任务中.首先对于输入的两张连续视频帧数据进行多次信息无损的下采样,获得不同尺度的输入数据;之后通过卷积神经网络进行特征提取,并对提取的特征建立注意力掩码,增强特征表达能力,根据该特征生成对应尺度的光流;最后使用融合网络,将多尺度的光流信息聚合为统一的尺度作为最终输出.本文方法能够被端到端的优化训练,并在大规模视频插帧基准数据集上进行了训练和验证测试.结果表明该方法能够获得高质量的插帧效果并能够达到实时的插帧速率,而且比其它先进方法更具优越性.  相似文献   

3.
针对视频运动模糊严重影响插帧效果的情况,提出了一种新型的模糊视频插帧方法。首先,提出一种多任务融合卷积神经网络,该网络结构由两个模块组成:去模糊模块和插帧模块。其中,去模糊模块采用残差块堆叠的深度卷积神经网络(CNN),提取并学习深度模糊特征以实现两帧输入图像的运动模糊去除;插帧模块用于估计帧间的体素流,所得体素流将用于指导像素进行三线性插值以合成中间帧。其次,制作了大型模糊视频仿真数据集,并提出一种先分后合、由粗略至细致的训练策略,实验结果表明该策略促进了多任务网络有效收敛。最后,对比前沿的去模糊和插帧算法组合,实验指标显示所提方法合成中间帧时峰值信噪比最少提高1.41 dB,结构相似性提升0.020,插值误差降低1.99。视觉对比及重制序列展示表明,所提模型对于模糊视频有着显著的帧率上转换效果,即能够将两帧模糊视频帧端对端重制为清晰且视觉连贯的三帧视频帧。  相似文献   

4.
视频字幕在传递信息的同时,固化在视频中的字幕也阻碍了视频的重复利用。提出一种基于时空解耦Transformer的视频字幕去除算法,能够从带有字幕文本的视频序列中去除字幕文本,并重建出被字幕区域遮挡的背景图像。整体框架分为两个部分,字幕掩膜提取模块和字幕去除模块,前者快速精准地获得输入视频序列的二值字幕掩膜,将得到的二值字幕掩膜作为辅助信息,输入到基于时空解耦Transformer的字幕去除模块,进行字幕文本的去除和背景纹理的恢复,实现对整体视频字幕的去除。与现有的经典视频字幕去除方法相比,在峰值信噪比和结构相异性等图像质量指标以及视觉效果上,该方法均取得了更好的性能,实验结果验证了该方法在视频字幕去除领域的有效性。  相似文献   

5.
基于神经网络的视频质量增强方法能够明显减少视频压缩噪声,提高压缩视频的主观与客观质量.目前,大多研究采用的是空域单帧增强策略.然而,视频图像在时域也具备高度相关性,这些信息还未在视频增强上得到充分利用.为此,提出了一种联合时空域信息的重建视频增强方法.首先,使用自适应网络,根据前后重建帧预测得到当前帧的虚拟帧;该虚拟帧携带了大量时域信息,当前帧在空域又有高度相关性,因此,提出使用渐进融合网络进一步融合两者信息,从而增强当前帧的质量.实验结果表明,在随机访问编码模式测试条件下,文中方法与H.265/HEVC相比,平均可获得0.38dBPSNR增益;与仅用单帧增强相比,可获得0.06dBPSNR增益;与已有的多帧增强方法(multi-frame quality enhancement, MFQE)相比,可获得0.26 dB PSNR增益,且参数量仅为MFQE的12.2%.此外,文中方法对重建视频的主观质量也有明显改善.  相似文献   

6.
目前主流的语音分离算法模型都是基于复杂的递归网络或Transformer网络,Transformer网络复杂度高导致训练难度大以及音频的高采样率导致在样本级别上使用超长输入从而获取不完全特征,不能直接对长语音特征序列进行直接建模出现特征丢失问题。对此,该文提出了一种基于Transformer的改进网络模型。首先,在原有Transformer网络模型编码器里新添加下采样块,计算不同时间尺度上的高级特征同时降低特征空间复杂度;其次,在Transformer网络模型的解码器里添加上采样层与编码器下采样层特征融合保证特征不丢失,提高模型分离能力;最后,在模型分离层里引入一种改进的滑动窗口注意力机制,滑动窗口使用循环移位技术,新的特征窗口中包含老的特征窗口特征同时融合特征边缘信息完成了特征窗口之间的信息交互,获得特征编码以及特征位置编码同时提高特征信息之间的相关系数。实验表明,使用SI-SNR评价标准达到13.5 dB,使用SDR评价指标达到14.1 dB,分离效果优于之前的方法。  相似文献   

7.
Transformer模型在自然语言处理领域取得了很好的效果,同时因其能够更好地连接视觉和语言,也激发了计算机视觉界的极大兴趣。本文总结了视觉Transformer处理多种识别任务的百余种代表性方法,并对比分析了不同任务内的模型表现,在此基础上总结了每类任务模型的优点、不足以及面临的挑战。根据识别粒度的不同,分别着眼于诸如图像分类、视频分类的基于全局识别的方法,以及目标检测、视觉分割的基于局部识别的方法。考虑到现有方法在3种具体识别任务的广泛流行,总结了在人脸识别、动作识别和姿态估计中的方法。同时,也总结了可用于多种视觉任务或领域无关的通用方法的研究现状。基于Transformer的模型实现了许多端到端的方法,并不断追求准确率与计算成本的平衡。全局识别任务下的Transformer模型对补丁序列切分和标记特征表示进行了探索,局部识别任务下的Transformer模型因能够更好地捕获全局信息而取得了较好的表现。在人脸识别和动作识别方面,注意力机制减少了特征表示的误差,可以处理丰富多样的特征。Transformer可以解决姿态估计中特征错位的问题,有利于改善基于回归的方法性能,还减少了三维估计时深度映射所产生的歧义。大量探索表明视觉Transformer在识别任务中的有效性,并且在特征表示或网络结构等方面的改进有利于提升性能。  相似文献   

8.
基于计算机视觉的Transformer研究进展   总被引:1,自引:0,他引:1       下载免费PDF全文
Transformer是一种基于自注意力机制、并行化处理数据的深度神经网络.近几年基于Transformer的模型成为计算机视觉任务的重要研究方向.针对目前国内基于Transformer综述性文章的空白,对其在计算机视觉上的应用进行概述.回顾了Transformer的基本原理,重点介绍了其在图像分类、目标检测、图像分割...  相似文献   

9.
根据用户对视频内容的个性化偏好,提出结合语义事件与精彩度的视频内容分级方法,构建时域内基于多粒度语义内容的统一丢帧模型,在 RTP/RTSP 流媒体服务器中基于语义丢帧算法设计了视频自适应传输优化策略。实验结果表明,本文提出的基于内容的丢帧策略在网络性能、语义质量等方面优于传统基于帧类型的丢帧策略。  相似文献   

10.
孟凡墨 《计算机仿真》2021,38(3):135-138,179
针对传统视频跳帧缺帧补偿方法存在效率低且补偿不完整问题,提出一种基于帧间投影算法的三维视频跳帧缺帧动态补偿方法.使用帧间投影算法使帧间运行转化为两个单独波形,得出参考帧在水平方向与垂直方向运动矢量,并利用逆变转化限制旋转、平移等基础变形,减少后续补偿的干扰向量,分析三维视频补偿需求构建相应深度卷积神经网络,利用训练模块对两种波形进行训练,通过不同方法测定三维视频补偿效率,获取三维视频跳帧缺帧动态补偿完整性.实验结果得出,所提方法在三维视频跳帧、缺帧补偿上效率更高,并且较比传统方法更快.据此可得出结论为所提三维视频跳帧缺帧补偿方法的性能更好.  相似文献   

11.
As we all know, video frame rate determines the quality of the video. The higher the frame rate, the smoother the movements in the picture, the clearer the information expressed, and the better the viewing experience for people. Video interpolation aims to increase the video frame rate by generating a new frame image using the relevant information between two consecutive frames, which is essential in the field of computer vision. The traditional motion compensation interpolation method will cause holes and overlaps in the reconstructed frame, and is easily affected by the quality of optical flow. Therefore, this paper proposes a video frame interpolation method via optical flow estimation with image inpainting. First, the optical flow between the input frames is estimated via combined local and global-total variation (CLG-TV) optical flow estimation model. Then, the intermediate frames are synthesized under the guidance of the optical flow. Finally, the nonlocal self-similarity between the video frames is used to solve the optimization problem, to fix the pixel loss area in the interpolated frame. Quantitative and qualitative experimental results show that this method can effectively improve the quality of optical flow estimation, generate realistic and smooth video frames, and effectively increase the video frame rate.  相似文献   

12.
目的 视频摘要技术在多媒体数据处理和计算机视觉中都扮演着重要的角色。基于聚类的摘要方法多结合图像全局或局部特征,对视频帧进行集群分类操作,再从各类中获取具有代表性的关键帧。然而这些方法多需要提前确定集群的数目,自适应的方法也不能高效的获取聚类的中心。为此,提出一种基于映射和聚类的图像密度值分析的关键帧选取方法。方法 首先利用各图像间存在的差异,提出将其映射至2维空间对应点的度量方法,再依据点对间的相对位置和邻域密度值进行集群的聚类,提出根据聚类的结果从视频中获取具有代表性的关键帧的提取方法。结果 分别使用提出的度量方法对Olivetti人脸库内图像和使用关键帧提取方法对Open Video库进行测试,本文关键帧提取方法的平均查准率达到66%、查全率达到74%,且F值较其他方法高出11%左右达到了69%。结论 本文提出的图像映射后聚类的方法可有效进行图像类别的识别,并可有效地获取视频中的关键帧,进而构成视频的摘要内容。  相似文献   

13.
由于边缘设备的计算能力有限,处理高分辨率、高帧率的视频时极易造成帧堆积.同时,视频参数的多样性也会影响视频处理的效果,需要自适应调整系统参数以保证视频处理性能.针对视频处理的帧堆积问题提出了在帧接收和帧处理间加入缓冲区即帧缓冲队列的方法,来并行处理缓冲帧,以解决帧接收时延问题,加速视频处理.实验结果表明,帧缓冲队列解决...  相似文献   

14.
视觉注意模型的道路监控视频关键帧提取   总被引:1,自引:0,他引:1       下载免费PDF全文
针对道路监控视频提出一种基于视觉注意模型的关键帧提取算法.首先采用自顶向下的方法,通过运动检测获取运动目标,以车牌和车辆最佳清晰度位置作为注意度评价标准,提取运动目标位置显著度;然后在运动目标内部采用自底向上的方法,提取运动目标的运动方向和强度显著度;接着用一种简单有效的车辆位置优先的自适应线性混合模式合成视觉注意度,并在时间方向上生成最终的视觉注意度曲线;最后求出视觉注意度曲线的导数曲线,自适应滤波处理后,在正值到负值变化的零交叉点中选取显著度最高的图像作为关键帧.实验结果表明,本文算法提取的关键帧不但包括了所有经过监控的车辆最佳或接近最佳清晰度的位置,而且还能包括道路停车、超速和逆向行驶等各种交通事件,符合交通观察者的视觉特性,同时也有利于进一步对关键帧进行车辆静态特征的提取,以形成交通视频的特征数据库.  相似文献   

15.
改进的蚁群算法与凝聚相结合的关键帧提取   总被引:1,自引:0,他引:1  
关键帧提取技术,对基于内容的视频检索有着重要的作用。为了从不同类型的视频中有效地提取关键帧,提出了改进的蚁群算法与凝聚相结合的关键帧提取算法。该方法提取视频中每帧的颜色与边缘特征向量,利用改进的蚁群算法自组织地对颜色和边缘特征向量进行聚类,得到初始聚类。通过凝聚算法对初始聚类进行优化,得到最终聚类。提取每类中距离聚类中心最近的向量,将其对应帧作为关键帧。实验结果表明:使用该算法提取的关键帧不仅可以充分表达出视频的主要内容,而且可以根据视频内容的变化提取出适当数量的关键帧。  相似文献   

16.
帧速率上转换主要是用来实现两个不同帧率视频扫描格式之间的转换。它可以应用于HDTV和低比特码率编码等应用场合。将场景检测引入到帧率上转换方法中,根据视频内容的变化来检测场景的变换,然后自适应地选择内插(Interpolation)/外推(Extrapolation)的方法,从而解决了传统运动补偿内插法针对序列剧烈运动或场景切换难以处理的问题。同时,结合残差能量的大小和运动矢量的相关性对运动矢量的可靠性进行分类,对不可靠运动矢量采用可变块大小运动估计进行重新搜索,不断更新运动矢量,逐步消除由于运动矢量的不准确带来的方块效应和边缘模糊现象。实验结果表明,算法较传统的插值算法对内插图像的主观质量和客观质量都有所提高。  相似文献   

17.
提出一种基于视觉特点的视频编码方法,通过利用人眼的视觉特征,找出其中的聚焦点和聚焦区域,并计算各个区域的权值,然后根据权值来确定各个运动补偿块以及码率分配。在码率分配部分,该方法通过计算不同区域的图像复杂性和能量,依据聚焦区权重因子不等重地分配可用码率资源。实验证明,该方法较大程度改善了视频编码的压缩效率,提高了码率分配的灵活性和有效性。  相似文献   

18.
关键帧提取是基于内容的视频检索中的重要一步,为了能够有效地提取出不同类型视频的关键帧,提出一种基于粒子群的关键帧提取算法。该方法首先提取出视频中每帧的全局运动和局部运动特征,然后通过粒子群算法自适应地提取视频关键帧。实验结果表明,采用该算法对不同类型的视频提取出的关键帧具有较好的代表性。  相似文献   

19.
一种基于视频编码标准H.264的智能视频监控技术   总被引:4,自引:0,他引:4  
惠鏸  刘涵  吴亚丽  梁炎明 《计算机应用》2005,25(11):2589-2591
提出并实现了一种基于H.264视频编码标准的智能视频监控系统。该系统引入一种新的运动检测方法,通过对监控图像的运动矢量及运动补偿后的残差能量进行综合分析,提出了对可疑场景的确认和报警方案,能够有效克服光线变化、背景局部轻微摆动及摄像头轻微抖动带来的影响,具有良好的灵敏度和鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号