首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
人脸合成由于其应用与技术价值,是机器视觉领域的热点之一,而近年来深度学习的突破性进展使该领域吸引了更多关注.将该领域的研究分为四个子类:人脸身份合成、人脸动作合成、人脸属性合成与人脸生成,并系统地总结了这些子类的发展历程、现状,以及现有技术存在的问题.首先针对人脸身份合成,从图形学、数字图像处理与深度学习三个角度总结了各自的合成流程,对关键技术原理进行了详细的解释与分析.其次将人脸动作合成进一步分为利用标签驱动的表情编辑与利用真实人脸驱动的人脸重演,并指出了各自领域中存在的缺陷与难题.然后介绍了基于生成模型,尤其是生成对抗网络在人脸属性合成方面的发展,最终对人脸生成的各类工作进行了简单的阐述.此外,介绍了人脸合成技术的实际应用与当前面临的相关问题,并展望了该领域未来可能的研究方向.  相似文献   

2.
深度生成模型的飞速发展推动了人脸深度伪造技术的进步,以Deepfake为代表的深度伪造模型也得到了十分广泛的应用。深度伪造技术可以对人脸图像或视频进行有目的的操纵,一方面,这种技术广泛应用于电影特效、娱乐场景中,丰富了人们的娱乐生活,促进了互联网多媒体的传播;另一方面,深度伪造也应用于一些可能造成不良影响的场景,给公民的名誉权、肖像权造成了危害,同时也给国家安全和社会稳定带来了极大的威胁,因此对深度伪造防御技术的研究日益迫切。现有的防御技术主要分为被动检测和主动防御,而被动检测的方式无法消除伪造人脸在广泛传播中造成的影响,难以做到“事前防御”,因此主动防御的思想得到了研究人员的广泛关注。然而,目前学术界有关深度伪造防御的综述主要关注基于检测的被动式防御方法,几乎没有以深度伪造主动防御技术为重点的综述。基于此,本文对当前学术界提出的人脸深度伪造主动防御技术进行梳理、总结和讨论。首先阐述了深度伪造主动防御的提出背景和主要思想,并对现有的人脸深度伪造主动防御算法进行汇总和归类,然后对各类主动防御算法的技术原理、性能、优缺点等进行了系统性的总结,同时介绍了研究常用的数据集和评估方法,最后对深度...  相似文献   

3.
面部表情分析是计算机通过分析人脸信息尝试理解人类情感的一种技术,目前已成为计算机视觉领域的热点话题。其挑战在于数据标注困难、多人标签一致性差、自然环境下人脸姿态大以及遮挡等。为了推动面部表情分析发展,本文概述了面部表情分析的相关任务、进展、挑战和未来趋势。首先,简述了面部表情分析的几个常见任务、基本算法框架和数据库;其次,对人脸表情识别方法进行了综述,包括传统的特征设计方法以及深度学习方法;接着,对人脸表情识别存在的问题与挑战进行总结思考;最后,讨论了未来发展趋势。通过全面综述和讨论,总结以下观点:1)针对可靠人脸表情数据库规模小的问题,从人脸识别模型进行迁移学习以及利用无标签数据进行半监督学习是两个重要策略;2)受模糊表情、低质量图像以及标注者的主观性影响,非受控自然场景的人脸表情数据的标签库存在一定的不确定性,抑制这些因素可以使得深度网络学习真正的表情特征;3)针对人脸遮挡和大姿态问题,利用局部块进行融合的策略是一个有效的策略,另一个值得考虑的策略是先在大规模人脸识别数据库中学习一个对遮挡和姿态鲁棒的模型,再进行人脸表情识别迁移学习;4)由于基于深度学习的表情识别方法受很多超参数影响,导致当前人脸表情识别方法的可比性不强,不同的表情识别方法有必要在不同的简单基线方法上进行评测。目前,虽然非受控自然环境下的表情分析得到较快发展,但是上述问题和挑战仍然有待解决。人脸表情分析是一个比较实用的任务,未来发展除了要讨论方法的精度也要关注方法的耗时以及存储消耗,也可以考虑用非受控环境下高精度的人脸运动单元检测结果进行表情类别推断。  相似文献   

4.
随着深度学习的广泛应用,身份伪造技术的发展越来越迅猛.各种伪造的图像和视频在社交媒体平台上的传播直接影响了公共隐私安全,人脸身份隐私保护已成为当前研究热点.本文从基于图像和视频两个方面的匿名化方法阐述和归纳了人脸隐私保护研究现状,并将人脸图像匿名化方法从图像语义修改、图像语义保持、视觉可恢复以及深度学习过程中的人脸隐私保护四个方面进行分类,将人脸视频匿名化方法从聚焦面部区域隐私的视频匿名化方法和面向生物特征隐私的视频匿名化方法两个方面进行分类.在此基础上,本文进一步介绍目前广泛使用的数据集及匿名算法评价标准,分析现有人脸匿名技术生成人脸图像的可靠性和实用性,并对此领域的未来研究进行了展望.  相似文献   

5.
随着人脸表情识别任务逐渐从实验室受控环境转移至具有挑战性的真实世界环境,在深度学习技术的迅猛发展下,深度神经网络能够学习出具有判别能力的特征,逐渐应用于自动人脸表情识别任务。目前的深度人脸表情识别系统致力于解决以下两个问题:1)由于缺乏足量训练数据导致的过拟合问题;2)真实世界环境下其他与表情无关因素变量(例如光照、头部姿态和身份特征)带来的干扰问题。本文首先对近十年深度人脸表情识别方法的研究现状以及相关人脸表情数据库的发展进行概括。然后,将目前基于深度学习的人脸表情识别方法分为两类:静态人脸表情识别和动态人脸表情识别,并对这两类方法分别进行介绍和综述。针对目前领域内先进的深度表情识别算法,对其在常见表情数据库上的性能进行了对比并详细分析了各类算法的优缺点。最后本文对该领域的未来研究方向和机遇挑战进行了总结和展望:考虑到表情本质上是面部肌肉运动的动态活动,基于动态序列的深度表情识别网络往往能够取得比静态表情识别网络更好的识别效果。此外,结合其他表情模型如面部动作单元模型以及其他多媒体模态,如音频模态和人体生理信息能够将表情识别拓展到更具有实际应用价值的场景。  相似文献   

6.
随着各种深度学习生成模型在各领域的应用,生成的多媒体文件的真伪越来越难以辨别,深度伪造技术也因此得以诞生和发展.深度伪造技术通过深度学习相关技术能够篡改视频或者图片中的人脸身份信息、表情和肢体动作,以及生成特定人物的虚假语音.自2018年Deepfakes技术在社交网络上掀起换脸热潮开始,大量的深度伪造方法被提出,并展现了其在教育、娱乐等领域的潜在应用.但同时深度伪造技术在社会舆论、司法刑侦等方面产生的负面影响也不容忽视.因此有越来越多的对抗手段被提出用于防止深度伪造被不法分子所应用,如深度伪造的检测和水印.首先,针对不同模态类型的深度伪造技术以及相应的检测技术进行了回顾和总结,并根据研究目的和研究方法对现有的研究进行了分析和归类;其次,总结了近年研究中广泛使用的视频和音频数据集;最后,探讨了该领域未来发展面临的机遇和挑战.  相似文献   

7.
深度视觉生成是计算机视觉领域的热门方向,旨在使计算机能够根据输入数据自动生成预期的视觉内容。深度视觉生成使用人工智能技术赋能相关产业,推动产业自动化、智能化改革与转型。生成对抗网络(generative adversarial networks,GANs)是深度视觉生成的有效工具,近年来受到极大关注,成为快速发展的研究方向。GANs能够接收多种模态的输入数据,包括噪声、图像、文本和视频,以对抗博弈的模式进行图像生成和视频生成,已成功应用于多项视觉生成任务。利用GANs实现真实的、多样化和可控的视觉生成具有重要的研究意义。本文对近年来深度对抗视觉生成的相关工作进行综述。首先介绍深度视觉生成背景及典型生成模型,然后根据深度对抗视觉生成的主流任务概述相关算法,总结深度对抗视觉生成目前面临的痛点问题,在此基础上分析深度对抗视觉生成的未来发展趋势。  相似文献   

8.
多聚焦图像融合是一种以软件方式有效扩展光学镜头景深的技术,该技术通过综合同一场景下多幅部分聚焦图像包含的互补信息,生成一幅更加适合人类观察或计算机处理的全聚焦融合图像,在数码摄影、显微成像等领域具有广泛的应用价值。传统的多聚焦图像融合方法往往需要人工设计图像的变换模型、活跃程度度量及融合规则,无法全面充分地提取和融合图像特征。深度学习由于强大的特征学习能力被引入多聚焦图像融合问题研究,并迅速发展为该问题的主流研究方向,多种多样的方法不断提出。鉴于国内鲜有多聚焦图像融合方面的研究综述,本文对基于深度学习的多聚焦图像融合方法进行系统综述,将现有方法分为基于深度分类模型和基于深度回归模型两大类,对每一类中的代表性方法进行介绍;然后基于3个多聚焦图像融合数据集和8个常用的客观质量评价指标,对25种代表性融合方法进行了性能评估和对比分析;最后总结了该研究方向存在的一些挑战性问题,并对后续研究进行展望。本文旨在帮助相关研究人员了解多聚焦图像融合领域的研究现状,促进该领域的进一步发展。  相似文献   

9.
人脸表情合成技术旨在保留人脸身份信息的情况下,对人脸表情进行重建,从而生成具有新表情的源人脸图像。深度学习的发展为表情合成提供了全新的解决方案,本文从特征提取、生成对抗网络的表情合成和实验评估方面综述了人脸表情合成技术的发展。首先,介绍了人脸特征的提取,这是表情合成任务中的一项关键技术,人脸特征可客观全面地描述人脸表情状态。其次,分析了表情合成领域中主流的基于深度学习的方法,主要针对生成对抗网络(Generative adversarial network,GAN)的发展现状,探讨了基于生成对抗网络的表情合成方法。通过对人脸数据集及实验评估方法的深入研究,总结出广泛使用的人脸表情合成数据集以及多种客观评价方法。最后根据现有方法所存在的问题,提出了未来工作的研究方向。  相似文献   

10.
为了利用计算机方便快捷地生成表情逼真的动漫人物,提出一种基于深度学习和表情AU参数的人脸动画生成方法.该方法定义了用于描述面部表情的24个面部运动单元参数,即表情AU参数,并利用卷积神经网络和FEAFA数据集构建和训练了相应的参数回归网络模型.在根据视频图像生成人脸动画时,首先从单目摄像头获取视频图像,采用有监督的梯度下降法对视频帧进行人脸检测,进而对得到的人脸表情图像准确地回归出表情AU参数值,将其视为三维人脸表情基系数,并结合虚拟人物相对应的24个基础三维表情形状和中立表情形状,在自然环境下基于表情融合变形模型驱动虚拟人物生成人脸动画.该方法省去了传统方法中的三维重建过程,并且考虑了运动单元参数之间的相互影响,使得生成的人脸动画的表情更加自然、细腻.此外,基于人脸图像比基于特征点回归出的表情系数更加准确.  相似文献   

11.
While many works consider moving faces only as collections of frames and apply still image-based methods, recent developments indicate that excellent results can be obtained using texture-based spatiotemporal representations for describing and analyzing faces in videos. Inspired by the psychophysical findings which state that facial movements can provide valuable information to face analysis, and also by our recent success in using LBP (local binary patterns) for combining appearance and motion for dynamic texture analysis, this paper investigates the combination of facial appearance (the shape of the face) and motion (the way a person is talking and moving his/her facial features) for face analysis in videos. We propose and study an approach for spatiotemporal face and gender recognition from videos using an extended set of volume LBP features and a boosting scheme. We experiment with several publicly available video face databases and consider different benchmark methods for comparison. Our extensive experimental analysis clearly assesses the promising performance of the LBP-based spatiotemporal representations for describing and analyzing faces in videos.  相似文献   

12.
目的 人脸识别已经得到了广泛应用,但大姿态人脸识别问题仍未完美解决。已有方法或提取姿态鲁棒特征,或进行人脸姿态的正面化。其中主流的人脸正面化方法包括2D回归生成和3D模型形变建模,前者能够生成相对自然真实的人脸,但会引入额外的噪声导致图像信息的扭曲;后者能够保持原始的人脸结构信息,但生成过程是基于物理模型的,不够自然灵活。为此,结合2D和3D方法的优势,本文提出了基于由粗到细形变场的人脸正面化方法。方法 该形变场由深度网络以2D回归方式学得,反映的是不同视角人脸图像像素之间的语义级对应关系,可以类3D的方式实现非正面人脸图像的正面化,因此该方法兼具了2D正面化方法的灵活性与3D正面化方法的保真性,且借鉴分步渐进的思路,本文提出了由粗到细的形变场学习框架,以获得更加准确鲁棒的形变场。结果 本文采用大姿态人脸识别实验来验证本文方法的有效性,在MultiPIE(multi pose, illumination, expressions)、LFW(labeled faces in the wild)、CFP(celebrities in frontal-profile in the wild)...  相似文献   

13.
近年来基于视频的人脸检索已成为人脸识别和检索领域最为活跃的研究方向之一。提出了一种基于仿射包结合伪Zernike矩特征的视频人脸检索算法(FRIVAP)。在视频中检测跟踪到人脸生成图像集,接着提取图像集中人脸的伪Zernike矩特征,建立特征的仿射包,通过相似度计算得到结果。经对Honda/UCSD视频数据库和自行构建的视频数据库的大量实验表明,该算法可以充分利用视频中人脸的时间和空间信息,并且对噪声、人脸姿势变化等条件下的人脸检索有较强的鲁棒性。  相似文献   

14.
With the abundance of video data, the interest in more effective methods for recognizing faces from surveillance videos has grown. However, most algorithms proposed in this field have an assumption that each image set lies in a single linear subspace, or a mixture of linear subspaces. As a result, 3-dimensional shape information, which leads to the nonlinear transformation of face images, is ignored. This paper proposes a robust video face recognition across pose variation in video (RVPose) based on sparse representation. The key idea is performing alignment and recognition based on sparse representation simultaneously. Moreover, by considering that multi-pose faces of the same subject possess the same texture and 3-dimensional shape, RVPose aligns a sequence of faces with pose variations simultaneously, which is reduced to a 3-dimensional shape-constrained video alignment problem. Finally, aligned video sequence is recognized based on sparse represent. Experiments conducted on public video datasets demonstrate the effectiveness of the proposed algorithm.  相似文献   

15.
Identical twins pose a great challenge to face recognition due to high similarities in their appearances. Motivated by the psychological findings that facial motion contains identity signatures and the observation that twins may look alike but behave differently, we develop a talking profile to use the identity signatures in the facial motion to distinguish between identical twins. The talking profile for a subject is defined as a collection of multiple types of usual face motions from the video. Given two talking profiles, we compute the similarities of the same type of face motion in both profiles and then perform the classification based on those similarities. To compute the similarity of each type of face motion, we give higher weights to more abnormal motions which are assumed to carry more identity signature information.  相似文献   

16.
We present a new video‐based performance cloning technique. After training a deep generative network using a reference video capturing the appearance and dynamics of a target actor, we are able to generate videos where this actor reenacts other performances. All of the training data and the driving performances are provided as ordinary video segments, without motion capture or depth information. Our generative model is realized as a deep neural network with two branches, both of which train the same space‐time conditional generator, using shared weights. One branch, responsible for learning to generate the appearance of the target actor in various poses, uses paired training data, self‐generated from the reference video. The second branch uses unpaired data to improve generation of temporally coherent video renditions of unseen pose sequences. Through data augmentation, our network is able to synthesize images of the target actor in poses never captured by the reference video. We demonstrate a variety of promising results, where our method is able to generate temporally coherent videos, for challenging scenarios where the reference and driving videos consist of very different dance performances.  相似文献   

17.
目前人脸正面化研究主要解决人脸偏转问题,而对监控视频等现实场景中同时受偏转和俯仰变化影响的侧脸的正面化生成关注较少,针对这个问题和多角度侧脸生成的正面人脸图存在身份信息保留不全的问题,提出了一种基于特征图对称模块和眼周特征保留损失的生成对抗网络(GAN)。首先,根据人脸对称性先验,提出特征图对称模块,先使用人脸关键点检测器检测出侧脸鼻尖点位置,再将编码器提取到的特征图依照鼻尖位置进行镜像对称,从而在特征层面上缓解面部信息缺失的问题。其次,借鉴眼周识别思想,在现有的生成图身份保留方法中加入了眼周特征保留损失以训练生成器生成逼真的且保留身份信息的人脸正面图像。实验结果表明,所提算法得到的生成图面部细节保留较好,且在CAS-PEAL-R1数据集的所有俯角下人脸的平均Rank-1识别率为99.03%,可见该算法能够有效解决多角度侧脸的正面化问题。  相似文献   

18.
目的 心率是直接反映人体健康的重要指标之一,基于视频的非接触式心率检测在医疗健康领域具有广泛的应用前景。然而,现有的基于视频的方法不适用于复杂的现实场景,主要原因是没有考虑视频中目标晃动干扰和空间尺度特征,使得血液容积脉冲信号提取不准确,检测精度不尽人意。为了克服以上缺陷,提出一种抗人脸晃动干扰的非接触式心率检测方法。方法 本文方法主要包含3个步骤:首先,针对目标晃动干扰人脸区域选择的问题,利用判别响应图拟合检测参考图像的人脸区域及主要器官特征点,在人脸跟踪时首次引入倾斜校正思想,输出晃动干扰抑制后的人脸视频;然后,结合空间尺度的差异,采用颜色放大方法对晃动干扰抑制后的人脸视频进行时空处理,提取干净的血液容积脉冲信号;最后,考虑到小样本问题,通过傅里叶系数迭代插值的频域分析方法估计心率。结果 在人脸静止的合作情况以及人脸晃动的非合作情况下采集视频,对心率检测结果进行定量分析,本文方法在两种情况下的准确率分别为97.84%和97.30%,与经典和最新的方法相比,合作情况准确率提升大于1%,非合作情况准确率提升大于7%,表现了出色的性能。结论 提出了一种基于人脸视频处理的心率检测方法,通过有效分析人脸的晃动干扰和尺度特性,提取到干净的血液容积脉冲信号,提高了心率检测的精度和鲁棒性。  相似文献   

19.
目的 人脸姿态偏转是影响人脸识别准确率的一个重要因素,本文利用3维人脸重建中常用的3维形变模型以及深度卷积神经网络,提出一种用于多姿态人脸识别的人脸姿态矫正算法,在一定程度上提高了大姿态下人脸识别的准确率。方法 对传统的3维形变模型拟合方法进行改进,利用人脸形状参数和表情参数对3维形变模型进行建模,针对面部不同区域的关键点赋予不同的权值,加权拟合3维形变模型,使得具有不同姿态和面部表情的人脸图像拟合效果更好。然后,对3维人脸模型进行姿态矫正并利用深度学习对人脸图像进行修复,修复不规则的人脸空洞区域,并使用最新的局部卷积技术同时在新的数据集上重新训练卷积神经网络,使得网络参数达到最优。结果 在LFW(labeled faces in the wild)人脸数据库和StirlingESRC(Economic Social Research Council)3维人脸数据库上,将本文算法与其他方法进行比较,实验结果表明,本文算法的人脸识别精度有一定程度的提高。在LFW数据库上,通过对具有任意姿态的人脸图像进行姿态矫正和修复后,本文方法达到了96.57%的人脸识别精确度。在StirlingESRC数据库上,本文方法在人脸姿态为±22°的情况下,人脸识别准确率分别提高5.195%和2.265%;在人脸姿态为±45°情况下,人脸识别准确率分别提高5.875%和11.095%;平均人脸识别率分别提高5.53%和7.13%。对比实验结果表明,本文提出的人脸姿态矫正算法有效提高了人脸识别的准确率。结论 本文提出的人脸姿态矫正算法,综合了3维形变模型和深度学习模型的优点,在各个人脸姿态角度下,均能使人脸识别准确率在一定程度上有所提高。  相似文献   

20.
Video face clustering is a fundamental step in automatically annotating a video in terms of when and where (i.e., in which video shot and where in a video frame) a given person is visible. State-of-the-art face clustering solutions typically rely on the information derived from visual appearances of the face images. This is challenging because of a high degree of variation in these visual appearances due to factors like scale, viewpoint, head pose and facial expression. As a result, either the generated face clusters are not sufficiently pure, or their number is much higher than that of people appearing in the video. A possible way towards improved clustering performance is to analyze visual appearances of faces in specific contexts and take the contextual information into account when designing the clustering algorithm. In this paper, we focus on the context of quasi-static scenes, in which we can assume that the people's positions in a scene are (quasi-)stationary. We present a novel video clustering algorithm that exploits this property to match faces and efficiently propagate face labels across the scope of viewpoints, scale and level of zoom characterizing different frames and shots of a video. We also present a novel publicly available dataset of manually annotated quasi-static scene videos. Experimental assessment on the latter indicates that exploiting information derived by the scene and the spatial relationships between people can substantially improve the clustering performance compared to the state-of-the-art in the field.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号