首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 781 毫秒
1.
现有唇语识别研究多专注于提高识别精度、研究多模态输入特征等方面,对提高唇部视觉特征的有效性关注不多.而唇部的视觉信息在视觉语音识别和唇语识别中起着关键作用,尤其在音频被破坏或无音频信息时,唇部视觉信息尤为重要.如何获取准确有效的唇部视觉特征是当前唇语识别的难点工作之一.从唇语数据集、传统视觉特征提取方法、视觉特征提取的深度学习方法三方面综述了唇语识别方向近年来的最新研究工作:首先,总结了唇语识别数据集,将唇语数据集分为正视图和多视图两种类型,并总结整理两类数据集的特点、局限性和下载地址;其次,从像素点、形状和混合特征的角度介绍了唇部视觉特征提取的传统方法,重点介绍各方法的基本思想、网络结构和特点;然后,介绍了唇部视觉特征提取的深度学习方法,重点介绍2D CNN、3D CNN、2D CNN与3D CNN相结合、其他神经网络四种深度学习方法的网络结构和优缺点,并比较了这些方法在公开数据集上的性能表现;最后,对唇部视觉特征提取方法所面临的挑战和未来研究趋势进行了展望.  相似文献   

2.
优秀的语料库能为唇语识别提供良好的基础保障,但通用语料库的缺乏是导致唇语识别发展缓慢的重要原因之一。较为全面地综述了20多种语料库的相关特性。简单介绍了唇语识别的传统方法和深度学习方法。重点整理了近20多年较有影响力的唇语语料库,从识别对象、语料规模、录制方式与录制环境等12个方面进行比较分析,得出各种语料库的优缺点及适用范围,方便唇读工作者快速找到适合自己研究方向的语料库。比较了各种语料库采用何种算法及其所能达到的性能。对唇读面临的困难进行了剖析,对未来工作进行了展望。  相似文献   

3.
人体行为识别作为计算机视觉领域的重要研究热点,在智能监控、智能家居、虚拟现实等诸多领域中具有重要的研究意义和广泛的应用前景,备受国内外学者的关注。基于传统手工特征的方法难以处理复杂场景下的人体行为识别。随着深度学习在图像分类方面取得巨大成功,将深度学习用于人体行为识别方法中已逐渐成为一种发展趋势,但其仍然存在一些困难与挑战。首先,根据特征提取方法的不同,简单回顾了早期基于传统手工特征的行为识别方法;然后,从网络结构的角度着重对近年来一些基于深度学习的人体行为识别方法进行论述和分析,其中包括目前常用的双流网络架构和三维卷积网络架构等;另外,还介绍了目前用于评价方法性能的人体行为识别数据集,同时总结了部分典型方法在UCF-101和HMDB51两个著名的公开数据集上的性能;最后,从性能和应用两个方面对基于深度学习的人体行为识别方法的未来发展方向进行了展望,并指出了当前方法存在的不足之处。  相似文献   

4.
王建新  王子亚  田萱 《软件学报》2020,31(5):1465-1496
自然场景文本检测与识别研究对于从场景中获取信息有重要意义,而深度学习技术有助于提高文本检测与识别的能力.主要对基于深度学习的自然场景文本检测与识别方法和其研究进展进行整理分类、分析和总结.首先论述自然场景文本检测与识别的相关研究背景及主要技术研究路线;然后,根据自然场景文本信息处理的不同阶段,进一步介绍文本检测模型、文本识别模型和端到端的文本识别模型,并阐述和分析每类模型方法的基本思路和优缺点;另外,列举了常见公共标准数据集以及性能评估指标和方法,并对不同模型相关实验结果进行了对比分析;最后总结基于深度学习的自然场景文本检测与识别技术面临的挑战和发展趋势.  相似文献   

5.
随着深度学习的快速发展,基于深度学习的场景识别方法逐渐取代传统的基于手工特征的场景识别方法,成为未来研究的主要方向。针对基于深度学习的场景识别方法,对基本思想进行了总结,将其大体分为以下四类:深度学习与视觉词袋结合场景识别法、基于显著部分的场景识别法、多层特征融合场景识别法、融合知识表示的场景识别法,分析了各个方法的特点及局限性,并对识别效果进行了比较,最后对未来研究方向进行展望。  相似文献   

6.
针对目前人脸识别系统面临的图片和视频攻击,构建了一种将人脸识别与口令密码相结合,并采用唇语识别技术进行活体检测的高安全性身份认证系统。首先由于汉语唇语数据的缺少,建立了CNLIP1和CNLIP2两个较大的汉语唇语数据库;其次,为了保留唇语的时序性,采用堆叠卷积独立子空间分析(ISA)深度神经网络模型来实现唇动时序特征的提取;最后提出使用迁移学习算法来训练特定人唇语识别模型。实验证明,唇动时序特征能更好的表征出数字串唇语,迁移学习训练的特定人唇语模型能够满足活体检测的需要,所构建的高安全性人脸识别系统具有较好的防攻击效果。  相似文献   

7.
针对基于深度学习的静态人脸图像表情识别方法进行研究,首先介绍了深度学习的原理,并归纳了目前公开且常用的面部表情数据集;然后介绍了基于深度学习的表情识别的三个步骤,归纳了图像预处理和表情分类的主要方法,重点总结了目前性能较好用来提取特征的深度学习框架以及这些方法的基本原理和优劣势比较;最后指出了目前面部表情识别存在的问题和未来可能的发展趋势。  相似文献   

8.
人体行为识别旨在对视频监控中的人体行为进行检索并识别,是人工智能领域的研究热点。基于传统方法的人体行为识别算法存在对样本数据依赖大、易受环境噪声影响等不足。为解决此问题,许多适用于不同应用场景的基于深度学习的人体行为识别算法被提出。介绍了人体行为识别任务中传统特征提取方法和基于深度学习的特征提取方法;从性能和应用两方面对基于深度学习的人体行为识别算法进行总结,重点分析了基于3D卷积神经网络、混合网络、双流卷积神经网络和少样本学习(few-shot learning,FSL)的人体行为识别方法及其在UCF101和HMDB51数据集上的表现;在深度学习的基础上,归纳了主流模型迁移方法的优缺点及其有效性;总结了现有基于深度学习的人体行为识别算法存在的不足,并讨论了以元学习(meta-learning)和transformer为代表的FSL算法将成为未来模型主流算法的可能性,同时对未来基于深度学习的人体行为识别算法的发展方向进行展望。  相似文献   

9.
随着人脸表情识别任务逐渐从实验室受控环境转移至具有挑战性的真实世界环境,在深度学习技术的迅猛发展下,深度神经网络能够学习出具有判别能力的特征,逐渐应用于自动人脸表情识别任务。目前的深度人脸表情识别系统致力于解决以下两个问题:1)由于缺乏足量训练数据导致的过拟合问题;2)真实世界环境下其他与表情无关因素变量(例如光照、头部姿态和身份特征)带来的干扰问题。本文首先对近十年深度人脸表情识别方法的研究现状以及相关人脸表情数据库的发展进行概括。然后,将目前基于深度学习的人脸表情识别方法分为两类:静态人脸表情识别和动态人脸表情识别,并对这两类方法分别进行介绍和综述。针对目前领域内先进的深度表情识别算法,对其在常见表情数据库上的性能进行了对比并详细分析了各类算法的优缺点。最后本文对该领域的未来研究方向和机遇挑战进行了总结和展望:考虑到表情本质上是面部肌肉运动的动态活动,基于动态序列的深度表情识别网络往往能够取得比静态表情识别网络更好的识别效果。此外,结合其他表情模型如面部动作单元模型以及其他多媒体模态,如音频模态和人体生理信息能够将表情识别拓展到更具有实际应用价值的场景。  相似文献   

10.
基于径向基神经网络的语音识别技术   总被引:3,自引:0,他引:3  
深入分析研究了径向基神经网络的优缺点,并对其进行了改进,分析讨论了语音识别研究中,径向基神经网络的设计原则以及特征参数等对语音识别结果的影响。将其应用于数字语音识别中,实验结果表明,基于改进型的径向基神经网络的语音识别方法有着较好的识别性能和应用效果。针对非特定人的孤立词识别,识别率可以达到90%以上。  相似文献   

11.
张晓冰  龚海刚  杨帆  戴锡笠 《软件学报》2020,31(6):1747-1760
近年来,随着深度学习的广泛应用,唇语识别技术也取得了快速的发展.与传统的方法不同,在基于深度学习的唇语识别模型中,通常包含使用神经网络对图像进行特征提取和特征理解两个部分.根据中文唇语识别的特点,将识别过程划分为两个阶段——图片到拼音(P2P)以及拼音到汉字(P2CC)的识别.分别设计两个不同子网络针对不同的识别过程,当两个子网络训练好后,再把它们放在一起进行端到端的整体架构优化.由于目前没有可用的中文唇语数据集,因此采用半自动化的方法从CCTV官网上收集了6个月20.95GB的中文唇语数据集CCTVDS,共包含14 975个样本.此外,额外采集了269 558条拼音汉字样本数据对拼音到汉字识别模块进行预训练.在CCTVDS数据集上的实验结果表明,所提出的ChLipNet可分别达到45.7%的句子识别准确率和58.5%的拼音序列识别准确率.此外,ChLipNet不仅可以加速训练、减少过拟合,并且能够克服汉语识别中的歧义模糊性.  相似文献   

12.
为了梳理深度学习方法在人体动作识别领域的发展脉络,对该领域近年来最具代表性的模型和算法进行了综述。以人体动作识别任务流程为线索,详细阐述了深度学习方法在视频预处理阶段、网络结构上的最新成果及其优缺点。介绍了人体动作识别相关的两类数据集,并选取常用的几种进行具体说明。最后,对人体动作识别未来的研究方向进行了探讨与展望。  相似文献   

13.
近年来深度学习迅猛发展,颠覆了语音识别、图像分类、文本理解等领域的算法设计思路。深度学习因其具备强大的特征提取能力,在图像识别领域的成绩尤为突出。然而深度学习与视频监控领域的结合并不多,由于深度模型具有多层网络结构,算法复杂度大,训练和更新模型时比较耗时,很难满足实时性要求。回顾了深度学习的发展史,介绍了最近10年来国内外深度学习主要模型,论述了基于深度学习的目标跟踪算法,指出了各算法的优缺点,最后对当前该领域存在的问题和发展前景进行了总结和展望。  相似文献   

14.
针对人体行为识别问题,比较了两种基于智能手机惯性加速度传感器数据的深度特征学习方法。与传统的人工特征提取方法相比,基于深度特征学习方法可以实现端到端训练,网络结构简单直观,避免了繁琐的特征工程,通过深度神经网络模型的学习自动获得特征。本文通过对比深度卷积神经网络、长短期记忆网络两种深度学习方法在公开网站UCI的机器学习知识库的人体行为识别数据集上的识别效果,论证了基于Dropout深度卷积神经网络特征学习方法的有效性。  相似文献   

15.
目的 目前深度神经网络已成功应用于众多机器学习任务,并展现出惊人的性能提升效果。然而传统的深度网络和机器学习算法都假定训练数据和测试数据服从的是同一分布,而这种假设在实际应用中往往是不成立的。如果训练数据和测试数据的分布差异很大,那么由传统机器学习算法训练出来的分类器的性能将会大大降低。为了解决此类问题,提出了一种基于多层校正的无监督领域自适应方法。方法 首先利用多层校正来调整现有的深度网络,利用加法叠加来完美对齐源域和目标域的数据表示;然后采用多层权值最大均值差异来适应目标域,增加网络的表示能力;最后提取学习获得的域不变特征来进行分类,得到目标图像的识别效果。结果 本文算法在Office-31图像数据集等4个数字数据集上分别进行了测试实验,以对比不同算法在图像识别和分类方面的性能差异,并进行准确度测量。测试结果显示,与同领域算法相比,本文算法在准确率上至少提高了5%,在应对照明变化、复杂背景和图像质量不佳等干扰情况时,亦能获得较好的分类效果,体现出更强的鲁棒性。结论 在领域自适应相关数据集上的实验结果表明,本文方法具备一定的泛化能力,可以实现较高的分类性能,并且优于其他现有的无监督领域自适应方法。  相似文献   

16.
深度学习是基于数据表示的一类更广的机器学习方法,它的出现不仅推动了机器学习的发展,而且促进了人工智能的革新。对深度学习的几种典型模型进行研究与对比。首先介绍受限玻尔兹曼机、深度置信网络、自编码器等无监督学习模型,对其结构、原理和优缺点进行了详细探讨。讨论卷积神经网络、循环神经网络和深度堆叠网络等监督学习模型,分别从模型架构和工作原理来评价与分析。对深度学习的典型模型进行对比分析,将深度置信网络和卷积神经网络应用在手写体数字识别任务中,结果证实深度学习比传统的神经网络具有更好的识别性能。最后探讨深度学习未来的发展与挑战。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号