首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
王建新  王子亚  田萱 《软件学报》2020,31(5):1465-1496
自然场景文本检测与识别研究对于从场景中获取信息有重要意义,而深度学习技术有助于提高文本检测与识别的能力.主要对基于深度学习的自然场景文本检测与识别方法和其研究进展进行整理分类、分析和总结.首先论述自然场景文本检测与识别的相关研究背景及主要技术研究路线;然后,根据自然场景文本信息处理的不同阶段,进一步介绍文本检测模型、文本识别模型和端到端的文本识别模型,并阐述和分析每类模型方法的基本思路和优缺点;另外,列举了常见公共标准数据集以及性能评估指标和方法,并对不同模型相关实验结果进行了对比分析;最后总结基于深度学习的自然场景文本检测与识别技术面临的挑战和发展趋势.  相似文献   

2.
对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网络、场景文字识别深度学习网络、端到端场景文字检测与识别深度学习网络,并总结了各类网络的结构特点、优势、局限性、应用场景以及实现成本,接着进行了综合分析;最后介绍了公开数据集,并探讨了场景文字识别技术的发展趋势及可能的研究方向。  相似文献   

3.
深度学习模型中间层特征压缩作为深度学习领域中一个新兴的研究热点被广泛关注并应用于边端—云端智能协同任务中。针对深度学习模型中间层特征压缩的研究现状,对当前压缩方式中存在的问题进行分析总结。首先,系统地分类阐述了基于图像/视频编解码框架、基于特征通道比特分配和基于深度学习网络结构的三种深度学习模型中间层特征压缩方式;随后,对比了三种深度学习模型中间层特征压缩方式在数据集上的表现;最后,探讨了当前深度学习模型中间层特征压缩研究面临的挑战,展望了中间层特征压缩技术未来的发展趋势。  相似文献   

4.
许多自然场景图像中都包含丰富的文本,它们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等。因此,自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一,该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则,且模型设计复杂、效率低、泛化性能差。随着深度学习的发展,自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展,其性能和效率都得到了显著提高。本文介绍了该领域相关的研究背景,对基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结,阐述了各类方法的基本思想和优缺点。并针对隶属于不同类别下的方法,进一步论述和分析这些主要模型的算法流程、适用场景和技术发展路线。此外,列举说明了部分主流公开数据集,对比了各个模型方法在代表性数据集上的性能情况。最后总结了目前不同场景数据下的自然场景文本检测、识别及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势。  相似文献   

5.
王康  董元菲 《计算机应用》2019,39(10):2937-2941
针对传统身份认证矢量(i-vector)与概率线性判别分析(PLDA)结合的声纹识别模型步骤繁琐、泛化能力较弱等问题,构建了一个基于角度间隔嵌入特征的端到端模型。该模型特别设计了一个深度卷积神经网络,从语音数据的声学特征中提取深度说话人嵌入;选择基于角度改进的A-Softmax作为损失函数,在角度空间中使模型学习到的不同类别特征始终存在角度间隔并且同类特征间聚集更紧密。在公开数据集VoxCeleb2上进行的测试表明,与i-vector结合PLDA的方法相比,该模型在说话人辨认中的Top-1和Top-5上准确率分别提高了58.9%和30%;而在说话人确认中的最小检测代价和等错误率上分别减小了47.9%和45.3%。实验结果验证了所设计的端到端模型更适合在多信道、大规模的语音数据集上学习到有类别区分性的特征。  相似文献   

6.
基于深度学习的语音识别技术现状与展望   总被引:1,自引:0,他引:1  
首先对深度学习的发展历史以及概念进行简要的介绍。然后回顾最近几年基于深度学习的语音识别的研究进展。这一部分内容主要分成以下5点进行介绍:声学模型训练准则,基于深度学习的声学模型结构,基于深度学习的声学模型训练效率优化,基于深度学习的声学模型说话人自适应和基于深度学习的端到端语音识别。最后就基于深度学习的语音识别未来可能的研究方向进行展望。  相似文献   

7.
基于链接时序分类(Connectionist Temporal Classification,CTC)的端到端语音识别模型具有结构简单且能自动对齐的优点,但识别准确率有待进一步提高。本文引入注意力机制(Attention)构成混合CTC/Attention端到端模型,采用多任务学习方式,充分发挥CTC的对齐优势和Attention机制的上下文建模优势。实验结果表明,当选取80维FBank特征和3维pitch特征作为声学特征,选择VGG-双向长短时记忆网络(VGG-Bidirectional long short-time memory,VGG-BiLSTM)作为编码器应用于中文普通话识别时,该模型与基于CTC的端到端模型相比,字错误率下降约6.1%,外接语言模型后,字错误率进一步下降0.3%;与传统基线模型相比,字错误率也有大幅度下降。  相似文献   

8.
掌静脉识别作为一种新兴的红外生物识别技术,因其高安全性、活体检测性等优势已成为当前生物特征识别领域中的研究热点之一。近年来,该领域的大量研究通过引入深度学习方法推动了掌静脉识别技术的发展。为了掌握掌静脉识别领域最新研究现状及发展方向,对数据采集和数据预处理的主流算法进行了分类和总结,并针对基于深度学习的掌静脉识别的最新进展按照掌脉特征表征、网络设计与优化、轻量级网络进行了分类和详细阐述。针对当前单模态识别达到瓶颈等问题,分析并对比了多模态和多特征融合识别相关算法;探讨了当前掌静脉识别的研究难点挑战,并对未来的发展趋势进行了展望与总结。  相似文献   

9.
随着人工神经网络技术的发展,深度学习逐渐成为人工智能领域的研究重点。在情感识别领域,深度学习也有着极为强大的理论与技术优势,其能够显著提升情感识别的准确性。同时,深度学习下的情感识别对于智慧化学习环境的营造有着积极意义,所以将之应用到教育教学工作中是切实可行的。本文对深度学习进行了简单介绍,并分析了当前情感识别的研究进展,进而对深度学习支持下的情感识别构建和应用展开探讨。  相似文献   

10.
命名实体识别(NER)被视为自然语言处理中的一项基础性研究任务。受计算机视觉中单阶段(one-stage)目标检测算法启发,借鉴其算法思想并引入回归运算,提出有效识别嵌套命名实体的端到端方法。基于多目标学习框架,利用深度神经网络将句子转换为文本特征图以回归预测嵌套实体边界,设计中心度方法抑制低质量边界。与多种方法在ACE2005中文数据集上进行对比实验。实验结果表明,该方法有效识别文本中的嵌套命名实体,且计算机视觉算法思想和边界回归机制在自然语言处理任务中取得理想的效果。  相似文献   

11.
由于步态容易受到物体遮挡、衣着、视角和携带物等协变量因素的影响,步态识别方法较难获得较优的识别性能.基于端到端和多层特征提取的思想,深度学习近年在步态识别领域取得一系列进展.本文综述深度学习在步态识别中的研究现状、优势和不足,总结其中的关键技术和潜在的研究方向.  相似文献   

12.
How to extract robust feature is an important research topic in machine learning community. In this paper, we investigate robust feature extraction for speech signal based on tensor structure and develop a new method called constrained Nonnegative Tensor Factorization (cNTF). A novel feature extraction framework based on the cortical representation in primary auditory cortex (A1) is proposed for robust speaker recognition. Motivated by the neural firing rates model in A1, the speech signal first is represented as a general higher order tensor. cNTF is used to learn the basis functions from multiple interrelated feature subspaces and find a robust sparse representation for speech signal. Computer simulations are given to evaluate the performance of our method and comparisons with existing speaker recognition methods are also provided. The experimental results demonstrate that the proposed method achieves higher recognition accuracy in noisy environment.  相似文献   

13.
语音是一种重要的信息资源传递与交流方式,人们经常使用语音作为交流信息的媒介,在语音的声学信号中包含大量的说话者信息、语义信息和丰富的情感信息,因此形成了解决语音学任务的3个不同方向,即声纹识别(Speaker Recognition,SR)、语音识别(Auto Speech Recognition,ASR)和情感识别(Speech Emotion Recognition,SER),3个任务均在各自的领域使用不同的技术与特定的方法进行信息提取与模型设计。文中首先综述了3个任务在国内外早期的发展历史路线,将语音任务的发展归纳为4个不同阶段,同时总结了3个语音学任务在特征提取时所采用的公共语音学特征,并针对每类特征的侧重点进行了说明。然后,随着近年来深度学习技术在各个领域中的广泛应用,语音任务也得到了很好的发展,文中针对目前流行的深度学习模型在声学建模中的应用分别进行了分析,按照有监督、无监督的方式总结了针对3种不同语音任务的声学特征提取方式及技术路线,还总结了基于多通道并融合注意力机制的模型,用于语音的特征提取。为了同时完成语音识别、声纹识别和情感识别任务,针对声学信号的个性化特征提出了一个基于多任务的Tandem模型;此外,提出了一个多通道协作网络模型,利用这种设计思路可以提升多任务特征提取的准确度。  相似文献   

14.
表情识别是在人脸检测基础之上的更进一步研究,是计算机视觉领域的一个重要研究方向.将研究的目标定位于基于微视频的表情自动识别,研究在大数据环境下,如何使用深度学习技术来辅助和促进表情识别技术的发展.针对表情智能识别过程中存在的一些关键性技术难题,设计了一个全自动表情识别模型.该模型结合深度自编码网络和自注意力机制,构建了...  相似文献   

15.
深度语音信号与信息处理:研究进展与展望   总被引:1,自引:0,他引:1  
论文首先对深度学习进行简要的介绍,然后就其在语音信号与信息处理研究领域的主要研究方向,包括语音识别、语音合成、语音增强的研究进展进行了详细的介绍。语音识别方向主要介绍了基于深度神经网络的语音声学建模、大数据下的模型训练和说话人自适应技术;语音合成方向主要介绍了基于深度学习模型的若干语音合成方法;语音增强方向主要介绍了基于深度神经网络的若干典型语音增强方案。论文的最后我们对深度学习在语音信与信息处理领域的未来可能的研究热点进行展望。  相似文献   

16.
人体行为识别旨在对视频监控中的人体行为进行检索并识别,是人工智能领域的研究热点。基于传统方法的人体行为识别算法存在对样本数据依赖大、易受环境噪声影响等不足。为解决此问题,许多适用于不同应用场景的基于深度学习的人体行为识别算法被提出。介绍了人体行为识别任务中传统特征提取方法和基于深度学习的特征提取方法;从性能和应用两方面对基于深度学习的人体行为识别算法进行总结,重点分析了基于3D卷积神经网络、混合网络、双流卷积神经网络和少样本学习(few-shot learning,FSL)的人体行为识别方法及其在UCF101和HMDB51数据集上的表现;在深度学习的基础上,归纳了主流模型迁移方法的优缺点及其有效性;总结了现有基于深度学习的人体行为识别算法存在的不足,并讨论了以元学习(meta-learning)和transformer为代表的FSL算法将成为未来模型主流算法的可能性,同时对未来基于深度学习的人体行为识别算法的发展方向进行展望。  相似文献   

17.
针对法庭说话人识别中待鉴定人员语音样本不足的问题,提出了一种新的对说话人自身变化性建模的替代性方法以及相应的方差控制算法。使用同条件下的参考数据库构建识别系统的多个相同说话人得分模型,代替检验需要的多个非同期的带检验人员语音样本比较时的得分模型,以获得能反映说话人自身变化性的统计模型。基于目前最新的法庭证据评估的似然比证据强度评估体系,使用MFCC(Mel Frequency Cepstral Coefficients)和GFCC(Gammatone Frequency Cepstral Coefficients)特征对该方法的有效性进行了验证,并对上述特征进行了特征级和决策级融合。实验结果表明:该方法在纯净语音环境和噪声环境下都具有很高的识别率和稳定性,并且特征级融合能进一步提高识别系统的性能。  相似文献   

18.
从音频信号中提取录音设备特征是司法比较研究和音频取证的前沿课题。由于录音设备识别技术受到环境、语义、说话人等因素干扰,需要攻克的难题较多,国内外的研究还处于起步阶段。为此回顾了录音设备研究的发展情况、基本理论和组成结构,特别对组成结构中非话音段检测、特征参数、识别模型和数据库建设的研究现状进行了介绍和分析。最后,进一步分析了录音设备识别存在的不足,并展望未来的研究发展方向,指出加快构建现有各品牌各型号的录音设备、各场合、各类人群的数据库建设与深度学习在录音设备中的应用是下一阶段研究的重点。  相似文献   

19.
化学流程工业故障诊断(chemical process industry fault diagnosis,CPIFD)是智能制造的一个重要分支。近年来,深度学习在特征识别和分类方面显示出独特的优势和潜力,因此,基于深度学习的CPIFD研究受到了学者们的广泛关注。然而,在已发表的研究文献中,关于基于深度学习的CPIFD的论述是有限的,因此,旨在为CPIFD的研究提供最新的参考,并激励学者进一步探讨深度学习在CPIFD中的应用。介绍了CPIFD技术的发展,阐述了在深度学习中具有代表性模型的基本理论,并综述了它们在CPIFD中的应用,这些模型包括卷积神经网络、深度置信网络、堆叠自动编码器、长短期记忆网络和其他新兴神经网络模型;讨论了深度学习在CPIFD中所面临的问题,并对今后值得研究的方向提出了展望。  相似文献   

20.
在真实环境下遮挡是准确分析识别人脸表情的主要障碍之一。近年来研究者采用深度学习技术解决遮挡条件下表情误识别率高的问题。针对遮挡表情识别的深度学习算法和遮挡相关的问题进行归纳总结。首先,概括局部遮挡条件下表情识别的发展现状、表情的表示方式以及研究遮挡表情用到的数据集;其次,回顾遮挡表情识别深度学习方法的最新进展和分析遮挡对表情的影响;最后,总结主要技术挑战,研究难点及其可能的应对策略。目的是为将来的遮挡表情识别研究提供更有益的参考依据和基准。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号