首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 312 毫秒
1.
目的 现有目标检测任务常在封闭集设定中进行。然而在现实问题中,待检测图片中往往包含未知类别目标。因此,在保证模型对已知类检测性能的基础上,为了提升模型在现实检测任务中对新增类别的目标检测能力,本文对开放集目标检测任务进行研究。方法 区别于现有的开放集目标检测框架在检测任务中将背景类与未知类视为一个类别进行优化,本文框架在进行开放集类别识别的过程中,优先识别候选框属于背景类或是含待识别目标类别,而后再对含待识别目标类别进行已知类与未知类的判别。本文提出基于环状原型空间优化的检测器,该检测器可以通过优化待检测框的特征在高维空间中的稀疏程度对已知类、未知类与背景类进行环状序列判别,从而提升模型对开放集类别的检测性能。在(region proposal networks,RPN)层后设计了随机覆盖候选框的方式筛选相关的背景类训练框,避免了以往开放集检测工作中繁杂的背景类采样步骤。结果 本文方法在保证模型对封闭集设定下检测性能的情况下,通过逐步增加未知类别的数量,在Visual Object Classes-Common Objects in Context-20(VOC-COCO-20),Vi...  相似文献   

2.
朱鹏飞  张琬迎  王煜  胡清华 《软件学报》2022,33(4):1156-1169
深度神经网络在分类任务上不断取得性能突破,但在测试中面对未知类样本时,会错误地给出一个已知类预测结果.开放集识别任务旨在解决该问题,要求模型不仅精确地分类已知类,同时对未知类样本进行准确判别.现有方法虽然取得了不错的效果,但由于未对开放集识别任务的影响因素进行分析,因而大多基于某种假设启发式地设计模型,难以保证对于实际场景的适应性.分析了现有方法的共性,通过设计一个新的决策变量实验,发现模型对已知类的表示学习能力是其中的一个关键影响因素.基于该结论,提出了一种基于模型表示学习能力增强的开放集识别方法.首先,由于对比式学习已展示出的强大表示学习能力以及开放集识别任务所包含的标签信息,引入了监督对比式学习方法,提高模型对已知类的建模能力;其次,考虑到类别间的相关性是在类别层次上的表示,且类别之间往往呈现分层结构关系,设计了一种多粒度类相关性的损失函数,通过在标签语义空间构建分层结构并度量多粒度类相关性的方式,约束模型学习不同已知类间的相关关系,进一步提高其表示学习能力;最后,在多个标准数据集上进行了实验验证,证明了所提出方法在开放集识别任务上的有效性.  相似文献   

3.
文字识别是一种通用的图像理解技术,对信息检索、车牌识别和自动驾驶等应用的研究有着重要意义。随着神经网络的伟大复兴,场景文字识别任务得到了很大推动,近年来涌现了许多基于深度学习的文字识别算法。本文提出了一种基于特征融合的CRNN改进算法,使用三个通用的文字识别数据集从识别准确率、运行效率和模型大小三个方面进行分析。实验结果表明该算法在提高准确率的同时,运行效率也有所提高。  相似文献   

4.
针对手写阿拉伯单词书写连笔,且相似词较多的特点,该文提出一种新的脱机手写文字识别算法。该算法以固定组件为成分拆分阿拉伯单词,构建自组件特征至单词类别的加权贝叶斯推理模型。算法结合单词组件分割、多级混合式组件识别、组件加权系数估计等,计算单词类别的后验概率并得到单词识别结果。在IFN/ENIT库上的实验,获得了90.03%的单词识别率,证实组件分解对笔画连写具有鲁棒性,组件识别能提高相似词的辨别能力,而且该算法所需训练类别少,易向大词汇量识别扩展。  相似文献   

5.
目的 基于光学遥感图像的舰船目标识别研究广受关注,但是目前公开的光学遥感图像舰船目标识别数据集存在规模小、目标类别少等问题,难以训练出具有较高舰船识别精度的深度学习模型。为此,本文面向基于深度学习的舰船目标精细识别任务研究需求,搜集公开的包含舰船目标的高分辨率谷歌地球和GF-2卫星水面场景遥感图像,构建了一个高分辨率光学遥感图像舰船目标精细识别数据集(fine-grained ship collection-23,FGSC-23)。方法 将图像中的舰船目标裁剪出来,制作舰船样本切片,人工对目标类别进行标注,并在每个切片中增加舰船长宽比和分布方向两类属性标签,最终形成包含23个类别、4 052个实例的舰船目标识别数据集。结果 按1:4比例将数据集中各类别图像随机划分为测试集和训练集,并展开验证实验。实验结果表明,在通用识别模型识别效果验证中,VGG16(Visual Geometry Group 16-layer net)、ResNet50、Inception-v3、DenseNet121、MobileNet和Xception等经典卷积神经网络(convolutional neural network,CNN)模型的整体测试精度分别为79.88%、81.33%、83.88%、84.00%、84.24%和87.76%;在舰船目标精细识别的模型效果验证中,以VGG16和ResNet50模型为基准网络,改进模型在测试集上的整体测试精度分别为93.58%和93.09%。结论 构建的FGSC-23数据集能够满足舰船目标识别算法的验证任务。  相似文献   

6.
场景文字识别是一个极具挑战性的研究方向,有着重要的应用价值。但是由于文字表现形式丰富多样,识别结果大多不尽如人意。针对此问题,本文提出了基于课程学习的训练方法。该方法对数据集进行排序得到一个难度提升的训练序列,而不是随机地从数据集中选择训练样本,使得模型在训练初期能够学习到更加精确的特征,提高了模型的鲁棒性。通过实验分析,本文所提出的方法可以加快模型的收敛速度,使用不同课程序列训练ASTER算法在COCO-Text数据集上得到1.8%、1%的提升,CRNN算法在COCO-Text数据集上得到0.2%的提升。  相似文献   

7.
基于遗传算法和BP网络的文字识别方法   总被引:6,自引:0,他引:6  
苗琦龙  栾新 《计算机应用》2005,25(Z1):330-332
将基于遗传的BP神经网络算法用于文字识别算法结合了遗传算法和BP网络的优点.先采用遗传学习算法进行全局寻优、再利用BP算法进行精确训练、优化BP(Back Propagation)神经网络权重学习和训练的神经网络文字识别算法.实验结果表明该算法完全达到了文字识别要求,识别率达到了98%.并且在识别速度上也明显优于传统的BP神经网络及其他改进算法,具有精确性、收敛性和识别速度快等特点.  相似文献   

8.
在自然场景文字检测和识别任务中,现有大多数方法的文字检测和文字识别过程相对独立,导致这些方法处理速度较慢;此外,这些方法的训练和推理过程较为复杂,并且手工设计合理的架构比较困难。针对以上这些问题,基于可微分架构搜索方法提出了多分支自动选择网络(MBASNet),该网络由数个多分支自动选择块(MBASB)组成。MBASB能在不显著增加计算量的情况下通过自动搜索检测和识别性能较优的子分支结构,组合多个MBASB得到整个检测和识别网络。所提出的MBASNet可以同时训练检测子网络和识别子网络,降低文字检测和识别任务中网络的训练和推理难度,提高对文字的检测和识别速度。MBASNet在ICDAR2013数据集上取得了89.4%的精确率和91.4%的召回率,在ICDAR15数据集上取得了80.5%的精确率和86.8%的召回率,并且计算速度达到了每秒68帧。  相似文献   

9.
周植  张丁楚  李宇峰  张敏灵 《软件学报》2024,35(4):1667-1681
开集识别旨在研究测试阶段突现未见类别对于机器学习模型的挑战,以期学习模型既能分类已见类别又可识别/拒绝未见类别,是确保机器学习模型能够在开放世界中高效稳健部署的重要技术.既有开集识别技术通常假设已见类别的协变量分布在训练与测试阶段维持不变.然而在实际场景中,类别的协变量分布常不断变化.直接利用既有技术不再奏效,其性能甚至劣于基线方案.因此,亟需研究新型开集识别方法,使其能不断适应协变量分布偏移,以期模型在测试阶段既能稳健分类已见类别又可识别未见类别.将此新问题设置命名为开放世界适应问题(AOW),并提出了一种开放测试时适应方法(OTA).该方法基于无标注测试数据优化自适应熵损失与开集熵损失更新模型,维持对已见类的既有判别能力,同时增强了识别未见类的能力.大量实验分析表明,该方法在多组基准数据集、多组不同协变量偏移程度下均稳健地优于现有先进的开集识别方法.  相似文献   

10.
智能零售场景中往往会使用到图像分类技术来识别商品,然而实际场景中并不是所有出现的物体都是已知的,未知的物体会干扰场景中的模型正常运行.针对智能零售场景中的图像分类问题,从已知类别封闭数据集的分类特征出发,通过对已知类别的分类特征进行计算和修正得到对未知类别物体的分类预测.通过构造已知类别的特征空间,并结合针对图像分类特征空间的特性优化的特征距离——归一化主类距离,可以更好地拟合特征空间在已知类别数据集中的边界概率模型.最终用边界概率模型对原分类特征做出修正计算,得到对物体的未知类别的分类预测,并通过设计实验验证该方法的可行性.此外,在智能零售场景的数据集支持下,与已有方法进行了对比实验.使用特征空间归一化主类距离的开放集分类算法在有着更高的已知类别分类准确率的同时,开放集拒绝率有14.20%的提升,达到了44.85%.  相似文献   

11.
鉴于维吾尔语丰富的形态变化产生大量单词引起的集外词(out of vocabulary,OOV)问题,为了定量研究OOV对维吾尔语语音识别的影响,采用控制语料库测试集OOV的算法及最佳文本挑选算法对不同OOV的测试集进行实验,算法通过Python语言实现.应用该算法进行电话语音库的文本转写,构建了维吾尔语的电话语音库.实验结果表明,该控制测试集OOV的方法能够有效地提高维吾尔语语音识别率.  相似文献   

12.
许多自然场景图像中都包含丰富的文本,它们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等。因此,自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一,该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则,且模型设计复杂、效率低、泛化性能差。随着深度学习的发展,自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展,其性能和效率都得到了显著提高。本文介绍了该领域相关的研究背景,对基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结,阐述了各类方法的基本思想和优缺点。并针对隶属于不同类别下的方法,进一步论述和分析这些主要模型的算法流程、适用场景和技术发展路线。此外,列举说明了部分主流公开数据集,对比了各个模型方法在代表性数据集上的性能情况。最后总结了目前不同场景数据下的自然场景文本检测、识别及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势。  相似文献   

13.
为了提高经典目标检测算法对自然场景文本定位的准确性,以及克服传统字符检测模型由于笔画间存在非连通性引起的汉字错误分割问题,提出了一种直接高效的自然场景汉字逼近定位方法。采用经典的EAST算法对场景图像中的文字进行检测。对初检的文字框进行调整使其更紧凑和更完整地包含文字,主要由提取各连通笔画成分、汉字分割和文字形状逼近三部分组成。矫正文字区域和识别文字内容。实验结果表明,提出的算法在保持平均帧率为3.1 帧/s的同时,对ICDAR2015、ICDAR2017-MLT和MSRA-TD500三个多方向数据集上文本定位任务中的F-score分别达到83.5%、72.8%和81.1%;消融实验验证了算法中各模块的有效性。在ICDAR2015数据集上的检测和识别综合评估任务中的性能也验证了该方法相比一些最新方法取得了更好的性能。  相似文献   

14.
深度学习算法在很多有监督学习任务上达到了令人满意的结果,但其依赖于大量标注样本,并且使用特定类别训练的分类器,只能对这些类别进行分类.零次学习希望计算机像人类一样,能够结合历史经验与知识进行推理,无需使用大量新类别样本训练,便可达到识别新类别的效果.发现了零次学习任务存在“冷启动”以及矩阵稀疏两个特点,这些特点在推荐任务中同样存在.受推荐任务启发,将零次图像分类任务建模为矩阵填充问题,借鉴推荐领域中协同过滤算法,将稀疏的样本标签矩阵视为非稀疏的视觉特征矩阵和类别特征矩阵的内积结果,进而实现对新类别样本的分类预测.此外,构建了基于类间语义关联的语义图结构,使用图神经网络进行已知类别和新类别之间的知识迁移,以较小代价为类别学得准确的语义特征.在3个经典零次学习数据集上分别进行传统零次学习和广义零次学习实验,实验结果表明:提出的协同过滤式零次学习方法能够有效提升分类精度,且训练代价较小.  相似文献   

15.
16.
为了提高基于生成对抗网络(GAN)的零样本识别方法的识别精度,提出结合迁移引导和双向循环结构GAN的零样本文本识别方法.构造双向循环结构GAN以提高模型的生成能力,生成的伪特征更接近输入的真实特征.引入迁移引导学习的思想,使用迁移后的文本代替可见类文本训练模型,提高不可见类文本的识别精度.增加有效的正则化项,使生成器在训练过程中生成的结果具有多样性,提高生成模型的稳定性.在数据集上的实验表明,文中方法可提高识别精度,具有较好的泛化性能,容易拓广到其它应用中.  相似文献   

17.
该文针对关键词检测和实用语音识别中OOV(Out-Of-vocabulary)问题的检测和拒绝进行研究,通过使用判别式分析,利用L-Best本地分数和N-best言语假设判别分数,进行言语判别(utterarce verification);该文进行了两组实验,分别针对OOV问题,在小词汇量特定人孤立词识别系统、小词汇量非特定人的孤立词识别系统中进行研究。  相似文献   

18.
一种视频中字符的集成型切分与识别算法   总被引:3,自引:0,他引:3  
杨武夷  张树武 《自动化学报》2010,36(10):1468-1476
视频文本行图像识别的技术难点主要来源于两个方面: 1)粘连字符的切分与识别问题; 2)复杂背景中字符的切分与识别问题. 为了能够同时切分和识别这两种情况中的字符, 提出了一种集成型的字符切分与识别算法. 该集成型算法首先对文本行图像二值化, 基于二值化的文本行图像的水平投影估计文本行高度. 其次根据字符笔划粘连的程度, 基于图像分析或字符识别对二值图像中的宽连通域进行切分. 然后基于字符识别组合连通域得到候选识别结果, 最后根据候选识别结果构造词图, 基于语言模型从词图中选出字符识别结果. 实验表明该集成型算法大大降低了粘连字符及复杂背景中字符的识别错误率.  相似文献   

19.
一种基于融合重构的子空间学习的零样本图像分类方法   总被引:1,自引:0,他引:1  
图像分类是计算机视觉中一个重要的研究子领域.传统的图像分类只能对训练集中出现过的类别样本进行分类.然而现实应用中,新的类别不断涌现,因而需要收集大量新类别带标记的数据,并重新训练分类器.与传统的图像分类方法不同,零样本图像分类能够对训练过程中没有见过的类别的样本进行识别,近年来受到了广泛的关注.零样本图像分类通过语义空间建立起已见类别和未见类别之间的关系,实现知识的迁移,进而完成对训练过程中没有见过的类别样本进行分类.现有的零样本图像分类方法主要是根据已见类别的视觉特征和语义特征,学习从视觉空间到语义空间的映射函数,然后利用学习好的映射函数,将未见类别的视觉特征映射到语义空间,最后在语义空间中用最近邻的方法实现对未见类别的分类.但是由于已见类和未见类的类别差异,以及图像的分布不同,从而容易导致域偏移问题.同时直接学习图像视觉空间到语义空间的映射会导致信息损失问题.为解决零样本图像分类知识迁移过程中的信息损失以及域偏移的问题,本文提出了一种图像分类中基于子空间学习和重构的零样本分类方法.该方法在零样本训练学习阶段,充分利用未见类别已知的信息,来减少域偏移,首先将语义空间中的已见类别和未见类别之间的关系迁移到视觉空间中,学习获得未见类别视觉特征原型.然后根据包含已见类别和未见类别在内的所有类别的视觉特征原型所在的视觉空间和语义特征原型所在的语义空间,学习获得一个潜在类别原型特征空间,并在该潜在子空间中对齐视觉特征和语义特征,使得所有类别在潜在子空间中的表示既包含视觉空间下的可分辨性信息,又包含语义空间下的类别关系信息,同时在子空间的学习过程中利用重构约束,减少信息损失,同时也缓解了域偏移问题.最后零样本分类识别阶段,在不同的空间下根据最近邻算法对未见类别样本图像进行分类.本文的主要贡献在于:一是通过对语义空间中类别间关系的迁移,学习获得视觉空间中未见类别的类别原型,使得在训练过程中充分利用未见类别的信息,一定程度上缓解域偏移问题.二是通过学习一个共享的潜在子空间,该子空间既包含了图像视觉空间中丰富的判别性信息,也包含了语义空间中的类别间关系信息,同时在子空间学习过程中,通过重构,缓解知识迁移过程中信息损失的问题.本文在四个公开的零样本分类数据集上进行对比实验,实验结果表明本文提出的零样本分类方法取得了较高的分类平均准确率,证明了本文方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号