首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
目的 传统的零样本学习(zero-shot learning,ZSL)旨在依据可见类别的数据和相关辅助信息对未见类别的数据进行预测分类,而广义零样本学习(generalized zero-shot learning,GZSL)中分类的类别既可能属于可见类也可能属于不可见类,这更符合现实的应用场景。基于生成模型的广义零样本学习的原始特征和生成特征不一定编码共享属性所指的语义相关信息,这样会导致模型倾向于可见类,并且分类时忽略了语义信息中与特征相关的有用信息。为了分解出相关的视觉特征和语义信息,提出了视觉—语义双重解纠缠框架。方法 首先,使用条件变分自编码器为不可见类生成视觉特征,再通过一个特征解纠缠模块将其分解为语义一致性和语义无关特征。然后,设计了一个语义解纠缠模块将语义信息分解为特征相关和特征无关的语义。其中,利用总相关惩罚来保证分解出来的两个分量之间的独立性,特征解纠缠模块通过关系网络来衡量分解的语义一致性,语义解纠缠模块通过跨模态交叉重构来保证分解的特征相关性。最后,使用两个解纠缠模块分离出来的语义一致性特征和特征相关语义信息联合学习一个广义零样本学习分类器。结果 实验在4个广义...  相似文献   

2.
莫宏伟  田朋 《控制与决策》2021,36(12):2881-2890
视觉场景理解包括检测和识别物体、推理被检测物体之间的视觉关系以及使用语句描述图像区域.为了实现对场景图像更全面、更准确的理解,将物体检测、视觉关系检测和图像描述视为场景理解中3种不同语义层次的视觉任务,提出一种基于多层语义特征的图像理解模型,并将这3种不同语义层进行相互连接以共同解决场景理解任务.该模型通过一个信息传递图将物体、关系短语和图像描述的语义特征同时进行迭代和更新,更新后的语义特征被用于分类物体和视觉关系、生成场景图和描述,并引入融合注意力机制以提升描述的准确性.在视觉基因组和COCO数据集上的实验结果表明,所提出的方法在场景图生成和图像描述任务上拥有比现有方法更好的性能.  相似文献   

3.
一种基于融合重构的子空间学习的零样本图像分类方法   总被引:1,自引:0,他引:1  
图像分类是计算机视觉中一个重要的研究子领域.传统的图像分类只能对训练集中出现过的类别样本进行分类.然而现实应用中,新的类别不断涌现,因而需要收集大量新类别带标记的数据,并重新训练分类器.与传统的图像分类方法不同,零样本图像分类能够对训练过程中没有见过的类别的样本进行识别,近年来受到了广泛的关注.零样本图像分类通过语义空间建立起已见类别和未见类别之间的关系,实现知识的迁移,进而完成对训练过程中没有见过的类别样本进行分类.现有的零样本图像分类方法主要是根据已见类别的视觉特征和语义特征,学习从视觉空间到语义空间的映射函数,然后利用学习好的映射函数,将未见类别的视觉特征映射到语义空间,最后在语义空间中用最近邻的方法实现对未见类别的分类.但是由于已见类和未见类的类别差异,以及图像的分布不同,从而容易导致域偏移问题.同时直接学习图像视觉空间到语义空间的映射会导致信息损失问题.为解决零样本图像分类知识迁移过程中的信息损失以及域偏移的问题,本文提出了一种图像分类中基于子空间学习和重构的零样本分类方法.该方法在零样本训练学习阶段,充分利用未见类别已知的信息,来减少域偏移,首先将语义空间中的已见类别和未见类别之间的关系迁移到视觉空间中,学习获得未见类别视觉特征原型.然后根据包含已见类别和未见类别在内的所有类别的视觉特征原型所在的视觉空间和语义特征原型所在的语义空间,学习获得一个潜在类别原型特征空间,并在该潜在子空间中对齐视觉特征和语义特征,使得所有类别在潜在子空间中的表示既包含视觉空间下的可分辨性信息,又包含语义空间下的类别关系信息,同时在子空间的学习过程中利用重构约束,减少信息损失,同时也缓解了域偏移问题.最后零样本分类识别阶段,在不同的空间下根据最近邻算法对未见类别样本图像进行分类.本文的主要贡献在于:一是通过对语义空间中类别间关系的迁移,学习获得视觉空间中未见类别的类别原型,使得在训练过程中充分利用未见类别的信息,一定程度上缓解域偏移问题.二是通过学习一个共享的潜在子空间,该子空间既包含了图像视觉空间中丰富的判别性信息,也包含了语义空间中的类别间关系信息,同时在子空间学习过程中,通过重构,缓解知识迁移过程中信息损失的问题.本文在四个公开的零样本分类数据集上进行对比实验,实验结果表明本文提出的零样本分类方法取得了较高的分类平均准确率,证明了本文方法的有效性.  相似文献   

4.
针对疫情常态化背景下,传统体育项目受场地、器材等限制,市场上相关产品价格昂贵、可扩展性不足等问题,提出了一种基于实时视频感知的虚拟体育交互系统.该系统设计视频数据采集模块和人体关节点提取模块,结合OpenPose获取人体的关节点坐标,实时捕捉人体手势以及肢体动作.动作语义理解模块包括运动动作理解和绘图动作理解.前者根据运动中肢体关节点的相对位置关系,识别运动动作语义.后者将手腕部关节点绘图动作轨迹生成为草图图像,使用AlexNet进行识别分类,解析为对应的绘制动作语义.该模型在边缘端设备的分类准确率为98.83%.采用基于Unity设计的草图游戏应用作为可视化交互界面,实现在虚拟场景中的运动交互.该系统使用实时视频感知交互方式实现居家运动健身,无需其他的外部设备,具有更强的参与度和趣味性.  相似文献   

5.
视觉显著性物体检测是对人类视觉和认知系统的模拟,而深度学习则是对人类大脑计算方式的模拟,将两者有机结合可以有效推动计算机视觉的发展。视觉显著性物体检测的任务是从图像中定位并提取具有明确轮廓的显著性物体实例。随着深度学习的发展,视觉显著性物体检测的精度和效率都得到巨大提升,但仍然面临改进主流算法性能、减少对像素级标注样本的依赖等主要挑战。针对上述挑战,本文从视觉显著性物体检测思想与深度学习方法融合策略的角度对相关论述进行分类总结。1)分析传统显著性物体检测方法带来的启示及其缺点,指出视觉显著性物体检测的核心思路为多层次特征的提取、融合与修整;2)从改进特征编码方式与信息传递结构、提升边缘定位精度、改善注意力机制、提升训练稳定性和控制噪声的角度对循环卷积神经网络、全卷积神经网络和生成对抗网络3种主流算法的性能提升进行分析,从优化弱监督样本处理模块的角度分析了减少对像素级标注样本依赖的方法;3)对协同显著性物体检测、多类别图像显著性物体检测以及未来的研究问题和方向进行介绍,并给出了可能的解决思路。  相似文献   

6.
组合动作识别是计算机视觉领域一个新的挑战,它旨在识别未见过的动作与物体的组合。传统的动作识别模型往往会在物体外观与动作类别之间建立联系,引入错误的偏置,在面对未见过的动作与物体的组合时性能急剧恶化。现有解决方法是忽视外观信息,以物体的坐标和身份等信息作为输入,建立以物体为中心的模型。受此启发,提出了时空增强式交互模型。首先在基础网络的不同深度提取并聚合多级别物体特征;然后构建物体分支,使用时空增强模块和物体交互模块分别对物体特征进行增强以及建模物体的移动和交互模式;最终将该分支的输出与基础网络的输出融合用于动作分类,使模型兼顾外观信息和物体交互信息。在多个数据集上的广泛实验证明了所提模型的有效性。  相似文献   

7.
视觉理解,如物体检测、语义和实例分割以及动作识别等,在人机交互和自动驾驶等领域中有着广泛的应用并发挥着至关重要的作用。近年来,基于全监督学习的深度视觉理解网络取得了显著的性能提升。然而,物体检测、语义和实例分割以及视频动作识别等任务的数据标注往往需要耗费大量的人力和时间成本,已成为限制其广泛应用的一个关键因素。弱监督学习作为一种降低数据标注成本的有效方式,有望对缓解这一问题提供可行的解决方案,因而获得了较多的关注。围绕视觉弱监督学习,本文将以物体检测、语义和实例分割以及动作识别为例综述国内外研究进展,并对其发展方向和应用前景加以讨论分析。在简单回顾通用弱监督学习模型,如多示例学习(multiple instance learning, MIL)和期望—最大化(expectation-maximization, EM)算法的基础上,针对物体检测和定位,从多示例学习、类注意力图机制等方面分别进行总结,并重点回顾了自训练和监督形式转换等方法;针对语义分割任务,根据不同粒度的弱监督形式,如边界框标注、图像级类别标注、线标注或点标注等,对语义分割研究进展进行总结分析,并主要回顾了基于图像级别类别...  相似文献   

8.
现实世界的物体图像往往存在较大的类内变化,使用单一原型描述整个类别会导致语义模糊问题,为此提出一种基于超像素的多原型生成模块,利用多个原型分别表示物体的不同语义区域,通过图神经网络在生成的多个原型间利用上下文信息执行原型校正以保证子原型的正交性.为了获取到更准确的原型表示,设计了一种基于Transformer的语义对齐模块,以挖掘查询图像特征和支持图像的背景特征中蕴含的语义信息,此外还提出了一种多尺度特征融合结构,引导模型关注同时出现在支持图像和查询图像中的特征,提高对物体尺度变化的鲁棒性.所提出的模型在PASCAL-5i数据集上进行了实验,与基线模型相比平均交并比提高了6%.  相似文献   

9.
深度学习算法在很多有监督学习任务上达到了令人满意的结果,但其依赖于大量标注样本,并且使用特定类别训练的分类器,只能对这些类别进行分类.零次学习希望计算机像人类一样,能够结合历史经验与知识进行推理,无需使用大量新类别样本训练,便可达到识别新类别的效果.发现了零次学习任务存在“冷启动”以及矩阵稀疏两个特点,这些特点在推荐任务中同样存在.受推荐任务启发,将零次图像分类任务建模为矩阵填充问题,借鉴推荐领域中协同过滤算法,将稀疏的样本标签矩阵视为非稀疏的视觉特征矩阵和类别特征矩阵的内积结果,进而实现对新类别样本的分类预测.此外,构建了基于类间语义关联的语义图结构,使用图神经网络进行已知类别和新类别之间的知识迁移,以较小代价为类别学得准确的语义特征.在3个经典零次学习数据集上分别进行传统零次学习和广义零次学习实验,实验结果表明:提出的协同过滤式零次学习方法能够有效提升分类精度,且训练代价较小.  相似文献   

10.
为在场景图生成网络中获得重要的上下文信息,同时减少数据集偏差对场景图生成性能的影响,构建一种基于外部知识库与适应性推理的场景图生成模型。利用结合外部知识库的目标检测模块引入语言先验知识,提高实体对关系类别检测的准确性。设计基于Transformer架构的上下文信息提取模块,采用两个Transformer编码层对候选框和实体对关系类别进行处理,并利用自注意力机制分阶段实现上下文信息合并,获取重要的全局上下文信息。构建特征特殊融合的适应性推理模块,通过软化分布并根据实体对的视觉外观进行适应性推理关系分类,缓解实体对关系频率的长尾分布问题,提升模型推理能力。在VG数据集上的实验结果表明,与MOTIFS模型相比,该模型在谓词分类、场景图分类和场景图生成子任务上的Top-100召回率分别提升了1.4、4.3、7.1个百分点,对于多数关系类别具有更好的场景图生成效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号