共查询到18条相似文献,搜索用时 46 毫秒
1.
孙晋永;王雪纯;孙志刚;董志伟 《小型微型计算机系统》2024,(7):1671-1678
开放集识别的目标是识别出未知类样本,同时保持对已知类样本的分类能力.现有的判别式开放集识别方法忽视了已知类过度占用特征空间和模型训练过程缺乏未知类信息的问题,导致未知类样本容易被误分类为已知类.为此,提出一种结合原型对比学习的开放集识别方法.引入对比学习和类原型理论,使用编码器和投影网络对开放集识别问题进行建模,设计原型对比损失函数,使用梯度下降法学习模型参数,最小化样本与其对应的类原型之间的距离和最大化样本与其他类原型间的距离,促使样本在特征空间中向类原型靠近,从而缓解已知类过度占用特征空间的问题.此外,设计混合样本对比损失函数,提出样本生成方法OSR-Mix以生成未知类样本,从而在模型训练过程有效地补充未知类信息.在4个公开数据集上的实验结果表明,与主流的开放集识别方法相比,本文提出的方法在AUROC和F1分数上均有明显的优势. 相似文献
2.
孙晋永;王雪纯;蔡国永;尚之量 《计算机科学》2025,52(5):187-198
传统图像分类算法假定世界是静态、封闭的,而大数据时代的真实世界却是动态、开放的,新类别及其样本不断出现,导致传统图像分类算法的准确率降低。针对这种情况,研究者提出了适用于真实世界的开放集识别问题,目标是从样本集中识别出未知类样本,同时保持对已知类样本的分类准确性。但现有的开放集识别方法都忽略了对识别出的未知类样本的进一步利用,且未知类样本通常数量较少,这些情况导致开放集识别模型无法增量地学习到已识别出的未知类样本蕴含的知识,影响了开放集识别模型的准确性和泛化性。为此,提出一种基于元增量学习的开放集识别方法,来提高开放集识别模型的准确性和泛化性。该方法使用双层优化机制构建开放集识别模型,对未知类样本进行深度聚类,使模型能够对聚类后的未知类样本进行增量学习。具体来说,首先,构建基于双层优化机制的开放集识别模型,并对其进行训练,使其具备对少量未知类样本进行增量学习的能力。然后,使用权重激励注意力机制来获取开放集识别模型参数的重要性,对模型的非关键参数进行更新,减少增量学习对模型的已知类分类能力的影响。其次,设计深度DBSCAN方法对未知类样本进行聚类,将每簇样本标记为一类,并使模型对其增量学习,丢弃离散样本,减少离散样本对增量学习效果的影响。最后,在4个公开数据集上进行实验,结果表明,相较于主流的开放集识别方法,所提方法在AUROC和F1分数上均具有更好的效果,可以充分地学习识别出的未知类样本的知识。 相似文献
3.
开放集文字识别 (Open-set text recognition, OSTR) 是一项新任务, 旨在解决开放环境下文字识别应用中的语言模型偏差及新字符识别与拒识问题. 最近的 OSTR 方法通过将上下文信息与视觉信息分离来解决语言模型偏差问题. 然而, 这些方法往往忽视了字符视觉细节的重要性. 考虑到上下文信息的偏差, 局部细节信息在区分视觉上接近的字符时变得更加重要. 本文提出一种基于自适应字符部件表示的开放集文字识别框架, 构建基于文字局部结构相似度量的开放集文字识别方法, 通过对不同字符部件进行显式建模来改进对局部细节特征的建模能力. 与基于字根 (Radical) 的方法不同, 所提出的框架采用数据驱动的部件设计, 具有语言无关的特性和跨语言泛化识别的能力. 此外, 还提出一种局部性约束正则项来使模型训练更加稳定. 大量的对比实验表明, 本文方法在开放集、传统闭集文字识别任务上均具有良好的性能. 相似文献
4.
章秦;刘紫琪;张晓林;张鹏;刘涵;陈小军 《计算机学报》2025,(4):828-863
近年来,机器学习研究不断取得突破,促成了大量智能系统的成熟和落地。然而,当前“深度学习+大规模标注数据+完备先验知识”的机器学习范式过度依赖先验知识的完备性,其应用场景局限于静态封闭的专用系统。现实应用环境具有更多开放性和复杂性,例如现实环境中所包含的类别空间在训练期间无法被完全预知且会有新类别在测试阶段不断出现,这使得实际应用场景下的数据构成和分布都极其复杂,无法通过全局分析来保证模型的有效性。为了打破现有机器学习对完备类别信息的过度依赖,对开放集识别问题的研究已成为一个新的趋势。开放集识别将传统分类问题向开放环境下进行扩展,在保证已知类别准确分类的同时,要求模型还可以有效地识别测试阶段新出现的未知类别样本,避免造成大量误分。本文对近年来开放集识别的研究进行了系统调研,聚焦于基于深度学习的开放集识别方法,对经典模型进行了梳理和介绍,并对其分类效果进行了横向对比。 相似文献
5.
6.
行人重识别是指利用计算机视觉技术在给定监控的图像中识别目标行人,受拍摄场景视角和姿势变化、遮挡等因素的影响,现有基于局部特征的行人重识别方法所提取的特征辨别力差,从而导致重识别精度较低。为有效地利用特征信息,提出一种多尺度多粒度融合的行人重识别方法MMF-Net。通过多个分支结构学习不同尺度和不同粒度的特征,并利用局部特征学习优化全局特征,以加强全局特征和局部特征的关联性。同时,在网络的低层引入语义监督模块以提取低层特征,并将其作为行人图像相似性度量的补充,实现低层特征和高层特征的优势互补。基于改进的池化层,通过结合最大池化和平均池化的特点获取具有强辨别力的特征。实验结果表明,MMF-Net方法在Market-1501数据集上的首位命中率和mAP分别为95.7%和89.1%,相比FPR、MGN、BDB等方法,其具有较优的鲁棒性。 相似文献
7.
在文本和表格的数值问答任务中,模型需要在给定的文本和表格下进行数值推理.任务目标是生成一个包含多步数值计算的计算程序,并将计算程序结果作为问题的答案.为了建模文本和表格,当前工作通过模板将表格线性化为一系列单元格句子,再基于文本和单元格句子设计生成器以产生计算程序.然而,这种方法面临一个特定问题:由模板生成的单元格句子间差异微小,生成器难以区分回答问题所必需的单元格句子(支撑单元格句子)和回答问题无关的单元格句子(干扰单元格句子),最终导致模型基于干扰单元格句子生成错误的计算程序.为了解决这个问题,在生成器上设计一个多粒度单元格语义对比方法,其主要目的是增加支撑单元格句子和干扰单元格句子表示距离,进而帮助生成器区分它们.这个方法由粗粒度单元格语义对比和细粒度单元格语义构成元素对比(包括行名对比,列名对比及单元格数值对比)共同构成.实验结果验证所提出的多粒度单元格语义对比方法可以使生成器在FinQA和MultiHiertt数值推理数据集上取得优于基准模型的表现.在FinQA数据集上,多粒度单元格语义对比方法上最高可以提升答案正确率达到3.38%;特别地,在更为困难的层次化表格数据集MultiHiertt中,该方法使生成器的正确率显著提高了7.8%.同大语言模型GPT-3结合思维链相比,基于多粒度单元格语义对比的生成器性能在FinQA和MultiHiertt上分别表现出5.44%和1.69%的答案正确率提升.后续分析实验进一步验证多粒度单元格语义对比方法有助于生成器区分支撑单元格句子和干扰单元格句子. 相似文献
8.
分析了基于均匀粒度的聚类方法构造分类器存在着与先验知识之间不协调的问题。提出了根据多粒度原理、基于人工免疫聚类来获取代表点集来构造分类器的方法,在一定程度上克服了聚类结果与先验知识之间的矛盾,并提高了分类器的分类准确度和推广性。实验结果表明基于此分类器的入侵检测的平均检测率和误报率都保持了较高的性能。 相似文献
9.
在小样本开放集识别任务中, 有效区分闭集和开集样本是一项具有挑战性的任务, 尤其在样本稀缺的情况下. 现有方法在构造已知类分布边界时存在模糊性, 未能很好地实现闭集和开集空间的区分. 为了解决这一问题, 本文提出了基于特征解耦和开放性学习的小样本开放集识别方法. 其目的是通过特征解耦模块, 迫使模型解耦类别性特征和开放性特征, 从而扩大未知类与已知类之间的差异. 为了有效实现特征解耦, 引入了开放性学习损失来促进特征的开放性学习. 通过结合相似度度量值和反开放性分值作为损失优化对象, 更好地引导模型学习到更具区分性的特征表示. 实验结果表明, 本文方法在公共数据集miniImageNet和tieredImageNet上可以显著提高未知类样本的检测率, 同时正确分类已知类别. 相似文献
10.
11.
智能零售场景中往往会使用到图像分类技术来识别商品,然而实际场景中并不是所有出现的物体都是已知的,未知的物体会干扰场景中的模型正常运行.针对智能零售场景中的图像分类问题,从已知类别封闭数据集的分类特征出发,通过对已知类别的分类特征进行计算和修正得到对未知类别物体的分类预测.通过构造已知类别的特征空间,并结合针对图像分类特征空间的特性优化的特征距离——归一化主类距离,可以更好地拟合特征空间在已知类别数据集中的边界概率模型.最终用边界概率模型对原分类特征做出修正计算,得到对物体的未知类别的分类预测,并通过设计实验验证该方法的可行性.此外,在智能零售场景的数据集支持下,与已有方法进行了对比实验.使用特征空间归一化主类距离的开放集分类算法在有着更高的已知类别分类准确率的同时,开放集拒绝率有14.20%的提升,达到了44.85%. 相似文献
12.
图表示学习在处理图数据结构中起着非常重要的作用,但它面临着严重依赖于标记信息的挑战.为了克服这一挑战,提出了一种新的自监督图表示学习框架,通过使用对比学习方法,融合原始图的结构与属性以及频谱的高低频信息,在保留节点信息的基础上进行增强.同时,利用残差融合机制和无偏特征增强方法,在保证特征有效性的同时进一步减少增强样本的偏差.此外,在对比部分估计负样本为真的概率,并使用权重来度量负样本的硬度和相似度.通过在3个公开数据集上实验证明,在节点分类的下游任务中表现不仅优于当前最先进的无监督方法,而且还在多数任务中超过了以往的有监督方法. 相似文献
13.
现有的自监督表征算法主要关注视频帧之间的短期运动特性;但是帧间动作序列的变化幅度较小;而且单视图数据因语义受限影响深度特征表达能力;视频动作中丰富的多视图信息未被充分利用。为此提出基于跨视图语义一致性的时序对比学习算法;自监督学习RGB帧和光流场两种数据中蕴含的动作时序变化特性;主要思路为:设计局部时序对比学习方法;采用不同正负样本划分策略;挖掘同一实例不重叠片段之间的时序相关性和判别可分性;增强细粒度特征表达能力;研究全局对比学习方法;通过跨视图语义协同训练来增加正样本;学习多实例不同视图的语义一致性;提高模型的泛化能力。通过两个下游任务对模型效果进行评估;在UCF101和HMDB51数据集的实验结果表明;所提方法在动作识别和视频检索任务上;较前沿主流方法平均提升了2~3.5个百分点。 相似文献
14.
Motion, as a feature of video that changes in temporal sequences, is crucial to visual understanding. The powerful video representation and extraction models are typically able to focus attention on motion features in challenging dynamic environments to complete more complex video understanding tasks. However, previous approaches discriminate mainly based on similar features in the spatial or temporal domain, ignoring the interdependence of consecutive video frames. In this paper, we propose the motion sensitive self-supervised collaborative network, a video representation learning framework that exploits a pretext task to assist feature comparison and strengthen the spatiotemporal discrimination power of the model. Specifically, we first propose the motion-aware module, which extracts consecutive motion features from the spatial regions by frame difference. The global–local contrastive module is then introduced, with context and enhanced video snippets being defined as appropriate positive samples for a broader feature similarity comparison. Finally, we introduce the snippet operation prediction module, which further assists contrastive learning to obtain more reliable global semantics by sensing changes in continuous frame features. Experimental results demonstrate that our work can effectively extract robust motion features and achieve competitive performance compared with other state-of-the-art self-supervised methods on downstream action recognition and video retrieval tasks. 相似文献
15.
随着视频采集和网络传输技术的快速发展,以及个人移动终端设备的广泛使用,大量图像数据以集合形式存在.由于集合内在结构的复杂性,使得图像集分类的一个关键问题是如何度量集合间距离.为了解决这一问题,本文提出了一种基于双稀疏正则的图像集距离学习框架(DSRID).在该框架中,两集合间距离被建模成其对应的内部典型子结构间的距离,从而保证了度量的鲁棒性和判别性.根据不同的集合表示方法,本文给出了其在传统的欧式空间,以及两个常见的流形空间,即对称正定矩阵流形(symmetric positive definite matrices manifold,SPD manifold)和格林斯曼流形(Grassmann manifold)上的实现.在一系列的基于集合的人脸识别、动作识别和物体分类任务中验证了该框架的有效性. 相似文献
16.
为了利用图像集中的集合信息来提高图像识别精度以及对图像变化的鲁棒性,从而大幅降低诸如姿态、光照、遮挡和未对齐等因素对识别精度的影响,提出了一种用于图像集分类的图像集原型与投影学习算法(LPSOP)。该算法针对每个图像集学习有代表性的点(原型)以及一个正交的全局投影矩阵,使得在目标子空间的每个图像集可以被最优地分类到同类的最近原型集中。用学习到的原型来代表该图像集,既能降低冗余图像干扰,又能减少存储和计算开销,学习到的投影矩阵能够大幅提高分类精度与噪声鲁棒性。在UCSD/Honda、CMU MoBo和YouTube celebrities这三个数据集上的实验结果表明,LPSOP比目前流行的图像集分类算法具有更高的识别精度和更好的鲁棒性。 相似文献
17.
Sam Dixon;Lina Yao;Robert Davidson; 《Concurrency and Computation》2024,36(16):e8020
Human activity recognition is a well-established research problem in ubiquitous computing. The increased dependency on various smart devices in our daily lives allows us to investigate the sensor data world produced by multimodal sensors embedded in smart devices. However, the raw sensor data are often unlabeled and annotating this vast amount of data are a costly exercise that can often lead to privacy breaches. Self-supervised learning-based approaches are at the forefront of learning semantic representation from unlabeled sensor data, including when applied to human activity recognition tasks. As inferring human activity depends on multimodal sensors, addressing the modality difference and inter-modality dependencies in a model is an important process. This paper proposes a novel self-supervised learning approach, modality aware contrastive learning (MACL), for representation learning using multimodal sensor data. The approach uses different sensing modalities to create different views of an input signal. Thus, the model is able to learn the representations by maximizing the similarity among different sensing modalities of the same input signal. Extensive experiments were performed on four publicly available human activity recognition data sets to verify the effectiveness of our proposed MACL method. The experimental evaluation results show that the MACL method attains a comparable performance for human activity recognition to the compared baseline models, directly exceeding the performance of models using standard augmentation transformation strategies. 相似文献
18.
王婷;季繁繁;崔绍君;袁晓彤 《计算机辅助设计与图形学学报》2025,37(5):844-855
提出一种融合对比学习的对抗式无监督领域自适应图像分类方法(CADA), 旨在将从标记良好的源域训练得到的模型推广到未标记的目标域时仍然保持良好的泛化性能. 针对以往的基于对抗的无监督领域自适应方法中存在的只在整体上对齐源域和目标域的特征, 而忽略了 2 个领域在全局分布对齐的同时属于同一类的特征是否对齐的问题, 以及对无标签的目标域样本利用不充分的问题, 将对比学习的思想引入到基于对抗的无监督领域自适应方法中, 通过不断地拉近目标域中相似样本在特征空间中的距离, 同时不断地推离不相似的样本, 使得无标签的目标域样本的分类边界更加清晰, 从而使得源域和目标域样本在全局对齐的同时也实现类内对齐; 将目标域的样本经过数据增强后送入对比学习模块, 使得目标域无标记的样本得到了更充分的利用. 与原有的基于对抗的无监督领域自适应方法相比, 提出的 CADA 在 Office-31, Office-Home 和 VisDA-2017 数据集上的平均准确率比原有方法提高了 2~6个百分点. 相似文献