首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
标签噪声会极大地降低深度网络模型的性能. 针对这一问题, 本文提出了一种基于对比学习的标签带噪图像分类方法. 该方法包括自适应阈值、对比学习模块和基于类原型的标签去噪模块. 首先采用对比学习最大化一幅图像的两个增强视图的相似度来提取图像鲁棒特征; 接下来通过一种新颖的自适应阈值过滤训练样本, 在模型训练过程中根据各个类别的学习情况动态调整阈值; 然后创新性地引入基于类原型的标签去噪模块, 通过计算样本特征向量与原型向量的相似度更新伪标签, 从而避免标签中噪声的影响; 在公开数据集CIFAR-10、CIFAR-100和真实数据集ANIMAL10上进行对比实验, 实验结果表明, 在人工合成噪声的条件下, 本文方法实验结果均高于常规方法, 通过计算图像鲁棒的特征向量与各个原型向量的相似度更新伪标签的方式, 降低了噪声标签的负面影响, 在一定程度上提高模型的抗噪声能力, 验证了该模型的有效性.  相似文献   

2.
近些年来,作为一种新的有监督学习范式,标记分布学习(LDL)已被应用到多个领域,如人脸年龄估计、头部姿态估计、电影评分预测、公共视频监控中的人群计数等,并且在这些领域的相关任务上取得了一定性能上的进展.最近几年,很多关于标记分布学习的算法在解决标记分布学习问题时考虑到了标记之间的相关性,但是现有方法大多将标记相关性作为...  相似文献   

3.
多标签学习广泛应用于文本分类、图像标注、视频语义注释、基因功能分析等问题.最近,多标签学习受到大量的关注,成为机器学习领域中的研究热点.然而,已有的算法并不能充分地探究标签之间的依赖关系和解决标签缺失问题,为此提出一种基于神经网络探究标签依赖关系的算法NN_AD_Omega,它能够有效地处理这2个挑战.NN_AD_Omega算法在神经网络顶层加入Ω矩阵刻画标签之间的依赖关系,标签之间的依赖关系可通过充分挖掘数据内在特点得到.当实例部分标签缺失时,学到的标签之间依赖关系能够有效提高预测效果.为了高效地求解模型,采用最小批梯度下降方法(Mini-batch-GD),其中学习率的自适应计算采用AdaGrad技术.在4个标准多标签数据集上的实验结果表明,提出的算法能够探究标签之间的依赖关系和处理标签缺失问题,且其性能优于当前基于神经网络的多标签学习算法.  相似文献   

4.
偏标记学习(partial label learning)是人们最近提出的一种弱监督机器学习框架,由于放松了训练数据集的构造条件,只需知道训练样本的真实标记的一个候选集合就可进行学习,可以更方便地处理很多领域的实际问题.在该框架下,训练数据的标记信息不再具有单一性和明确性,这就使得学习算法的构建变得比传统分类问题更加困难,目前只建立了几种面向小规模训练数据的学习算法.先利用ECOC技术将原始偏标记训练集转换为若干标准二分类数据集,然后基于变分高斯过程模型在每个二分类数据集上构建一个具有较低计算复杂度的二分类算法,最终实现了一种面向大规模数据的快速核偏标记学习算法.仿真实验结果表明,所提算法在预测精度几乎相当的情况下,训练时间要远远少于已有的核偏标记学习算法,利用普通的PC机处理样本规模达到百万级的问题只需要40min.  相似文献   

5.
随着数码产品,移动智能设备以及存储设备的普及,大数据时代已经来临,如何对海量数据进行有效的组织、管理、存储成为科研以及商业领域急需解决的问题,在图像数据挖掘当中,图像标注分类是当前比较热门的方向。采用机器学习的方法来找到大规模数据当中的隐含规律,实现样本的视觉内容到概念的映射需要对视觉数据内容进行恰当的描述,如果我们使用整个的图像作为基本单元,存在的问题就是视觉数据往往具有歧义性,难以准确表述包含的语义,多示例学习方法应运而生。图像分类问题本身是一种多标签问题,传统方法将其转化为一系列的单标签问题解决,忽略了标签之间的相关性,我们将标签相关性引入到模型构建当中,实验取得良好效果。  相似文献   

6.
The goal in multi-label classification is to tag a data point with the subset of relevant labels from a pre-specified set. Given a set of L labels, a data point can be tagged with any of the 2 L possible subsets. The main challenge therefore lies in optimising over this exponentially large label space subject to label correlations. Our objective, in this paper, is to design efficient algorithms for multi-label classification when the labels are densely correlated. In particular, we are interested in the zero-shot learning scenario where the label correlations on the training set might be significantly different from those on the test set. We propose a max-margin formulation where we model prior label correlations but do not incorporate pairwise label interaction terms in the prediction function. We show that the problem complexity can be reduced from exponential to linear while modelling dense pairwise prior label correlations. By incorporating relevant correlation priors we can handle mismatches between the training and test set statistics. Our proposed formulation generalises the effective 1-vs-All method and we provide a principled interpretation of the 1-vs-All technique. We develop efficient optimisation algorithms for our proposed formulation. We adapt the Sequential Minimal Optimisation (SMO) algorithm to multi-label classification and show that, with some book-keeping, we can reduce the training time from being super-quadratic to almost linear in the number of labels. Furthermore, by effectively re-utilizing the kernel cache and jointly optimising over all variables, we can be orders of magnitude faster than the competing state-of-the-art algorithms. We also design a specialised algorithm for linear kernels based on dual co-ordinate ascent with shrinkage that lets us effortlessly train on a million points with a hundred labels.  相似文献   

7.
标记分布学习是近年来提出的一种新的机器学习范式,它能很好地解决某些标记多义性的问题。现有的标记分布学习算法均利用条件概率建立参数模型,但未能充分利用特征和标记间的联系。本文考虑到特征相似的样本所对应的标记分布也应当相似,利用原型聚类的k均值算法(k-means),将训练集的样本进行聚类,提出基于k-means算法的标记分布学习(label distribution learning based on k-means algorithm,LDLKM)。首先通过聚类算法k-means求得每一个簇的均值向量,然后分别求得对应标记分布的均值向量。最后将测试集和训练集的均值向量间的距离作为权重,应用到对测试集标记分布的预测上。在6个公开的数据集上进行实验,并与3种已有的标记分布学习算法在5种评价指标上进行比较,实验结果表明提出的LDLKM算法是有效的。  相似文献   

8.
多标记学习(multi-label learning, MLL)任务处理一个示例对应多个标记的情况,其目标是学习一个从示例到相关标记集合的映射.在MLL中,现有方法一般都是采用均匀标记分布假设,也就是各个相关标记(正标记)对于示例的重要程度都被当作是相等的.然而,对于许多真实世界中的学习问题,不同相关标记的重要程度往往是不同的.为此,标记分布学习将不同标记的重要程度用标记分布来刻画,已经取得很好的效果.但是很多数据中却仅包含简单的逻辑标记而非标记分布.为解决这一问题,可以通过挖掘训练样本中蕴含的标记重要性差异信息,将逻辑标记转化为标记分布,进而通过标记分布学习有效地提升预测精度.上述将原始逻辑标记提升为标记分布的过程,定义为面向标记分布学习的标记增强.首次提出了标记增强这一概念,给出了标记增强的形式化定义,总结了现有的可以用于标记增强的算法,并进行了对比实验.实验结果表明:使用标记增强能够挖掘出数据中隐含的标记重要性差异信息,并有效地提升MLL的效果.  相似文献   

9.
多标记学习是针对一个实例同时与一组标签相关联而提出的一种机器学习框架,是该领域研究热点之一,降维是多标记学习一个重要且具有挑战性的工作。针对有监督的多标记维数约简方法,提出一种无监督自编码网络的多标记降维方法。首先,通过构建自编码神经网络,对输入数据进行编码和解码输出;然后,引入稀疏约束计算总体成本,使用梯度下降法进行迭代求解;最后,通过深度学习训练获得自编码网络学习模型,提取数据特征实现维数约简。实验中使用多标记算法ML-kNN做分类器,在6个公开数据集上与其他4种方法对比。实验结果表明,该方法能够在不使用标记的情况下有效提取特征,降低多标记数据维度,稳定提高多标记学习性能。  相似文献   

10.
In multi-label classification, examples can be associated with multiple labels simultaneously. The task of learning from multi-label data can be addressed by methods that transform the multi-label classification problem into several single-label classification problems. The binary relevance approach is one of these methods, where the multi-label learning task is decomposed into several independent binary classification problems, one for each label in the set of labels, and the final labels for each example are determined by aggregating the predictions from all binary classifiers. However, this approach fails to consider any dependency among the labels. Aiming to accurately predict label combinations, in this paper we propose a simple approach that enables the binary classifiers to discover existing label dependency by themselves. An experimental study using decision trees, a kernel method as well as Naïve Bayes as base-learning techniques shows the potential of the proposed approach to improve the multi-label classification performance.  相似文献   

11.
Conventional active learning dynamically constructs the training set only along the sample dimension. While this is the right strategy in binary classification, it is suboptimal for multilabel image classification. We argue that for each selected sample, only some effective labels need to be annotated while others can be inferred by exploring the label correlations. The reason is that the contributions of different labels to minimizing the classification error are different due to the inherent label correlations. To this end, we propose to select sample-label pairs, rather than only samples, to minimize a multilabel Bayesian classification error bound. We call it two-dimensional active learning because it considers both the sample dimension and the label dimension. Furthermore, as the number of training samples increases rapidly over time due to active learning, it becomes intractable for the offline learner to retrain a new model on the whole training set. So we develop an efficient online learner to adapt the existing model with the new one by minimizing their model distance under a set of multilabel constraints. The effectiveness and efficiency of the proposed method are evaluated on two benchmark data sets and a realistic image collection from a real-world image sharing Web site—Corbis.  相似文献   

12.
Many applications are facing the problem of learning from multiple information sources, where sources may be labeled or unlabeled, and information from multiple information sources may be beneficial but cannot be integrated into a single information source for learning. In this paper, we propose an ensemble learning method for different labeled and unlabeled sources. We first present two label propagation methods to infer the labels of training objects from unlabeled sources by making a full use of class label information from labeled sources and internal structure information from unlabeled sources, which are processes referred to as global consensus and local consensus, respectively. We then predict the labels of testing objects using the ensemble learning model of multiple information sources. Experimental results show that our method outperforms two baseline methods. Meanwhile, our method is more scalable for large information sources and is more robust for labeled sources with noisy data.  相似文献   

13.
在图像分类和工业视觉检测过程中,缺陷样本量少导致神经网络分类器训练效率低及检测精度差,直接采用原始的离散标签又无法使网络分类器学习到不同类别间的相似度信息。针对上述问题,在区域丢弃算法的基础上,提出一种基于生成对抗网络的知识蒸馏数据增强算法。使用补丁对丢弃区域进行填补,减少区域丢弃产生的非信息噪声。在补丁生成网络中,保留生成对抗网络的编码器-解码器结构,利用编码器卷积层提取特征,通过解码器对特征图上采样生成补丁。在样本标签生成过程中,采用知识蒸馏算法中的教师-学生训练模式,按照交叉检验方式训练教师模型,根据教师模型生成的软标签对学生模型的训练进行指导,提高学生模型对特征的学习能力。实验结果表明,与区域丢弃算法相比,该算法在CIFAR-100、CIFAR-10数据集图像分类任务上的Top-1 Err、Top-5 Err分别降低3.1、0.8、0.5、0.6个百分点,在汽车转向器轴承数据集语义分割任务上的平均交并比和识别准确率分别提高2.8、2.3个百分点。  相似文献   

14.
琚生根  李天宁  孙界平 《软件学报》2021,32(8):2545-2556
细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定义的细粒度类别中.目前,中文细粒度命名实体识别仅使用预训练语言模型对句子中的字符进行上下文编码,并没有考虑到类别的标签信息具有区分实体类别的能力.由于预测句子不带有实体标签,使用关联记忆网络来捕获训练集句子的实体标签信息,并将标签信息融入预测句子的字符表示中....  相似文献   

15.
为加速神经网络的训练,提出一种名为MT (mix training)的模型训练方法,并从理论与实验的角度来解释这种方法。该方法直接加权平均两张不同的图片为一张,对标签以同样的权值进行加权平均。由于只使用融合后的图片进行训练,该方法能够有效地加速网络的训练。使用DenseNet-40 (k=12)作为网络结构,在CIFAR-10、CIFAR-100、SVHN这3个数据集上验证了该方法能够节约一半的训练时间,在CIFAR-10、CIFAR-100上分别达到了93.51%、73.40%的识别率,高于未使用该方法的识别率93.00%、72.45%。  相似文献   

16.
为了减少显著性物体检测对像素级标签的依赖,提出了一种基于图像语义的弱监督显著性物体检测方法.利用鱼网络和注意力机制的组合模型,在图像语义热力映射图的基础上,对弱标签采用余弦相似度进行训练更新,同时在网络训练初期采用训练诱导策略,利用简单数据集对整个网络进行诱导训练,使其具有一定的能力.然后,经过不断地增加数据集的复杂性...  相似文献   

17.
Minimum Squared Error Classification (MSEC) is a learning method for predicting the class labels of samples in real time. However, as a regression algorithm, MSEC tries its best to map the training samples into their class labels using a linear projection without considering the manifold structure of the data. In this paper, we introduce a supervised label learning framework using an effective manifold learning strategy. This method which is referred to as Manifold Supervised Label Prediction (MSLP) generalizes MSEC objective function to incorporate intra-class relationships of data. Thus, in addition to relying on the relationship between a training sample and its label, we propose to also learn the relationship between the training samples while transforming them. As a testbed for MSLP, we apply it to an image identification venue in which image samples with a very low spatial resolution (16 × 16) are used. These images have been dramatically influenced by a down-sampling process in order to reduce their size and hence, improving over computation time. We also show that the blurring process for reducing the artifacts introduced by down-sampling serendipitously results in better identification accuracies. Finally, unlike MSEC that classifies a query sample based on the deviation between the predicted and the true class labels, we compare both the training and the query samples in the label prediction space. A set of comprehensive experiments on benchmark palmprint databases including Multispectral PolyU, PolyU 2D/3D, and PolyU Contact-free I shows meaningful improvements over existing state-of-the-art algorithms.  相似文献   

18.
在神经网络模型训练过程中,存在部分卷积核退化为无效卷积核,在神经网络推理过程失去作用的问题。针对该问题,提出了一种仅使用单个模型就能在训练过程中激活无效卷积核,提高模型性能的方法。首先将初始模型训练至收敛时刻;然后通过L1正则和卷积核相关性两种方式衡量卷积核的有效性;最后将无效卷积核的权值回退到模型训练的初期阶段并对模型进行重训练。在CIFAR-10、CIFAR-100等图像分类的数据集上的实验结果表明,无论是在残差网络还是在轻量级网络上,提出的方法都能有效地恢复无效卷积核,提高神经网络模型精度。相比之前的方法,该方法在低代价下达到了最佳效果,在图像分类任务上平均提高了0.93%的准确率。  相似文献   

19.
针对在试油气井控专业领域的命名实体识别任务中,由于没有足够的特征标注数据,使得传统通用领域模型无法高效地进行专业的试油气井控专业领域的命名实体识别的问题,提出了一个基于主动学习方法的试油气井控专业领域命名实体识别模型。该模型首先采用对BERT模型进行的条件预训练,在获取名词向量特性信息后进入双向长短期记忆网络(BiLSTM)中,然后再将输出的特征信息经过条件随机场(CRF)对序列标签的相关性进行约束,最后采用主动学习的方法,筛选出合格的样本进行自动标注后放入已标注数据集中,增加训练样本。实验结果表明在多次迭代训练后,该模型可以在少量标注数据的基础上获得较好的命名实体识别效果并获得较高的命名实体识别准确率。  相似文献   

20.

心电图(electrocardiogram, ECG)异常的自动检测是一个典型的多标签分类问题,训练分类器需要大量有高质量标签的样本. 但心电数据集异常标签经常缺失或错误,如何清洗弱标签得到干净的心电数据集是一个亟待解决的问题. 在一个标签完整且准确的示例数据集辅助下,提出一种基于异常特征模式 (abnormality-feature pattern, AFP) 的方法对弱标签心电数据进行标签清洗,以获取所有正确的异常标签. 清洗分2个阶段,即基于聚类的规则构造和基于迭代的标签清洗. 在第1阶段,通过狄利克雷过程混合模型(Dirichlet process mixture model, DPMM)聚类,识别每个异常标签对应的不同特征模式,进而构建异常发现规则、排除规则和1组二分类器. 在第2阶段,根据发现和排除规则辨识初始相关标签集,然后根据二分类器迭代扩展相关标签并排除不相关标签. AFP方法捕捉了示例数据集和弱标签数据集的共享特征模式,既应用了人的知识,又充分利用了正确标记的标签;同时,渐进地去除错误标签和填补缺失标签,保证了标签清洗的可靠性. 真实和模拟数据集上的实验证明了AFP方法的有效性.

  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号