首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
标记分布学习(label distribution learning,LDL)是一种用于解决标记多义性的新颖学习范式。现有的LDL方法大多基于完整数据信息进行设计,然而由于高昂的标注成本以及标注人员水平的局限性,很难获取到完整标注数据信息,且会导致传统LDL算法性能的下降。为此,本文提出了一种新型的结合局部序标记关系的弱监督标记分布学习算法,通过维持尚未缺失标记之间的相对关系,并利用标记相关性来恢复缺失的标记,在数据标注不完整的情况下提升算法性能。在14个数据集上进行了大量的实验来验证算法的有效性。  相似文献   

2.
特征选择作为多标记学习任务中关键预处理步骤,能够有效地解决高维多标记数据存在的维度灾难问题。在现有大部分的多标记学习中,标记是以逻辑分布的形式刻画,即示例中相关标记的重要性相同;然而,在许多现实生活中,每个示例的标记重要程度呈现差异性。本文提出了一种基于模糊相似性的标记增强算法,通过衡量示例中标记的模糊相关性,将传统的多标记数据转换为标记分布数据;分析了标记分布数据中在标记上的标记差异性和在特征上的模糊相对辨识关系,给出了在标记空间和特征空间上的模糊辨识度,并构造了衡量特征辨识能力的特征重要度;在此基础上,构建面向标记分布数据的特征选择算法,能获得按特征重要度降序的特征选择结果。最后通过在多个多标记数据集上实验对比和分析,进一步验证了算法的有效性和可行性。  相似文献   

3.
针对大多数现有的标记分布学习算法从全局角度利用标记相关性,忽略了仅存于部分示例范围内的局部标记相关性,同时,算法性能会受到无关和冗余特征干扰的问题,提出一种基于局部标记相关性的标记分布学习算法(LDL-LLC)。通过对训练数据进行分组,将每组训练数据的标记相关性约束在标记输出上,探索和利用局部标记相关性,引入特征选择常用的范数约束,学习标记私有特征和共享特征。在多个真实标记分布数据集上的对比实验结果表明,LDL-LLC算法性能良好。  相似文献   

4.
一个样例的标记信息可能会对附近其他样例的学习提供有用信息,特别是在数据比较匮乏的情况下,利用已标记数据与未标记数据间的相关性,能够在一定程度上避免因数据不足所造成的误差。针对样例之间的相关性研究,提出基于局部标记信息的多标记学习算法,算法首先获取样例的局部标记信息,然后将样例的局部标记信息引入属性空间构造新的样例集合,并根据新的样例集合进行分类。实验结果表明,算法的分类性能得到较大提升,且优于其他常用多标记学习算法。  相似文献   

5.
韩乐  黎铭 《软件学报》2014,25(9):1982-1991
随着开源软件数量的增多,从开源软件社区中有效检索到所需的开源软件是具有挑战性的工作.现有方法通常是:首先,人工给每个软件赋予多个描述其功能、用途的标注;然后,通过关键词匹配寻找用户所需的软件.由于其简单、方便,基于标注进行软件检索得到了广泛的应用.然而,用户通常不愿意主动为其上载的开源软件提供标注,这使得根据用户上载软件的文字描述信息,从众多备选软件标注中为其自动选择能够表征其功能、用途的标注,成为了有效检索该软件的关键.把开源软件自动标注形式化为一个代价敏感多标记学习问题,并提出了一种新型代价敏感多标记学习方法ML-CKNN.该方法通过在多标记学习中引入代价信息,有效缓解了对每一个标注而言具有该标注的示例与不具有该标注的示例分布非均衡性给多标记学习造成的影响.在3个开源软件社区上的实验结果表明:所提出的ML-CKNN方法能够为新上载的开源软件提供高质量的标注,其标注性能显著优于现有方法.  相似文献   

6.
基于情感轮和情感词典的文本情感分布标记增强方法   总被引:2,自引:0,他引:2  
情感分布学习是一种近年提出的用于处理存在情绪模糊性的多情绪分析模型,其核心思路是通过情感分布记录示例在各个情绪上的表达程度.不同于传统的单标记或多标记学习,情感分布学习可以定量地对多个情绪同时建模.目前,情感分布学习面临的一个重要困难是缺乏已标注情感分布的文本数据集.为了利用大量已有的单标记情感数据集,情感分布标记增强方法可以将示例的情绪标签增强为情感分布.基于文本中的情感词蕴含着大量情感信息的特点,本文在引入普鲁契克情感轮心理学模型的基础上,提出基于情感轮和情感词典的情感分布标记增强方法(Emotion Wheel and Lexicon based emotion distribution Label Enhancement,EWLLE).EWLLE方法基于情绪的心理学距离为句子的真实情绪标签和情感词的情绪标签分别生成离散高斯分布,然后通过分布的叠加将两种信息综合为统一的情感分布.在7个常用的中英文文本情感数据集上的对比实验表明,EWLLE方法在情绪识别任务上的性能优于已有的情感分布标记增强方法.  相似文献   

7.
多示例多标记学习(Multi-Instance Multi-Label,MIML)是一种新的机器学习框架,基于该框架上的样本由多个示例组成并且与多个类别相关联,该框架因其对多义性对象具有出色的表达能力,已成为机器学习界研究的热点.解决MIML分类问题的最直接的思路是采用退化策略,通过向多示例学习或多标记学习的退化,将MIML框架下的分类问题简化为一系列的二类分类问题进行求解.但是在退化过程中会丢失标记之间的关联信息,降低分类的准确率.针对此问题,本文提出了MIMLSVM-LOC算法,该算法将改进的MIMLSVM算法与一种局部标记相关性的方法ML-LOC相结合,在训练过程中结合标记之间的关联信息进行分类.算法首先对MIMLSVM算法中的K-medoids聚类算法进行改进,采用的混合Hausdorff距离,将每一个示例包转化为一个示例,将MIML问题进行了退化.然后采用单示例多标记的算法ML-LOC算法继续以后的分类工作.在实验中,通过与其他多示例多标记算法对比,得出本文提出的算法取得了比其他分类算法更优的分类效果.  相似文献   

8.
李绍园  姜远 《软件学报》2020,31(5):1497-1510
传统的多标记学习任务要求训练数据拥有完整的或者至少部分的真实标记,而真实标记耗费昂贵并且难以获取.不同于由昂贵受限的专家标注真实标记,众包环境下,多标记任务被分配给多个容易获取的非专家标注,学习目标是从有错误的非专家标注中估计样本的真实标记.这一问题的关键在于如何融合非专家标注.以往的众包学习主要集中在单标记任务上,忽视了多标记任务的标记相关性;而多标记任务上的众包工作集中在局部标记相关性的利用如标记共同出现的概率,标记间条件相关性,其估计很敏感地受到标记数量和质量的影响.考虑到多标记任务上多个标注者的标注结果整体上存在低秩结构关系,提出一种基于低秩张量矫正的方法.首先,将标注结果组织成三维的张量(样本,标记,标注者),用低秩张量补全的方法对收集到的标注做预处理,以同时达到两个目的:1)优化已有标注;2)补全标注者在其未标注的标记上的标注结果.然后,对所有标注融合,测试了3种融合方法,分别从不同的方面考虑标注的置信度.真实数据上的实验结果验证了所提方法的有效性.  相似文献   

9.
多数多标记学习方法通过在输出空间中,单示例同时与多个类别标记相关联表示多义性,目前有研究通过在输入空间将单一示例转化为示例包,建立包中多示例与多标记的联系。算法在生成示例包时采用等权重平均法计算每个标记对应样例的均值。由于数据具有局部分布特征,在计算该均值时考虑数据局部分布,将会使生成的示例包更加准确。本论文充分考虑数据分布特性,提出新的分类算法。实验表明改进算法性能优于其他常用多标记学习算法。  相似文献   

10.
近些年来,作为一种新的有监督学习范式,标记分布学习(LDL)已被应用到多个领域,如人脸年龄估计、头部姿态估计、电影评分预测、公共视频监控中的人群计数等,并且在这些领域的相关任务上取得了一定性能上的进展.最近几年,很多关于标记分布学习的算法在解决标记分布学习问题时考虑到了标记之间的相关性,但是现有方法大多将标记相关性作为...  相似文献   

11.
查思明  鲍庆森  骆健    陈蕾   《智能系统学报》2022,17(4):670-679
针对多视图多标记学习中视图不完整和标记不完整问题,提出一种自适应标记关联与实例关联诱导的缺失多视图弱标记学习模型。模型假设样本各视图特征基于一个共享表示,通过不同映射得到。首先通过嵌入指示矩阵进行矩阵分解,充分利用已有的不完整多视图弱标记数据,然后引入图论中学习标准拉普拉斯矩阵的技术来刻画标记关联关系、实例关联关系,从而在模型里嵌入流形正则化思想,使学到的潜在共享表示以及分类器更加合理,最后在4个多视图多标记数据集上实验。实验结果表明,所提方法能够有效解决不完整多视图弱标记学习问题。  相似文献   

12.
偏标记学习是一种重要的弱监督学习框架。在偏标记学习中,每个实例与一组候选标记相关联,它的真实标记隐藏在候选标记集合中,且在学习过程中不可获知。为了消除候选标记对学习过程的影响,提出了一种融合实例语义差别最大化和流型学习的偏标记学习方法(partial label learning by semantic difference and manifold learning, PL-SDML)。该方法是一个两阶段的方法:在训练阶段,基于实例的语义差别最大化准则和流型学习方法为训练实例生成标记置信度;在预测阶段,使用基于最近邻投票的方法为未知实例预测标记类别。在四组人工改造的UCI数据集中,在平均70%的情况下优于其他对比算法。在四组真实偏标记数据集中,相比其他对比算法,取得了0.3%~13.8%的性能提升。  相似文献   

13.
Multilabel classification via calibrated label ranking   总被引:3,自引:0,他引:3  
Label ranking studies the problem of learning a mapping from instances to rankings over a predefined set of labels. Hitherto existing approaches to label ranking implicitly operate on an underlying (utility) scale which is not calibrated in the sense that it lacks a natural zero point. We propose a suitable extension of label ranking that incorporates the calibrated scenario and substantially extends the expressive power of these approaches. In particular, our extension suggests a conceptually novel technique for extending the common learning by pairwise comparison approach to the multilabel scenario, a setting previously not being amenable to the pairwise decomposition technique. The key idea of the approach is to introduce an artificial calibration label that, in each example, separates the relevant from the irrelevant labels. We show that this technique can be viewed as a combination of pairwise preference learning and the conventional relevance classification technique, where a separate classifier is trained to predict whether a label is relevant or not. Empirical results in the area of text categorization, image classification and gene analysis underscore the merits of the calibrated model in comparison to state-of-the-art multilabel learning methods.  相似文献   

14.
Multi-label learning deals with the problem where each instance is associated with a set of class labels.In multilabel learning,different labels may have their own inherent characteristics for distinguishing each other,and the correlation information has shown promising strength in improving multi-label learning.In this study,we propose a novel multilabel learning method by simultaneously taking into account both the learning of label-specific features and the correlation information during the learning process.Firstly,we learn a sparse weight parameter vector for each label based on the linear regression model,and the label-specific features can be extracted according to the corresponding weight parameters.Secondly,we constrain label correlations directly on the output of labels,not on the corresponding parameter vectors which conflicts with the label-specific feature learning.Specifically,for any two related labels,their corresponding models should have similar outputs rather than similar parameter vectors.Thirdly,we also exploit the sample correlations through sparse reconstruction.The experimental results on 12 benchmark datasets show that the proposed method performs better than the existing methods.The proposed method ranks in the 1st place at 66.7%case and achieves optimal average rank in terms of all evaluation measures.  相似文献   

15.
在对大规模多标签数据进行人工标注时极易产生标签的缺失。现有算法大多利用被所有实例共享的全局标签相关性来解决该问题,即对不同实例而言,标签之间的相关性是相同的。然而在实际应用中,不同实例的标签相关性并非完全相同,此时采用局部方式获取的标签相关性将更加准确。因此,本文提出一种基于局部标签相关性的解决方法。该方法利用局部标签相关性来恢复缺失标签,利用低秩矩阵分解技术来构造适用于大规模数据的分类器。此外,为了加快模型的训练,该方法将这两个过程融合到一个统一的框架中,并采用迭代优化的方式进行求解。大量实验结果表明,该方法在预测准确度上至少比现有算法高2个百分点,在训练速度上至少提升5个百分点。  相似文献   

16.
针对多标签学习中实例标签的缺失补全和预测问题,本文提出一种基于正则化的半监督弱标签分类方法(简称SWCMR),方法同时兼顾实例相似性和标签相关性.SWCMR首先根据标签相关性对弱标签实例的缺失标签进行初步预估,然后利用弱标签实例和无标签实例构造邻域图,从实例相似性和标签相关性角度构建基于平滑性假设的正则化项,接下来利用预估后的弱标签实例结合无标签实例训练半监督弱标签分类模型.在多种公共多标签数据集上的实验结果表明,SWCMR提高了分类性能,尤其是标签信息较少时,分类效果提升更显著.  相似文献   

17.
Wang  Min  Feng  Tingting  Shan  Zhaohui  Min  Fan 《Applied Intelligence》2022,52(10):11131-11146

In multi-label learning, each instance is simultaneously associated with multiple class labels. A large number of labels in an application exacerbates the problem of label scarcity. An interesting issue concerns how to query as few labels as possible while obtaining satisfactory classification accuracy. For this purpose, we propose the attribute and label distribution driven multi-label active learning (MCAL) algorithm. MCAL considers the characteristics of both attributes and labels to enable the selection of critical instances based on different measures. Representativeness is measured by the probability density function obtained by non-parametric estimation, while informativeness is measured by the bilateral softmax predicted entropy. Diversity is measured by the distance metric among instances, and richness is measured by the number of softmax predicted labels. We describe experiments performed on eight benchmark datasets and eleven real Yahoo webpage datasets. The results verify the effectiveness of MCAL and its superiority over state-of-the-art multi-label algorithms and multi-label active learning algorithms.

  相似文献   

18.
Crowdsourcing provides an effective and low-cost way to collect labels from crowd workers. Due to the lack of professional knowledge, the quality of crowdsourced labels is relatively low. A common approach to addressing this issue is to collect multiple labels for each instance from different crowd workers and then a label integration method is used to infer its true label. However, to our knowledge, almost all existing label integration methods merely make use of the original attribute information and do not pay attention to the quality of the multiple noisy label set of each instance. To solve these issues, this paper proposes a novel three-stage label integration method called attribute augmentation-based label integration (AALI). In the first stage, we design an attribute augmentation method to enrich the original attribute space. In the second stage, we develop a filter to single out reliable instances with high-quality multiple noisy label sets. In the third stage, we use majority voting to initialize integrated labels of reliable instances and then use cross-validation to build multiple component classifiers on reliable instances to predict all instances. Experimental results on simulated and real-world crowdsourced datasets demonstrate that AALI outperforms all the other state-of-the-art competitors.  相似文献   

19.
针对传统离线哈希算法训练模型耗时、占用内存大和不易更新模型的问题,以及现实图像集的标签存在大量损失的现象,提出了一种能够平衡标签预测的在线哈希算法(BLPOH)。BLPOH通过标签预测模块生成预测标签,并融合残缺的真实标签,能够有效缓解因标签损失导致的模型性能下降。观察到标签存在分布不平衡现象,提出标签类别相似性平衡算法并应用于标签预测模块,提升标签预测的准确性。将旧数据的信息加入哈希函数的在线更新过程,提升模型对旧数据的兼容性。通过在两个广泛使用的数据集上进行实验,并和一些当前先进的算法进行对比,结果证实了BLPOH的优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号