首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对页岩气储层数据获取困难、标签稀缺、标注成本高昂的问题,提出一种多标准主动查询的多标签学习(MAML)算法.首先,考虑样本的信息性和代表性来对样本进行初步处理;其次,加入包括属性差异性和标签丰富性的样本丰富性约束,在此基础上选择有价值的样本进行标签查询;最后,利用多标签学习算法来预测剩余样本的标签.通过11个Yaho...  相似文献   

2.
针对现有实例匹配方法存在的准确率和学习效率不高的问题,提出了一种新的基于遗传规划和主动学习的链接规则学习方法,并用于本体实例匹配。设计了更合理的链接规则表示,并针对链接规则的特点,对遗传规划的初始种群产生、适应度函数和进化算子进行了详细设计。提出了一种考虑样本相关性的主动学习采样策略,使得稀有样本被优先训练。实验结果表明,该方法不仅学习效率更高,而且能够学习出高质量的链接规则,取得了较好的本体实例匹配结果。  相似文献   

3.
目的在多标签有监督学习框架中,构建具有较强泛化性能的分类器需要大量已标注训练样本,而实际应用中已标注样本少且获取代价十分昂贵。针对多标签图像分类中已标注样本数量不足和分类器再学习效率低的问题,提出一种结合主动学习的多标签图像在线分类算法。方法基于min-max理论,采用查询最具代表性和最具信息量的样本挑选策略主动地选择待标注样本,且基于KKT(Karush-Kuhn-Tucker)条件在线地更新多标签图像分类器。结果在4个公开的数据集上,采用4种多标签分类评价指标对本文算法进行评估。实验结果表明,本文采用的样本挑选方法比随机挑选样本方法和基于间隔的采样方法均占据明显优势;当分类器达到相同或相近的分类准确度时,利用本文的样本挑选策略选择的待标注样本数目要明显少于采用随机挑选样本方法和基于间隔的采样方法所需查询的样本数。结论本文算法一方面可以减少获取已标注样本所需的人工标注代价;另一方面也避免了传统的分类器重新训练时利用所有数据所产生的学习效率低下的问题,达到了当新数据到来时可实时更新分类器的目的。  相似文献   

4.
当标识示例的两个标签分别来源于两个标签集时,这种多标签分类问题称之为标签匹配问题,目前还没有针对标签匹配问题的学习算法。 尽管可以用传统的多标签分类学习算法来解决标签匹配问题,但显然标签匹配问题有其自身特殊性。 通过对标签匹配问题进行深入的研究,在连续AdaBoost(real Adaptive Boosting)算法的基础上,基于整体优化的思想,采用算法适应的方法,提出了基于双标签集的标签匹配集成学习算法,该算法能够较好地学习到标签匹配规律从而完成标签匹配。 实验结果表明,与传统的多标签学习算法用于解决标签匹配问题相比,提出的新算法不仅缩小了搜索的标签空间的范围,而且最小化学习误差可以随着分类器个数的增加而降低,进而使得标签匹配分类更加快速、准确。  相似文献   

5.
徐苏平  杨习贝  祁云嵩 《计算机应用》2015,35(11):3218-3221
在多标记学习中,由于不同的标记可能会带有自身的一些特性,所以目前已经出现了基于标记类属属性的多标记学习算法LIFT.然而,类属属性的构建可能会增加属性向量的维度,致使属性空间存在冗余信息.为此,借助模糊粗糙集提出了一种能够进行类属属性约简的多标记学习算法FRS-LIFT,其包含4个步骤:类属属性构建、属性维度约简、分类模型训练和未知样本预测.在5个多标记数据集上的实验结果表明,该算法与LIFT算法相比,不仅能够降低类属属性维数,而且在5种多标记评价指标上均具有较好的实验效果.  相似文献   

6.
李航  王进  赵蕊 《智能系统学报》2017,12(5):624-639
近年来,多标签学习在图像识别和文本分类等多个领域得到了广泛关注,具有越来越重要的潜在应用价值。尽管多标签学习的发展日新月异,但仍然存在两个主要挑战,即如何利用标签间的相关性以及如何处理大规模的多标签数据。针对上述问题,基于MLHN算法,提出一种能有效利用标签相关性且能处理大数据集的基于Spark的多标签超网络集成算法SEI-MLHN。该算法首先引入代价敏感,使其适应不平衡数据集。其次,改良了超网络演化学习过程,并优化了损失函数,降低了算法时间复杂度。最后,进行了选择性集成,使其适应大规模数据集。在11个不同规模的数据集上进行实验,结果表明,该算法具有较好的分类性能,较低的时间复杂度且具备良好的处理大规模数据集的能力。  相似文献   

7.
语音识别模型需要大量带标注语音语料进行训练,作为少数民族语言的藏语,由于语音标注专家十分匮乏,人工标注语音语料是一件非常费时费力的工作。然而,主动学习方法可以根据语音识别的目标从大量未标注的语音数据中挑选一些具有价值的样本交给用户进行标注,以便利用少量高质量的训练样本构建与大数据量训练方式一样精准的识别模型。研究了基于主动学习的藏语拉萨话语音语料选择方法,提出了一种临近最优的批量样本选择目标函数,并验证了其具有submodular函数性质。通过实验验证,该方法能够使用较少的训练数据保证语音识别模型的精度,从而减少了人工标注语料的工作量。  相似文献   

8.
针对现有多标签特征选择方法存在的两个问题:第一,忽略了学习标签相关性过程中噪声信息的影响;第二,忽略探索每个簇的综合标签信息,提出一种增强学习标签相关性的多标签特征选择方法。首先,对样本进行聚类,并将每个簇中心视为一个综合样本语义信息的代表性实例,同时计算其对应的标签向量,而这些标签向量体现了每个簇包含不同标签的重要程度;其次,通过原始样本和每个簇中心的标签级自表示,既捕获了原始标签空间中的标签相关性,又探索了每一个簇内的标签相关性;最后,对自表示系数矩阵进行稀疏处理,以减少噪声的影响,并将原始样本和每个簇代表性实例分别从特征空间映射到重构标签空间进行特征选择。在9个多标签数据集上的实验结果表明,所提的算法与其他方法相比具有更好的性能。  相似文献   

9.
现有的多标记学习技术大多只考虑了相关性学习问题而忽略了数据因变换而引起的结构性质不一致问题,导致原始特征数据的结构性质因映射变换发生改变,从而影响了模型的分类性能。为了解决这一问题,提出了基于结构性质保持和相关性学习的多标记分类算法。首先,构造了线性映射函数以实现特征空间与标记空间的映射;然后借鉴图正则化思想,引入基于特征数据的结构性质保持策略以降低特征数据因线性变换引起的结构性质差异;最后,针对标记数据引入基于标记对的相关性学习策略进一步优化算法参数,以提高模型的分类性能。在不同规模的标准数据集上进行测试,结果表明所提算法与一些流行的多标记分类算法相比具有更优的分类性能,验证了所提算法的有效性。  相似文献   

10.
针对现有的多标记迁移学习忽略条件分布而导致泛化能力不足的问题,设计了一种基于联合分布的多标记迁移学习(Multi-label Transfer Learning via Joint Distribution Alignment,J-MLTL)。分解原始特征生成特征子空间,在子空间中计算条件分布的权重系数,最小化跨领域数据的边际分布和条件分布差异;此外,为了防止标记内部结构信息损失,利用超图对具有多个相同标签的数据进行连接,保持领域内几何流行结构不受领域外知识结构的影响,进一步最小化领域间的分布差异。实验结果表明,相比于已有多标记迁移学习算法在分类精度方面具有显著提升。  相似文献   

11.
现有的多标签学习算法往往只侧重于实例空间到标签空间的正向投影,正向投影时由于特征维数降低所产生的实例空间信息丢失的问题往往被忽略。针对以上问题,提出一种基于双向映射学习的多标签分类算法。首先,利用实例空间到标签空间的正向映射损失建立线性多标签分类模型;然后,在模型中引入重构损失正则项构成双向映射模型,补偿由于正向映射时导致的鉴别信息的丢失;最后,将双向映射模型结合标签相关性和实例相关性充分地挖掘标签之间、实例之间的潜在关系,并利用非线性核映射提高模型对非线性数据的处理能力。实验结果表明,与近年来的其他几种方法相比,该方法在汉明损失、一次错误率和排序损失上的性能平均提升17.68%、17.01%、18.57%;在六种评价指标上的性能平均提升了12.37%,验证了模型的有效性。  相似文献   

12.
在多标记学习中,特征选择是处理数据高维问题和提升分类性能的一种有效手段,然而现有特征选择算法大多是基于标记分布大致平衡这一假设,鲜有考虑标记分布不平衡的问题。针对这一问题,本文提出了一种边缘标记弱化的多标记特征选择算法(Multi-label feature selection algorithm with weakening marginal labels,WML),计算不同标记下正负标记的频数比率作为该标记的权值,然后通过赋权方式弱化边缘标记,将标记空间信息融入到特征选择的过程中,得到一组更为高效的特征序列,提升标记对样本描述的精确性。在多个数据集上的实验结果表明,本文算法具有一定优势,通过稳定性分析和统计假设检验进一步证明本文算法的有效性和合理性。  相似文献   

13.
针对多标记学习中特征噪声和标记噪声经常共同出现的问题,提出了一种图趋势过滤诱导的噪声容错多标记学习模型(GNTML).该模型通过组稀疏约束桥接增强的标记,从而同时容忍特征噪声和标记噪声.模型的关键之处在于标记增强矩阵的学习.为了在混合噪声场景下学习到合理的标记增强矩阵,首先通过引入图趋势过滤(GTF)机制来容忍含噪示例...  相似文献   

14.
样本标记是一个重要但又比较耗时的过程。得到一个多标签分类器需要大量的训练样本,而手工为每个样本创建多个标签会存在一定困难。为尽可能降低标记样本的工作量,提出一种加权决策函数的主动学习方法,该方法同时考虑训练样本的数量和未知样本的置信度,使得分类器能在最小的成本下最快地达到比较满意的分类精度。  相似文献   

15.
用于多标记学习的阈值确定算法   总被引:1,自引:0,他引:1  
秦锋  黄俊  程泽凯 《计算机工程》2010,36(21):214-216
提出一种多标记学习阈值确定算法(DTML),为每个类别标记确定一个阈值。当分类器将一个测试示例预测为某个类别标记的分值大于该类别标记的阈值时,则将该类别标记添加到该测试示例的最终分类结果中。该算法采用编程实现,并将其应用于PT5方法和TML算法。实验结果表明,利用DTML算法为多标记学习算法确定阈值,能够得到较好的分类效果。  相似文献   

16.
王一宾    裴根生  程玉胜   《智能系统学报》2019,14(4):831-842
将正则化极限学习机或者核极限学习机理论应用到多标记分类中,一定程度上提高了算法的稳定性。但目前这些算法关于损失函数添加的正则项都基于L2正则,导致模型缺乏稀疏性表达。同时,弹性网络正则化既保证模型鲁棒性且兼具模型稀疏化学习,但结合弹性网络的极限学习机如何解决多标记问题鲜有研究。基于此,本文提出一种对核极限学习机添加弹性网络正则化的多标记学习算法。首先,对多标记数据特征空间使用径向基核函数映射;随后,对核极限学习机损失函数施加弹性网络正则项;最后,采用坐标下降法迭代求解输出权值以得到最终预测标记。通过对比试验和统计分析表明,提出的算法具有更好的性能表现。  相似文献   

17.
李绍园  姜远 《软件学报》2020,31(5):1497-1510
传统的多标记学习任务要求训练数据拥有完整的或者至少部分的真实标记,而真实标记耗费昂贵并且难以获取.不同于由昂贵受限的专家标注真实标记,众包环境下,多标记任务被分配给多个容易获取的非专家标注,学习目标是从有错误的非专家标注中估计样本的真实标记.这一问题的关键在于如何融合非专家标注.以往的众包学习主要集中在单标记任务上,忽视了多标记任务的标记相关性;而多标记任务上的众包工作集中在局部标记相关性的利用如标记共同出现的概率,标记间条件相关性,其估计很敏感地受到标记数量和质量的影响.考虑到多标记任务上多个标注者的标注结果整体上存在低秩结构关系,提出一种基于低秩张量矫正的方法.首先,将标注结果组织成三维的张量(样本,标记,标注者),用低秩张量补全的方法对收集到的标注做预处理,以同时达到两个目的:1)优化已有标注;2)补全标注者在其未标注的标记上的标注结果.然后,对所有标注融合,测试了3种融合方法,分别从不同的方面考虑标注的置信度.真实数据上的实验结果验证了所提方法的有效性.  相似文献   

18.
Transfer active learning, which is an emerging learning paradigm, aims to actively select informative instances with the aid of transferred knowledge from related tasks. Recently, several studies have addressed this problem. However, how to handle the distributional differences between the source and target domains remains an open problem. In this paper, a novel transfer active learning algorithm is proposed, inspired by the classical query by committee algorithm. Diverse committee members from both domains are maintained to improve the classification accuracy and a mechanism is included to evaluate each member during the iterations. Extensive experiments on both synthetic and real datasets show that our algorithm performs better and is also more robust than the state-of-the-art methods.  相似文献   

19.
张晨光  张燕  张夏欢 《自动化学报》2015,41(9):1577-1588
针对现有多标记学习方法大多属于有监督学习方法, 而不能有效利用相对便宜且容易获得的大量未标记样本的问题, 本文提出了一种新的多标记半监督学习方法, 称为最大规范化依赖性多标记半监督学习方法(Normalized dependence maximization multi-label semi-supervised learning method). 该方法将已有标签作为约束条件,利用所有样本, 包括已标记和未标记样本,对特征集和标签集的规范化依赖性进行估计, 并以该估计值的最大化为目标, 最终通过求解带边界的迹比值问题为未标记样本打上标签. 与其他经典多标记学习方法在多个真实多标记数据集上的对比实验表明, 本文方法可以有效从已标记和未标记样本中学习, 尤其是已标记样本相对稀少时,学习效果得到了显著提高.  相似文献   

20.
多标记学习主要用于解决因单个样本对应多个概念标记而带来的歧义性问题,而半监督多标记学习是近年来多标记学习任务中的一个新的研究方向,它试图综合利用少量的已标记样本和大量的未标记样本来提高学习性能。为了进一步挖掘未标记样本的信息和价值并将其应用于文档多标记分类问题,该文提出了一种基于Tri-training的半监督多标记学习算法(MKSMLT),该算法首先利用k近邻算法扩充已标记样本集,结合Tri-training算法训练分类器,将多标记学习问题转化为标记排序问题。实验表明,该算法能够有效提高文档分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号