首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
2.
针对有监督排序学习所需带标记训练数据集不易获得的情况,引入众包这种新型大众网络聚集模式来完成标注工作,为解决排序学习所需大量训练数据集标注工作耗时耗力的难题提供了新的思路。首先介绍了众包标注方法,着重提出两种个人分类器模型来解决众包结果质量控制问题,同时考虑标注者能力和众包任务的难度这两个影响众包质量的因素。再基于得到的训练集使用RankingSVM进行排序学习并在微软OHSUMED数据集上衡量了该方法在NDCG@n评价准则下的性能。实验结果表明该众包标注方法能够达到95%以上的正确率,所得排序模型的性能基本和RankingSVM算法持平,从而验证了众包应用于排序学习的可行性和优越性。  相似文献   

3.
李绍园  姜远 《软件学报》2020,31(5):1497-1510
传统的多标记学习任务要求训练数据拥有完整的或者至少部分的真实标记,而真实标记耗费昂贵并且难以获取.不同于由昂贵受限的专家标注真实标记,众包环境下,多标记任务被分配给多个容易获取的非专家标注,学习目标是从有错误的非专家标注中估计样本的真实标记.这一问题的关键在于如何融合非专家标注.以往的众包学习主要集中在单标记任务上,忽视了多标记任务的标记相关性;而多标记任务上的众包工作集中在局部标记相关性的利用如标记共同出现的概率,标记间条件相关性,其估计很敏感地受到标记数量和质量的影响.考虑到多标记任务上多个标注者的标注结果整体上存在低秩结构关系,提出一种基于低秩张量矫正的方法.首先,将标注结果组织成三维的张量(样本,标记,标注者),用低秩张量补全的方法对收集到的标注做预处理,以同时达到两个目的:1)优化已有标注;2)补全标注者在其未标注的标记上的标注结果.然后,对所有标注融合,测试了3种融合方法,分别从不同的方面考虑标注的置信度.真实数据上的实验结果验证了所提方法的有效性.  相似文献   

4.
刘渊  李秀珍  陈彦 《计算机应用研究》2008,25(12):3739-3740
目前对于拒绝服务攻击 (DoS)和分布式拒绝服务攻击(DDoS),概率包标记(PPM)和高级包标记方案(AMS)是有效的IP追踪技术,但其存在很大的误报率,不能快速追踪到攻击者。在AMS的基础上改进了包标记方法,合理假设在一个自治系统中,采用节点标记方法,经理论分析能降低误报率;经实验验证用较少的数据包就可以快速准确地定位到攻击者。  相似文献   

5.
随着互联网的高速发展,移动终端设备产生的众包图片可以用在许多重要应用场景当中以获得有效的信息。例如地震后现场区域的修复、重大事故的处理。但是,这些应用场景往往都会有资源限制的问题,如带宽、终端的存储与处理能力等等,这就限制了形成众包图片的数量。因此,如何在资源有限的情况下,从众包图片中实现目标的最佳还原是一个巨大挑战。通过采集与处理图片的地理和几何数据,形成图片的元数组,在限制计算资源的条件下,提出了一种以元数据为输入的众包图片效用最优选择算法,以实现目标的最佳还原。算法的输入是元数据而非像素,所以在资源有限的应用场景中能够高效地分析众包。采用图片的效用来衡量目标区域被覆盖的程度,并提出了图片效用计算方法。最后设计了仿真实验,实验结果验证了算法的有效性与优越性。  相似文献   

6.
郭涛  李贵洋  兰霞 《计算机工程与设计》2014,(5):1807-1810,1832
为解决分类器训练过程中由于无标记数据的引入,容易产生噪音、降低分类精度的问题,提出了基于遗传算法的噪声过滤协同训练算法(CGA)。充分利用遗传算法的寻优功能,产生高适应度的分类规则,达到辅助协同训练算法挑选有价值的无标记数据,降低噪音的引入,确保参与协同训练分类器的精度和性能得到有效更新的目的。在UCI数据集上的实验验证了该算法的有效性。  相似文献   

7.
张永棠 《计算机应用研究》2019,36(9):2588-2589,2595
为提高移动众包系统的有效性和可靠性,设计了一套完整的在线激励机制优化算法,针对用户到达和参与任务的异步行为,提出一种改进的多阶段反向拍卖算法,通过在线学习自适应确定密度阈值,动态选择最优用户集,并在每次交易后对用户的信誉进行更新,以指导下次任务分配。仿真结果表明,该优化算法满足计算有效性、利益双方正收益性和真实性,能在一定预算和时间约束下获得更好的性能。  相似文献   

8.
9.
分布式拒绝服务(DDoS)攻击是目前最难处理的网络难题之一,研究人员针对分布式拒绝服务攻击提出了多种方案,这些方案都各有优缺点.其中由Savage等人提出的概率包标记方案受到了广泛的重视,并在此基础上T.Peng等人提出了自适应概率包标记方案APPM算法.利用TTL域改进了一种自适应策略,经实验验证受害者用较少的数据包即可重构出攻击路径,有效地减少了重构路径的计算量,这为受害者及早地响应攻击争取了更多的时间.  相似文献   

10.
《软件》2019,(4):159-161
本文提出一种鲁棒低秩近似算法(ROLA)来学习标注者之间潜在的相似性,进而解决标注数据集中的噪声。ROLA通过构造一个低秩矩阵模型,来捕获标签中的潜在相关信息,与问题的潜在特征向量。实验结果表明,ROLA在四个数据集上的准确率最高。并且与现有算法相比,在优化时间上也存在相应优势。  相似文献   

11.
回归任务中的数值型标签噪声可能误导模型训练,进而弱化模型泛化能力.作为一种常用的标签噪声处理技术,噪声过滤通过去除误标记样本来降低噪声水平,但无法保证过滤后模型能够获得更好的泛化表现.一些过滤算法过于关注噪声水平,以至于大量无噪样本也被去除.尽管已有样本过滤框架能够平衡样本去除量和噪声水平,但其形式过于复杂不利于直观理解和实际应用.根据无噪回归任务中的学习理论提出了面向数值型标签噪声数据的泛化误差界,从而明确了影响模型泛化能力的关键数据因素(数据量和噪声水平).在此基础上提出一种可解释的噪声过滤框架,其目标是以较小的样本去除代价最大程度地降低噪声水平.针对噪声估计问题,从理论上分析了噪声与覆盖区间关键指标(中心和半径)之间的变化趋势,进而构建了相对噪声估计方法.此方法与所提框架结合形成了相对噪声过滤(relative noise filtering, RNF)算法.在标准数据集和年龄估计数据上均验证了算法的有效性.实验结果表明:该算法能够适应各类噪声数据,显著提升模型泛化能力.在年龄估计数据上RNF算法检测出一些标签噪声数据,有效提升了数据质量和模型预测性能.  相似文献   

12.
机器学习中,训练样本的标签质量严重影响着分类算法的最终效果.虽然干净的标签产生的效果相对来说比较好,但是采集和使用时却费时费力.因此为了节约成本,同时也为了使模型能够适应于一般情况,研究人员逐渐开始针对普通类数据进行学习,即带有标签噪声的数据.虽然近些年有些许著作专门针对标签噪声进行研究,但是缺乏对其的全面分析.基于此...  相似文献   

13.
行人再识别技术目前逐步被应用于视频监控、智能安防等领域。监控设备与日俱增,给研究工作提供了海量数据支持,但人工标注或检测器识别难以避免地引入带有噪声的数据标签。在进行大规模深度神经网络训练时,伴随数据量增加,标签的噪声给模型训练带来不可忽视的损害。为解决行人再识别的噪声标签问题,本文结合噪声、非噪声数据训练差异化特征,提出一种噪声标签自适应的行人再识别方法,不需要使用额外的验证集以及噪声比例、类型等先验信息,完成对噪声数据的筛选过滤。此外,本文方法自适应地学习噪声样本权重,进一步降低噪声影响。在含噪声的Market1501、DukeMTMC-reID两个数据集上,主流模型受噪声影响严重,本文提出的方法可以在此基础上提高约10%的平均精度。  相似文献   

14.
疾病风险预测能够筛查易患人群, 并在早期进行预防干预措施以降低疾病的发生率及死亡率. 随着机器学习技术的快速发展, 基于机器学习的疾病风险预测得到了广泛应用. 然而, 机器学习十分依赖于高质量的标注信息, 医疗数据中存在的标签噪声会给构建高性能的疾病风险预测算法带来严峻挑战. 针对这一问题, 本文提出了一种基于深度神经网络和动态截断损失函数的噪声鲁棒学习方法用于疾病风险预测. 该方法引入动态截断损失函数, 融合了传统交叉熵函数的隐式加权特性和均方差损失函数的标签噪声鲁棒性; 通过构造训练损失下界, 并引入样本动态加权机制减小可疑样本的梯度, 限制可能的带噪样本在训练过程中的权重, 进一步增强模型的鲁棒性. 以脑卒中筛查数据集为例进行实验, 结果表明本文算法在各个标签噪声比例下均能取得良好的预测性能, 可降低疾病风险预测中标签噪声的负面影响, 实现了带有标签噪声数据的鲁棒学习.  相似文献   

15.
多标记学习(multi-label learning, MLL)任务处理一个示例对应多个标记的情况,其目标是学习一个从示例到相关标记集合的映射.在MLL中,现有方法一般都是采用均匀标记分布假设,也就是各个相关标记(正标记)对于示例的重要程度都被当作是相等的.然而,对于许多真实世界中的学习问题,不同相关标记的重要程度往往是不同的.为此,标记分布学习将不同标记的重要程度用标记分布来刻画,已经取得很好的效果.但是很多数据中却仅包含简单的逻辑标记而非标记分布.为解决这一问题,可以通过挖掘训练样本中蕴含的标记重要性差异信息,将逻辑标记转化为标记分布,进而通过标记分布学习有效地提升预测精度.上述将原始逻辑标记提升为标记分布的过程,定义为面向标记分布学习的标记增强.首次提出了标记增强这一概念,给出了标记增强的形式化定义,总结了现有的可以用于标记增强的算法,并进行了对比实验.实验结果表明:使用标记增强能够挖掘出数据中隐含的标记重要性差异信息,并有效地提升MLL的效果.  相似文献   

16.
分类任务中含有类别型标签噪声是传统数据挖掘中的常见问题, 目前还缺少针对性方法来专门检测类别型标签噪声. 离群点检测技术能用于噪声的识别与过滤, 但由于离群点与类别型标签噪声并不具有一致性, 使得离群点检测算法无法精确检测分类数据集中的标签噪声. 针对这些问题, 提出一种基于离群点检测技术、适用于过滤类别型标签噪声的方法 —— 基于相对离群因子(Relative outlier factor, ROF)的集成过滤方法(Label noise ensemble filtering method based on relative outlier factor, EROF). 首先, 通过相对离群因子对样本进行噪声概率估计; 然后, 再迭代联合多种离群点检测算法, 实现集成过滤. 实验结果表明, 该方法在大多数含有标签噪声的数据集上, 都能保持优秀的噪声识别能力, 并显著提升各种分类模型的泛化能力.  相似文献   

17.
针对标签信息不完整的多标签分类问题,一种新的多标签算法MCWD被提出。它通过有效地恢复训练数据中缺失的标签信息,能够产生更好的分类结果。在训练阶段,MCWD通过迭代更新每个训练实例的权重以及利用两两标签之间的相关性来恢复训练数据中缺失的标签信息;在标签恢复完毕后,利用新得到的训练集来训练分类模型;用此模型对测试集进行预测。实验结果表明,该算法在14个多标签数据集上具有一定的优势。  相似文献   

18.
多标签学习是一种非常重要的机器学习范式.传统的多标签学习方法是在监督或半监督的情况下设计的.通常情况下,它们需要对所有或部分数据进行准确的属于多个类别的标注.在许多实际应用中,拥有大量标注的标签信息往往难以获取,限制了多标签学习的推广和应用.与之相比,标签相关性作为一种常见的弱监督信息,它对标注信息的要求较低.如何利用标签相关性进行多标签学习,是一个重要但未研究的问题.提出了一种利用标签相关性作为先验的弱监督多标签学习方法(WSMLLC).该模型利用标签相关性对样本相似性进行了重述,能够有效地获取标签指示矩阵;同时,利用先验信息对数据的投影矩阵进行约束,并引入回归项对指示矩阵进行修正.与现有方法相比,WSMLLC模型的突出优势在于:仅提供标签相关性先验,就可以实现多标签样本的标签指派任务.在多个公开数据集上进行实验验证,实验结果表明:在标签矩阵完全缺失的情况下,WSMLLC与当前先进的多标签学习方法相比具有明显优势.  相似文献   

19.
多标签学习广泛应用于文本分类、图像标注、视频语义注释、基因功能分析等问题.最近,多标签学习受到大量的关注,成为机器学习领域中的研究热点.然而,已有的算法并不能充分地探究标签之间的依赖关系和解决标签缺失问题,为此提出一种基于神经网络探究标签依赖关系的算法NN_AD_Omega,它能够有效地处理这2个挑战.NN_AD_Omega算法在神经网络顶层加入Ω矩阵刻画标签之间的依赖关系,标签之间的依赖关系可通过充分挖掘数据内在特点得到.当实例部分标签缺失时,学到的标签之间依赖关系能够有效提高预测效果.为了高效地求解模型,采用最小批梯度下降方法(Mini-batch-GD),其中学习率的自适应计算采用AdaGrad技术.在4个标准多标签数据集上的实验结果表明,提出的算法能够探究标签之间的依赖关系和处理标签缺失问题,且其性能优于当前基于神经网络的多标签学习算法.  相似文献   

20.
在弱监督信息条件下进行学习已成为大数据时代机器学习领域的研究热点,偏标记学习是最近提出的一种重要的弱监督学习框架,主要解决在只知道训练样本的真实标记属于某个候选标记集合的情况下如何进行学习的问题,在很多领域都具有广泛应用.最大值损失函数可以很好地描述偏标记学习中的样本与候选标记间的关系,但是由于建立的模型通常是一个难以求解的非光滑函数,目前还没有建立基于该损失函数的偏标记学习算法.此外,已有的偏标记学习算法都只能处理样本规模比较小的问题,还没看到面向大数据的算法.针对以上2个问题,先利用凝聚函数逼近最大值损失函数中的max(·)将模型的目标函数转换为一个光滑的凹函数,然后利用随机拟牛顿法对其进行求解,最终实现了一种基于最大值损失函数的快速偏标记学习算法.仿真实验结果表明,此算法不仅要比基于均值损失函数的传统算法取得更好的分类精度,运行速度上也远远快于这些算法,处理样本规模达到百万级的问题只需要几分钟.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号