共查询到20条相似文献,搜索用时 78 毫秒
1.
一个好的核函数能提升机器学习模型的有效性,但核函数的选择并不容易,其与问题背景密切相关,且依赖于领域知识和经验。核学习是一种通过训练数据集寻找最优核函数的机器学习方法,能通过有监督学习的方式寻找到一组基核函数的最优加权组合。考虑到训练数据集获取标签的代价,提出一种基于标签传播的半监督核学习方法,该方法能够同时利用有标签数据和无标签数据进行核学习,通过半监督学习中被广泛使用的标签传播方法结合和谐函数获得数据集统一的标签分布。在UCI数据集上对提出的算法进行性能评估,结果表明该方法是有效的。 相似文献
2.
大多基于图的半监督学习方法,在样本间相似性度量时没有用到已有的和标签传播过程中得到的标签信息,同时,其度量方式相对固定,不能有效度量出分布结构复杂多样的数据样本间的相似性。针对上述问题,提出了基于标签进行度量学习的图半监督学习算法。首先,给定样本间相似性的度量方式,从而构建相似度矩阵。然后,基于相似度矩阵进行标签传播,筛选出k个低熵样本作为新确定的标签信息。最后,充分利用所有标签信息更新相似性度量方式,重复迭代优化直至学出所有标签信息。所提算法不仅利用标签信息改进了样本间相似性的度量方式,而且充分利用中间结果降低了半监督学习对标签数据的需求量。在6个真实数据集上的实验结果表明,该算法在超过95%的情况下相较三种传统的基于图的半监督学习算法取得了更高的分类准确率。 相似文献
3.
大多基于图的半监督学习方法,在样本间相似性度量时没有用到已有的和标签传播过程中得到的标签信息,同时,其度量方式相对固定,不能有效度量出分布结构复杂多样的数据样本间的相似性。针对上述问题,提出了基于标签进行度量学习的图半监督学习算法。首先,给定样本间相似性的度量方式,从而构建相似度矩阵。然后,基于相似度矩阵进行标签传播,筛选出k个低熵样本作为新确定的标签信息。最后,充分利用所有标签信息更新相似性度量方式,重复迭代优化直至学出所有标签信息。所提算法不仅利用标签信息改进了样本间相似性的度量方式,而且充分利用中间结果降低了半监督学习对标签数据的需求量。在6个真实数据集上的实验结果表明,该算法在超过95%的情况下相较三种传统的基于图的半监督学习算法取得了更高的分类准确率。 相似文献
4.
针对标记数据不足的多标签分类问题,提出一种新的半监督Boosting算法,即基于函数梯度下降方法给出一种半监督Boosting多标签分类的框架,并将非标记数据的条件熵作为一个正则化项引入分类模型。实验结果表明,对于多标签分类问题,新的半监督Boosting算法的分类效果随着非标记数据数量的增加而显著提高,在各方面都优于传统的监督Boosting算法。 相似文献
5.
《计算机应用与软件》2016,(1)
针对有监督排序学习所需训练集的大量标注数据不易获得的情况,引入基于图的标签传播半监督学习。利用有限的已标记数据和大量未标记数据来完成训练数据的自动标注工作,解决大量训练数据集标注工作耗时耗力的难题。首先以训练数据为节点建立εNN图模型实现标签传播算法进行训练数据的自动标注,再基于得到的训练集使用Ranking SVM实现排序学习,在OHSUMED数据集上衡量该方法在MAP和NDCG@n评价准则下的性能。实验结果表明,该方法的性能优于普通pointwise排序学习方法,略低于普通pairwise排序学习方法,能够在达到可用性要求的前提下节省接近60%的训练集标注工作量。 相似文献
6.
本文介绍了行人检测伪标签半监督学习算法.当前绝大多数关于行人检测领域的优秀研究都依赖于大量的人工标签数据.但是在实际应用中,人们往往会面临标签数据不足的困境,进而限制了很多优秀研究的应用和模型性能的提升.本文主要使用半监督学习算法训练行人检测模型,通过无标签数据来降低模型对人工标签数据的依赖和标注成本. 相似文献
7.
针对半监督聚类算法性能受到成对约束数量多寡的限制问题,现有的研究大都依赖于原始成对约束的数量。因此,首先提出了基于灰关联分析的成对约束初始化算法(initialization algorithm of pair constraints based on grey relational analysis,PCIG)。该算法通过均衡接近度计算数据对象间的相似度,并根据相似度的取值来确定可信区间,然后借鉴网络结构初始化方法来扩充数据对象间的成对关系。最后,将其应用于标签传播聚类算法。通过在五个基准数据集上进行实验,基于改进成对约束扩充的标签传播聚类算法与其他方法相比NMI值和ARI值有所提升。实验结果证明了改进成对约束扩充可以有效改善标签传播算法的聚类效果。 相似文献
8.
针对多标签传播重叠社区发现算法(COPRA)存在的社区划分结果准确性低和鲁棒性差的问题,提出一种基于成对约束的多标签传播重叠社区发现方法 (PCMLPA)。以主动查找、扩展的方式引入成对约束指导社区发现,提高社区划分结果的准确性。在标签传播的过程中,根据节点影响力大小确定节点更新顺序,根据节点的相似性度量确定邻居节点的遍历顺序,解决COPRA鲁棒性差的问题。与其它基准算法的对比实验结果表明,PCMLPA方法鲁棒性强且社区划分结果具有更高的准确性。 相似文献
9.
现有的基于图的半监督学习方法在本质上是属于模拟各种传播机制的标签传播方法。与现有的传播机制不同,尝试采用一种新的基于弹力的传播方法来实现半监督学习。基本思想是假设图中的每个节点以一定的弹性系数都接受其相邻节点的弹性力,并以另一个弹性系数将弹性力传递给相邻的节点。因此,两种类型的弹性力之间的差异可以度量每个节点的传播量。在此想法基础上,推导出图中所有节点的更新方程,并将这些方程表示为矩阵形式,进一步推导出其解析解。换句话说,该方法具有可靠的物理学基础。并从优化相应的目标函数角度出发,论证了该方法的基本原理,从而保证了该方法的收敛性。大量的实验结果验证了该方法在半监督学习中的有效性。 相似文献
10.
标签传播算法(LP)是一种基于图的半监督学习算法,通过保持数据间的某些特殊结构,将部分有标签数据的标签信息迭代传递给无标签数据,直至获得全局的稳定状态.结合标签传播算法和线性鉴别分析提出一种流形结构保持的传播半监督降维算法(SDRMPP),采用流行结构上的重构权重并结合已知的部分标签信息进行标签传播,利用传播后获得的全体软标签信息构造离散度矩阵实现鉴别分析,通过求解目标函数的最优值获得特征抽取空间,从而对测试样本进行分类.在Yale和Feret两个标准人脸库上实验验证了该算法的有效性,尤其在只存有少量有标签样本的情况下,该算法仍能保持良好的分类性能. 相似文献
11.
针对标签传播算法中存在的问题,将超松弛迭代引入标签传播算法,解决标签序列的优化问题,提出基于超松弛迭代的标签传播算法(ORLP).该算法使用正负标签的方式标记已知样本,通过在近邻点间学习分类的方式预测未知样本的标签信息,同时在每次迭代时都能较好地保留初始标记点的标签信息,以指导下一次的标签传递过程.基于超松弛迭代推导ORLP的标签传播公式,同时证明标签序列的收敛性,得到标签序列的收敛解.实验表明,ORLP具有较高的分类准确率和较快的收敛速度. 相似文献
12.
社交网络平台产生海量的短文本数据流,具有快速、海量、概念漂移、文本长度短小、类标签大量缺失等特点.为此,文中提出基于向量表示和标签传播的半监督短文本数据流分类算法,可对仅含少量有标记数据的数据集进行有效分类.同时,为了适应概念漂移,提出基于聚类簇的概念漂移检测算法.在实际短文本数据流上的实验表明,相比半监督分类算法和半监督数据流分类算法,文中算法不仅提高分类精度和宏平均,还能快速适应数据流中的概念漂移. 相似文献
13.
当未标记数据与有标记数据类别比例偏移较大时,半监督支持向量机性能不佳.基于此情况,文中提出面向类别比例偏移的半监督支持向量机方法.首先估计未标记数据类中心,然后对多个类别比例下的类中心进行最坏情况集成,从而提升半监督支持向量机的性能保障.实验表明,文中方法有效提升半监督支持向量机在类别比例偏移时的性能保障. 相似文献
14.
15.
针对时变信号模式分类和未标记样本信息的有效利用问题,提出了一种基于自组织过程神经网络的动态样本半监督学习算法。根据获得的已标记和未标记的过程函数样本信号,分别构建基于竞争学习规则和有教师示教方法的自组织过程神经网络模型,利用该网络的自组织特性,实现动态样本的分类标识。文中分析了算法的信息处理机制,给出了具体的实现步骤。以油田开发水淹状况判别为例,实验结果验证了方法的有效性。 相似文献
16.
针对时变信号模式分类和未标记样本信息的有效利用问题,提出了一种基于自组织过程神经网络的动态样本半监督学习算法。根据获得的已标记和未标记的过程函数样本信号,分别构建基于竞争学习规则和有教师示教方法的自组织过程神经网络模型,利用该网络的自组织特性,实现动态样本的分类标识。文中分析了算法的信息处理机制,给出了具体的实现步骤。以油田开发水淹状况判别为例,实验结果验证了方法的有效性。 相似文献
17.
为了提高预测的准确性,文中结合机器学习中堆积(Stacking)集成框架,组合多个分类器对标记分布进行学习,提出基于标记分布学习的异态集成学习算法(HELA-LDL).算法构造两层模型框架,通过第一层结构将样本数据采用组合方式进行异态集成学习,融合各分类器的学习结果,将融合结果输入到第二层分类器,预测结果是带有置信度的标记分布.在专用数据集上的对比实验表明,HELA-LDL可以发挥各种算法在不同场景下的性能较优,稳定性分析进一步说明算法的有效性. 相似文献
18.
解决偏标记问题的基本策略是消歧,现有的消歧策略大都分别对每个示例单独进行消歧,并未充分利用示例之间的相关性.基于此原因,文中提出一致性偏标记学习算法(COPAL).该算法基于一个基本假设:相似示例的标记也应该有相关性.基于该假设,COPAL在消歧过程中同时考虑样本自身及其近邻样本的标记信息.实验表明,在人工合成的UCI数据集和真实数据集上,COPAL均取得较好的泛化性能. 相似文献
19.
标签传播算法是一种常用的社区发现方法,具有近似线性的时间复杂度,但该算法存在随机性和不稳定性.为了解决标签传播算法存在的准确性低和稳定性差的问题,本文提出了基于节点重要性与相似性的标签传播算法(Label Propagation Algorithm based on node Importance and Similarity,LPA IS).首先,基于节点重要性提出种子节点集和算法更新序列的获取方法.其次,利用节点重要性与相似性提出了一种计算标签综合影响力的方法,任意节点根据其邻居标签的综合影响力更新自身的标签.在真实网络和人工合成网络上进行实验,结果表明,与其它5种典型标签传播类算法对比,LPA IS算法能够在一定程度上提高算法的准确性和稳定性,并且能够减少算法的迭代次数. 相似文献
20.
针对监控视频下低分辨率人脸识别中存在的特征表示能力不强及判别开集人脸图像身份不够准确的问题,文中提出低分辨率人脸图像的迭代标签传播识别算法.采用视觉几何组(VGG)提取人脸图像特征,依据特征的相似度获得高、低分辨率图像的映射关系.对已标记样本和未标记样本进行迭代标签传播,在每次迭代过程中,通过统计每个类别的置信度直方图,估计识别精确率逼近100%的自适应置信度阈值.根据阈值将确认的未标记样本更新至已标记样本集,提高算法召回率.在公共数据集上的实验表明,文中算法在精确率逼近100%的基础上,召回率取得较高值. 相似文献