共查询到19条相似文献,搜索用时 62 毫秒
1.
针对当前半监督集成学习算法对无标记样本预测时容易出现的标注混沌问题,文中提出基于分类风险的半监督集成学习算法(Classification Risk-Based Semi-supervised Ensemble Learning Algorithm, CR-SSEL).采用分类风险作为无标记样本置信度的评判标准,可有效衡量样本标注的不确定性程度.迭代地训练分类器,对高置信度样本进行再强化,使样本标注的不确定性逐渐降低,增强半监督集成学习算法的分类性能.在多个标准数据集上验证CR-SSEL的学习参数影响、训练过程收敛和泛化性能提升,实验表明随着基分类器个数的增加,CR-SSEL的训练过程呈收敛趋势,获得较优的分类精度. 相似文献
2.
提出一种应用于回归问题,以分类回归树为基学习器,并综合Boosting和Bagging算法的特点,利用变相似度聚类技术和贪婪算法来进行选择性集成学习的算法——SER-BagBoosting Trees算法。将其与几种常用的机器学习算法进行比较研究,得出该算法往往比其他集成学习算法具有更好的泛化性能和更高的运行效率。 相似文献
3.
半监督集成是将半监督学习与集成学习相结合的一种学习范式,它一方面通过无标记样本来提高集成学习的多样性,同时解决集成学习样本量不足的问题,另一方面集成多个分类器能够进一步提升半监督学习模型的性能.现有的研究从理论和实践两个角度证明了半监督学习与集成学习之间的互益性.针对当前半监督集成学习算法对无标记样本信息利用不完全的缺陷,文中提出了一种新的基于分类不确定性最小化的半监督集成学习(Classification Uncertainty Minimization-Based Semi-Supervised Ensemble Learning,CUM-SSEL)算法,它引入信息熵作为对无标记样本进行打标的置信度评判标准,通过最小化无标记样本打标过程中的不确定性迭代地训练分类器,实现对无标记样本的高效利用,以增强分类器的泛化性能.在标准的实验数据集上对CUM-SSEL算法的可行性、合理性和有效性进行了验证,实验表明:随着基分类器的增加,CUM-SSEL算法的训练呈现收敛的趋势,同时它能够获得优于 Self-Training,Co-Training,Tri-Training,Semi-Boost,Vote-Training,Semi-Bagging 以及CST-Voting算法的分类精度. 相似文献
4.
半监督集成学习综述 总被引:3,自引:0,他引:3
半监督学习和集成学习是目前机器学习领域中两个非常重要的研究方向,半监督学习注重利用有标记样本与无标记样本来获得高性能分类器,而集成学习旨在利用多个学习器进行集成以提升弱学习器的精度。半监督集成学习是将半监督学习和集成学习进行组合来提升分类器泛化性能的机器学习新方法。首先,在分析半监督集成学习发展过程的基础上,发现半监督集成学习起源于基于分歧的半监督学习方法;然后,综合分析现有半监督集成学习方法,将其分为基于半监督的集成学习与基于集成的半监督学习两大类,并对主要的半监督集成方法进行了介绍;最后,对现有研究进了总结,并讨论了未来值得研究的问题。 相似文献
5.
6.
基于半监督学习的数据流混合集成分类算法 总被引:1,自引:0,他引:1
当前已有的数据流分类模型都需要大量已标记样本来进行训练,但在实际应用中,对大量样本标记的成本相对较高。针对此问题,提出了一种基于半监督学习的数据流混合集成分类算法SMEClass,选用混合模式来组织基础分类器,用K个决策树分类器投票表决为未标记数据添加标记,以提高数据类标的置信度,增强集成分类器的准确度,同时加入一个贝叶斯分类器来有效减少标记过程中产生的噪音数据。实验结果显示,SMEClass算法与最新基于半监督学习的集成分类算法相比,其准确率有所提高,在运行时间和抗噪能力方面有明显优势。 相似文献
7.
把流形学习与半监督学习相结合,研究了流形上的半监督回归问题.简要介绍了半监督流形学习的Laplacian正则化框架,在此基础上推导了基于一类广义损失函数的Laplacian半监督回归,它能够利用数据所在流形的内在几何结构进行回归估计.具体给出了线性ε-不敏感损失函数,二次ε-不敏感损失函数和Huber损失函数的Laplacian半监督回归算法,在模拟数据和Boston Housing数据上对算法进行了实验,并对实验结果进行了分析.这些结果将为进一步深入研究半监督流形回归问题提供一些可借鉴的积累. 相似文献
8.
在监督或半监督学习的条件下对数据流集成分类进行研究是一个很有意义的方向.从基分类器、关键技术、集成策略等三个方面进行介绍,其中,基分类器主要介绍了决策树、神经网络、支持向量机等;关键技术从增量、在线等方面介绍;集成策略主要介绍了boosting、stacking等.对不同集成方法的优缺点、对比算法和实验数据集进行了总结与分析.最后给出了进一步研究方向,包括监督和半监督学习下对于概念漂移的处理、对于同质集成和异质集成的研究,无监督学习下的数据流集成分类等. 相似文献
9.
基于集成学习的半监督情感分类方法研究 总被引:1,自引:0,他引:1
情感分类旨在对文本所表达的情感色彩类别进行分类的任务。该文研究基于半监督学习的情感分类方法,即在很少规模的标注样本的基础上,借助非标注样本提高情感分类性能。为了提高半监督学习能力,该文提出了一种基于一致性标签的集成方法,用于融合两种主流的半监督情感分类方法:基于随机特征子空间的协同训练方法和标签传播方法。首先,使用这两种半监督学习方法训练出的分类器对未标注样本进行标注;其次,选取出标注一致的未标注样本;最后,使用这些挑选出的样本更新训练模型。实验结果表明,该方法能够有效降低对未标注样本的误标注率,从而获得比任一种半监督学习方法更好的分类效果。 相似文献
10.
11.
利用流形正则化的思想,围绕半监督学习,提出了一种针对流形正则化的模式分类和回归分析的新算法.该算法基于流形上的正则化项和传统的正则化项相结合的方法,利用支持向量机分类与回归已有的结果,解决半监督学习的分类与回归问题,提高了泛化能力.该算法实现简单,无需调用其他程序.通过数值试验,验证了该算法具有较好的泛化能力,对噪音具有较强的鲁棒性.且在分类问题上,该算法在输入极少数有标签样本时,也能保持较好的分类效果;在回归问题上,也具有较好的学习精度,尤其在输入带有噪音的流形数据上时,表现就更为突出. 相似文献
12.
根据汽车售后服务客户细分的目的,以及保修期内客户对车辆的保养情况,构建了RFMD客户细分指标模型。针对聚类集成算法能充分挖掘数据集的内在结构,以及半监督学习思想利用先验知识指导聚类的优势,将半监督谱聚类集成(SSSCE)算法应用于售后服务客户细分。与谱聚类(SC)算法和谱聚类集成(SCE)算法相比,SSSCE算法的客户细分结果较优。对用SSSCE算法细分得到的客户群进行特征分析,并给出相应的保养指导策略。 相似文献
13.
针对目前室内指纹定位算法存在实时性差、对动态环境适应性不足的问题,提出一种新的基于半监督极限学习机的定位算法.该算法首先通过半监督极限学习机建立初始化位置估计模型,然后利用新增的半标记数据对原定位模型进行动态调整,最后为新增训练数据分配合适惩罚权重,使模型具有时效机制.仿真结果表明,该定位算法在保证定位实时性的同时提高了对动态环境的适应性. 相似文献
14.
提出一种建立在局部最优基础上的动态集成选择算法,并从理论上对算法进行了分析.该算法首先在多个局部特征空间上构造最优集成,然后使用动态集成选择技术对未知样本进行识别.局部空间上的集成构造问题被转换为一个单目标优化问题,并使用多种群遗传算法进行了求解.基于UCI数据集的实验表明,相对于现有的动态分类器选择算法和动态集成选择算法,新算法能够取得更高的识别率.同时,相对于现有的动态集成选择算法,新算法构造的集成规模更小,识别速度更快. 相似文献
15.
16.
针对网络环境,提出了一种新的半监督聚类入侵检测算法,将主动学习策略应用于半监督聚类过程中,利用少量的标记数据,生成用于初始化算法的种子聚类,通过辅助聚类过程,根据网络数据的特点,检测已知和未知攻击。主动学习策略查询网络中未标记数据与标记数据的约束关系,对标记数据可以快速获得k个不相交的非空近邻集,经检测结果证明,改进了算法的性能,且表明了算法的可行性及有效性。 相似文献
17.
基于多核集成的在线半监督学习方法 总被引:1,自引:1,他引:1
在很多实时预测任务中,学习器需对实时采集到的数据在线地进行学习.由于数据采集的实时性,往往难以为采集到的所有数据提供标记.然而,目前的在线学习方法并不能利用未标记数据进行学习,致使学得的模型并不能即时反映数据的动态变化,降低其实时响应能力.提出一种基于多核集成的在线半监督学习方法,使得在线学习器即使在接收到没有标记的数据时也能进行在线学习.该方法采用多个定义在不同RKHS中的函数对未标记数据预测的一致程度作为正则化项,在此基础上导出了多核集成在线半监督学习的即时风险函数,然后借助在线凸规划技术进行求解.在UCl数据集上的实验结果以及在网络入侵检测上的应用表明,该方法能够有效利用数据流中未标记数据来提升在线学习的性能. 相似文献
18.
基于个体选择的动态权重神经网络集成方法研究 总被引:1,自引:0,他引:1
神经网络集成技术能有效地提高神经网络的预测精度和泛化能力,已成为机器学习和神经计算领域的一个研究热点。该文针对回归分析问题提出了一种结合应用遗传算法进行个体选择和动态确定结果合成权重的神经网络集成构造方法。在训练出个体神经网络之后,应用遗传算法对个体网络进行选择,然后根据被选择的各个体网络在输入空间上对训练样本的预测误差,应用广义回归网络来动态地确定各个体网络在特定输入空间上的合成权重。实验结果表明,与仅应用个体网络选择或动态确定权重的方法相比,该集成方法基本上能取得更好地预测精度和相近的稳定性。 相似文献
19.
针对基于频繁子图的图分类算法不能有效解决高效和分类正确率并存的矛盾,提出G-Bagging图分类算法。该算法利用传统图分类算法训练出多个基图分类器,集成学习加权构造集成分类器,余度管理实时更新权值。通过实验,表明G-Bagging算法降低了对最小支持度和训练样本空间大小的要求,即在算法效率提高的同时,保证了分类正确率。 相似文献