共查询到18条相似文献,搜索用时 150 毫秒
1.
针对数据流集成分类如何使分类器适应不断变化的数据流,调整基分类器的权重选择合适的分类器集合的问题,提出了一种基于动态加权函数的集成分类算法。首先,提出了一种加权函数调节基分类器的权重,使用不断更新的数据块训练分类器;然后,使用一个新的权重函数对候选分类器进行一个合理的选择;最后,在基分类器中应用决策树的增量性质,实现对数据流的分类。通过大量实验发现,基于动态加权函数的集成分类算法的性能不受块的大小影响,与AUE2算法相比,叶子数平均减少了681.3、节点数平均减少了1 192.8,树的深度平均减少了4.42,同时相对地提高了准确率,降低了消耗时间。实验结果表明该算法在对数据流进行分类时不但可以保证准确率还可以节省大量的内存空间和时间。 相似文献
2.
提出一种新颖的基于Boosting模糊分类的文本分类方法。首先采用潜在语义索引(LSI)对文本特征进行选择;然后提出Boosting算法集成模糊分类器学习,在每轮迭代训练过程中,算法通过调整训练样本的分布,利用遗传算法产生分类规则。减少分类规则能够正确分类样本的权值,使得新产生的分类规则重点考虑难于分类的样本。实验结果表明,该文本分类算法具有良好分类的性能。 相似文献
3.
传统集成分类算法中,一般将集成数目设置为固定值,这可能会导致较低分类准确率。针对这一问题,提出了准确率爬坡集成分类算法(C-ECA)。首先,该算法不再用一些基分类器去替换相同数量的表现最差的基分类器,而是基于准确率对基分类器进行更新,然后确定最佳集成数目。其次,在C-ECA的基础上提出了基于爬坡的动态加权集成分类算法(C-DWECA)。该算法提出了一个加权函数,其在具有不同特征的数据流上训练基分类器时,可以获得基分类器的最佳权值,从而提升集成分类器的性能。最后,为了能更早地检测到概念漂移并提高最终精度,采用了快速霍夫丁漂移检测方法(FHDDM)。实验结果表明C-DWECA的准确率最高可达到97.44%,并且该算法的平均准确率比自适应多样性的在线增强(ADOB)算法提升了40%左右,也优于杠杆装袋(LevBag)、自适应随机森林(ARF)等其他对比算法。 相似文献
4.
详细介绍了国内外集成分类算法,对集成分类算法的两个部分(基分类器组合和动态更新集成模型)进行了详细综述,明确区分不同集成算法的优缺点,对比算法和实验数据集。并且提出进一步的研究方向和考虑的解决办法。 相似文献
5.
针对标记数据不足的多标签分类问题,提出一种新的半监督Boosting算法,即基于函数梯度下降方法给出一种半监督Boosting多标签分类的框架,并将非标记数据的条件熵作为一个正则化项引入分类模型。实验结果表明,对于多标签分类问题,新的半监督Boosting算法的分类效果随着非标记数据数量的增加而显著提高,在各方面都优于传统的监督Boosting算法。 相似文献
6.
基于Boosting算法的文本自动分类器设计 总被引:2,自引:0,他引:2
Boosting算法是目前流行的一种机器学习算法。采用一种改进的Boosting算法Adaboost.MHKR作为分类算法,设计了一个文本自动分类器,并给出了评估方法和结果。评价表明,该分类器有很好的分类精度。 相似文献
7.
8.
9.
10.
当前已有的数据流分类模型都需要大量已标记样本来进行训练,但在实际应用中,对大量样本标记的成本相对较高。针对此问题,提出了一种基于半监督学习的数据流混合集成分类算法SMEClass,选用混合模式来组织基础分类器,用K个决策树分类器投票表决为未标记数据添加标记,以提高数据类标的置信度,增强集成分类器的准确度,同时加入一个贝叶斯分类器来有效减少标记过程中产生的噪音数据。实验结果显示,SMEClass算法与最新基于半监督学习的集成分类算法相比,其准确率有所提高,在运行时间和抗噪能力方面有明显优势。 相似文献
11.
在进行组合决策时,已有的组合分类方法需要对多个组合分类器均有效的公共已知标签训练样本。为了解决在没有已知标签样本的情况下数据流组合分类决策问题,提出一种基于约束学习的数据流组合分类器的融合策略。在判定测试样本上的决策时,根据直推学习理论设计满足每一个局部分类器约束度量的方法,保证了约束的可行性,解决了分布式分类聚集时最大熵的直推扩展问题。测试数据集上的实验证明,与已有的直推学习方法相比,此方法可以获得更好的决策精度,可以应用于数据流组合分类的融合。 相似文献
12.
13.
14.
针对卷积神经网络提取特征信息不完整导致图像分类方法分类精度不高等问题,利用深度学习的方法搭建卷积神经网络模型框架,提出一种基于迭代训练和集成学习的图像分类方法。利用数据增强对图像数据集进行预处理操作,在提取图像特征时,采用一种迭代训练卷积神经网络的方式,得到充分有效的图像特征,在训练分类器时,采用机器学习中集成学习的思想。分别在特征提取后训练分类器,根据各分类器贡献的大小,赋予它们不同的权重值,取得比单个分类器更好的性能,提高图像分类的精度。该方法在Stanford Dogs、UEC FOOD-100和CIFAR-100数据集上的实验结果表明了其较好的分类性能。 相似文献
15.
基于Boosting的不平衡数据分类算法研究 总被引:2,自引:0,他引:2
研究基于boosting的不平衡数据分类算法,归纳分析现有算法,在此基础上提出权重采样boosting算法。对样本进行权重采样,改变原有数据分布,从而得到适用于不平衡数据的分类器。算法本质是利用采样函数调整原始boosting损失函数形式,进一步强调正样本的分类损失,使得分类器侧重对正样本的有效判别,提高正样本的整体识别率。算法实现简单,实用性强,在UCI数据集上的实验结果表明,对于不平衡数据分类问题,权重采样boosting优于原始boosting及前人算法。 相似文献
16.
时间序列数据通常是指一系列带有时间间隔的实值型数据,广泛存在于煤矿、金融和医疗等领域。为解决现有时间序列数据分类问题中存在的含有大量噪声、预测精度低和泛化性能差的问题,提出了一种基于正则化极限学习机(RELM)的时间序列数据加权集成分类方法。首先,针对时间序列数据中所含有的噪声,利用小波包变换方法对时间序列数据进行去噪处理。其次,针对时间序列数据分类方法预测精度低、泛化性能较差的问题,提出了一种基于RELM的加权集成分类方法。该方法通过训练正则化极限学习机(RELM)隐藏层节点数量的方法,有效选取RELM基分类器;通过粒子群优化(PSO)算法,对RELM基分类器的权值进行优化;实现对时间序列数据的加权集成分类。实验结果表明,该分类方法能够对时间序列数据进行有效分类,并提升了分类精度。 相似文献
17.
目前数据流分类算法大多是基于类分布这一理想状态,然而在真实数据流环境中数据分布往往是不均衡的,并且数据流中往往伴随着概念漂移。针对数据流中的不均衡问题和概念漂移问题,提出了一种新的基于集成学习的不均衡数据流分类算法。首先为了解决数据流的不均衡问题,在训练模型前加入混合采样方法平衡数据集,然后采用基分类器加权和淘汰策略处理概念漂移问题,从而提高分类器的分类性能。最后与经典数据流分类算法在人工数据集和真实数据集上进行对比实验,实验结果表明,本文提出的算法在含有概念漂移和不均衡的数据流环境中,其整体分类性能优于其他算法的。 相似文献
18.
针对传统模型在解决不平衡数据分类问题时存在精度低、稳定性差、泛化能力弱等问题,提出基于序贯三支决策多粒度集成分类算法M GE-S3WD.采用二元关系实现粒层动态划分;根据代价矩阵计算阈值并构建多层次粒结构,将各粒层数据划分为正域、边界域和负域;将各粒层上的划分,按照正域与负域、正域与边界域、负域与边界域重新组合形成新的... 相似文献