共查询到19条相似文献,搜索用时 46 毫秒
1.
不平衡数据分类是机器学习研究领域中的一个热点问题。针对传统分类算法处理不平衡数据的少数类识别率过低问题,文章提出了一种基于聚类的改进AdaBoost分类算法。算法首先进行基于聚类的欠采样,在多数类样本上进行K均值聚类,之后提取聚类质心,与少数类样本数目一致的聚类质心和所有少数类样本组成新的平衡训练集。为了避免少数类样本数量过少而使训练集过小导致分类精度下降,采用少数过采样技术过采样结合聚类欠采样。然后,借鉴代价敏感学习思想,对AdaBoost算法的基分类器分类误差函数进行改进,赋予不同类别样本非对称错分损失。实验结果表明,算法使模型训练样本具有较高的代表性,在保证总体分类性能的同时提高了少数类的分类精度。 相似文献
2.
一种用于不平衡数据分类的改进AdaBoost算法 总被引:4,自引:1,他引:3
真实世界中存在大量的类别不平衡分类问题,传统的机器学习算法如AdaBoost算法,关注的是分类器的整体性能,而没有给予小类更多的关注。因此针对类别不平衡学习算法的研究是机器学习的一个重要方向。AsymBoost作为AdaBoost的一种改进算法,用于类别不平衡学习时,牺牲大类样本的识别精度来提高小类样本的分类性能。AsymBoost算法依然可能遭遇样本权重过大造成的过适应问题。据此提出了一种新型的AdaBoost改进算法。该方法通过对大类中分类困难样本的权重和标签进行处理,使分类器能够同时获得较好的查准率和查全率。实验结果表明,该方法可以有效提高在不平衡数据集上的分类性能。 相似文献
3.
4.
大多数不平衡数据集过采样方法依赖于欧几里得特征空间中少数类样本的空间位置,使用少数类样本的局部信息生成新样本来减轻类不平衡问题,因此新生成的少数类样本质量较差。针对这种情况,提出一种K稀疏解过采样算法(K Sparse Over-Sampling,KSOS),其使用少数类样本的全局信息进行样本合成。使用少数类样本来构造稀疏字典,通过求解L1范数最小化来获得当前点的稀疏解;使用稀疏解中的非零项所对应的项来生成新的样本;计算每一个新生成样本的置信度,将所有新生成样本按其置信度排序,从中选取符合要求的新生成样本。在几个UCI数据集上的实验结果证明了该算法的有效性。 相似文献
5.
不平衡数据集是指在数据集中,某一类样本的数量远大于其他类样本的数量,其会影响分类结果,使基本分类器偏向多数类.合成少数样本过采样技术(SMOTE)是处理数据不平衡问题的一种经典过采样方法,以两个少数样本对应的线段为端点生成一个合成样本.提出一种基于SMOTE的少数群体过采样方法,改进生成新样本的方式,在合成样本的过程中... 相似文献
6.
针对不平衡数据集分类效果不理想的问题,提出了一种新的基于混合采样的不平衡数据集算法(BSI)。通过引进“变异系数”找出样本的稀疏域和密集域,针对稀疏域中的少数类样本,提出了一种改进SMOTE算法的过采样方法(BSMOTE);对密集域中的多数类样本,提出了一种改进的欠采样方法(IS)。通过在六种不平衡数据集上的实验表明,该算法与传统算法相比,取得了更高的G-mean值、F-value值、AUC值,有效改善了不平衡数据集的综合分类性能。 相似文献
7.
针对传统的Borderline—SMOTE方法在选择少数类样本进行合成的过程中,无法识别出完全的边界样本的这一问题,提出一种基于近邻构建边界样本的过采样算法BN-SMOTE.该算法利用最近邻的思想,构建处于决策边界附近的多数类样本集,再以此来确定边界区域的难以学习的少数类样本点,组成一个新的用于合成新样本的少数类样本集... 相似文献
8.
9.
面向不平衡数据集的机器学习分类策略 总被引:1,自引:0,他引:1
由于不平衡数据集的内在固有特性,使得分类结果常受数量较多的类别影响,造成分类性能下降。近年来,为了能够从类别不平衡的数据集中学习数据的内在规律并且挖掘其潜在的价值,提出了一系列基于提升不平衡数据集机器学习分类算法准确率的研究策略。这些策略主要是立足于数据层面、分类模型改进层面来解决不平衡数据集分类难的困扰。从以上两个方面论述面向不平衡数据集分类问题的机器学习分类策略,分析和讨论了针对不平衡数据集机器学习分类器的评价指标,总结了不平衡数据集分类尚存在的问题,展望了未来能够深入研究的方向。特别的,这些讨论的研究主要关注类别极端不平衡场景下的二分类问题所面临的困难。 相似文献
10.
王璐;程晓荣 《计算机与数字工程》2025,(1):26-30
近些年人们对机器学习方面的研究日益关注,而机器学习领域的研究重点之一就是集成学习。集成学习的基本原理就是使用了许多独立的分类器,并采用一种方法使之融合为一个强学习器,用以克服单一学习器分类的缺陷。在对Bagging算法、随机森林算法、加权KNN(K-NearestNeighbor)算法和AdaBoost算法四种算法对比的基础上,将加权KNN算法和AdaBoost算法融合在一起。所采用的数据集为网络用户购物行为数据集。在实验过程中,对不平衡数据利用SMOTE采样进行处理,再对上述四种算法和改进后的AdaBoost算法进行评价和对比。通过对比发现,改进后的AdaBoost算法的预测性能更好。再将改进后的AdaBoost算法在Spark平台并行计算,提高计算效率。 相似文献
11.
对软件缺陷预测的不平衡问题进行了研究,提出了一种处理不平衡数据的采样方法,用来解决分类器因为样本集中的样本类别不平衡而造成分类器性能下降的问题。为了避免随机采样的盲目性,利用启发性的混合采样方法来平衡数据,针对少数类采用SMOTE过采样,对多数类采用K-Means聚类降采样,然后综合利用多个单分类器来进行投票集成预测分类。实验结果表明,混合采样与集成学习相结合的软件缺陷预测方法具有较好的分类效果,在获得较高的查全率的同时还能显著降低误报率。 相似文献
12.
当标识示例的两个标签分别来源于两个标签集时,这种多标签分类问题称之为标签匹配问题,目前还没有针对标签匹配问题的学习算法。 尽管可以用传统的多标签分类学习算法来解决标签匹配问题,但显然标签匹配问题有其自身特殊性。 通过对标签匹配问题进行深入的研究,在连续AdaBoost(real Adaptive Boosting)算法的基础上,基于整体优化的思想,采用算法适应的方法,提出了基于双标签集的标签匹配集成学习算法,该算法能够较好地学习到标签匹配规律从而完成标签匹配。 实验结果表明,与传统的多标签学习算法用于解决标签匹配问题相比,提出的新算法不仅缩小了搜索的标签空间的范围,而且最小化学习误差可以随着分类器个数的增加而降低,进而使得标签匹配分类更加快速、准确。 相似文献
13.
针对视频目标检测问题,提出一种新的在线集成学习方法。该方法把目标检测看成两类分类问题,首先用少量已标注样本离线训练一个初始集成分类器,然后在检测目标的同时通过跟踪过滤虚警目标,并通过样本置信度作进一步验证自动标注样本,最后通过在线集成学习方法更新级联分类器。该方法通过在线调整级联分类器,提高分类器对目标环境变化的适应能力,在大量视频序列上进行实验验证,并与现有在线集成学习方法进行比较,结果表明,通过该方法训练得到的检测器不但能够很好地应对目标特征的变化,也能在出现目标遮挡及背景干扰下稳定地检测出目标,具有较好的适应性及鲁棒性。 相似文献
14.
针对目标检测中的非对称分类问题,在分析现有的由离散AdaBoost算法扩展得到的代价敏感(即非对称)学习算法的基础上,提出了以三个不同的非对称错误率上界为核心的推导非对称AdaBoost算法的统一框架. 在该框架下, 不仅现有离散型非对称AdaBoost算法之间的关系非常清晰, 而且其中不符合理论推导的部分可以很容易得到修正. 同时, 利用不同的优化方法, 最小化这三个不同上界, 推出了连续型AdaBoost算法的非对称扩展(用Asym-Real AdaBoost和Asym-Gentle AdaBoost 表示). 新的算法不仅在弱分类器组合系数的计算上比现有离散型算法更加方便, 而且实验证明, 在人脸检测和行人检测两方面都获得了比传统对称AdaBoost算法和离散型非对称AdaBoost算法更好的性能. 相似文献
15.
数据集类别不平衡问题是分类领域的重要问题之一,每个数据集的不平衡指数都与其自身有着紧密的联系,是数据集的重要标志。面对不平衡数据集分类设计问题,提出了一种改进AdaBoost算法(enhanced AdaBoost,E-AdaBoost)。该算法将不平衡指数和不平衡数据集中较为重要的少数类分类正确率考虑到算法的迭代过程中,改进了基分类器的权重更新策略,进而提高对不平衡数据集的分类性能。基于E-AdaBoost的不平衡数据集分类设计方法可以根据样本的不平衡指数,确定基分类器的权重参数,进而提高分类器性能。利用该方法,结合多个经典分类器,在人工数据集和标准数据集上进行实验分析,并对比相关方法,结果表明,基于E-AdaBoost的不平衡数据集分类设计方法能够有效提高不平衡数据集的分类性能。 相似文献
16.
基于属性组合的集成学习算法 总被引:2,自引:0,他引:2
针对样本由数字属性构成的分类问题,在AdaBoost算法流程基础上,改传统的基于单属性分类器构造方法为基于组合属性分类器构造方法,提出了一种基于样本属性线性组合的集成学习算法。对属性组合系数的构造,提出了一般性的构造思路,按照该思路,提出了几种具体的组合系数构造方法,并对构造方法的科学合理性进行了分析。利用UCI机器学习数据集中的数据对提出的方法进行了实验与分析,结果表明,基于属性组合的集成学习算法不仅有是有效的,而且比传统AdaBoost算法好 相似文献
17.
针对AdaBoost算法下弱分类器间的多样性如何度量问题以及AdaBoost的过适应问题,在分析并研究了4种多样性度量与AdaBoost算法的分类精度关系的基础上,提出一种基于双误度量改进的AdaBoost方法。首先,选择Q统计、相关系数、不一致度量、双误度量在UCI数据集上进行实验。然后,利用皮尔逊相关系数定量计算多样性与测试误差的相关性,发现在迭代后期阶段,它们都趋于一个稳定的值;其中双误度量在不同数据集上的变化模式固定,它在前期阶段不断增加,在迭代后期基本上不变,趋于稳定。最后,利用双误度量改进AdaBoost的弱分类器的选择策略。实验结果表明,与其他常用集成方法相比,改进后的AdaBoost算法的测试误差平均降低1.5个百分点,最高可降低4.8个百分点。因此,该算法可以进一步提高分类性能。 相似文献
18.
付忠良 《计算机研究与发展》2013,50(4):861-872
集成学习算法的构造属于机器学习领域的重要研究内容,尽管弱学习定理指出了弱学习算法与强学习算法是等价的,但如何构造好的集成学习算法仍然是一个未得到很好解决的问题.Freund和Schapire提出的AdaBoost算法和Schapire和Singer提出的连续AdaBoost算法部分解决了该问题.提出了一种学习错误定义,以这种学习错误最小化为目标,提出了一种通用的集成学习算法,算法可以解决目前绝大多数分类需求的学习问题,如多分类、代价敏感分类、不平衡分类、多标签分类、模糊分类等问题,算法还对AdaBoost系列算法进行了统一和推广.从保证组合预测函数的泛化能力出发,提出了算法中的简单预测函数可统一基于样本的单个特征来构造.理论分析和实验结论均表明,提出的系列算法的学习错误可以任意小,同时又不用担心出现过学习现象. 相似文献
19.
基于混淆矩阵和集成学习的分类方法研究 总被引:8,自引:0,他引:8
针对多分类问题,本文提出一种基于混淆矩阵和集成学习的分类方法。从模式间的相似性关系入手,基于混淆矩阵产生层次化分类器结构;以支持向量机(SVM)作为基本的两类分类器,对于分类精度不理想的SVM,通过AdaBoost算法对SVM分类器进行加权投票。以变电站环境监控中的目标识别为例(涉及到人、动物、普通火焰(红黄颜色火焰)、白色火焰、白炽灯),实现了变电站环境监控中的目标分类。实验表明,所提出的方法有效提高了分类精度。 相似文献