排序方式: 共有3条查询结果,搜索用时 0 毫秒
1
1.
2.
一种新的不平衡数据学习算法PCBoost 总被引:8,自引:0,他引:8
现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost.算法以信息增益率为分裂准则构建决策树,作为弱分类器.在每次迭代初始,利用数据合成方法添加合成的少数类样例,平衡训练信息;在子分类器形成后,修正“扰动”,删除未被正确分类的合成样例.文中讨论了数据合成方法,给出了训练误差界的理论分析,并分析了集成学习参数的选择.实验结果表明,PCBoost算法具有处理不平衡数据分类问题的优势. 相似文献
3.
分类是数据挖掘的重要任务之一.训练分类器的训练集可能是偏斜数据.传统分类算法处理偏斜训练集,通常会使少数类别样例的分类精度很低.已有的偏斜训练集平衡算法都是针对只有两种目标类的情况.为平衡拥有多种目标类的偏斜训练集,基于同类样例差异较小的思想给出SSGP算法,在同类样例附近增加少数类别样例,且使多种少数类别样例同速增加.并证明SSGP算法不会向数据集中添加噪声样例.为提高效率,用样例取模取代大量相异度计算.实验表明,只需执行一遍SSGP算法就能同时提高多种少数类别样例的分类精度. 相似文献
1