首页 | 本学科首页   官方微博 | 高级检索  
     

不均衡数据集文本分类中少数类样本生成方法研究*
引用本文:杜娟,姜丽丽,陈红丽b.不均衡数据集文本分类中少数类样本生成方法研究*[J].计算机应用研究,2009,26(10):3731-3734.
作者姓名:杜娟  姜丽丽  陈红丽b
作者单位:1. 大庆石油学院,计算机与信息技术学院,黑龙江,大庆,163318
2. 大庆石油学院,现代教育技术中心,黑龙江,大庆,163318
基金项目:黑龙江省研究生创新科研资金项目(YJSCX2006-38HLJ)
摘    要:针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,并进行有效性验证;最后使用原始数据集和新数据集分别训练K最近邻(K nearest neighbor,KNN)及支持向量机(support vector machine,SVM)分类器。实验结果表明此方法有效改善了少数类分类效果。

关 键 词:不均衡数据集  分类  聚类  遗传算法  样本生成

Research of method to generate samples of class with fewer samples in imbalanced data sets text categorization
DU Juan,JIANG Li-li,CHEN Hong-lib.Research of method to generate samples of class with fewer samples in imbalanced data sets text categorization[J].Application Research of Computers,2009,26(10):3731-3734.
Authors:DU Juan  JIANG Li-li  CHEN Hong-lib
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号