不均衡数据集文本分类中少数类样本生成方法研究* Research of method to generate samples of class with fewer samples in imbalanced data sets text categorization期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

不均衡数据集文本分类中少数类样本生成方法研究*

引用本文：	杜娟,姜丽丽,陈红丽b.不均衡数据集文本分类中少数类样本生成方法研究*[J].计算机应用研究,2009,26(10):3731-3734.

作者姓名：	杜娟姜丽丽陈红丽b

作者单位：	1. 大庆石油学院,计算机与信息技术学院,黑龙江,大庆,163318 2. 大庆石油学院,现代教育技术中心,黑龙江,大庆,163318

基金项目：	黑龙江省研究生创新科研资金项目(YJSCX2006-38HLJ)

摘要：	针对传统的分类算法在处理不均衡样本数据时，其分类器预测倾向于多数类，少数类分类误差大，提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组；再在每个聚类的内部使用遗传交叉和变异操作获取新样本，并进行有效性验证；最后使用原始数据集和新数据集分别训练K最近邻（K nearest neighbor,KNN）及支持向量机(support vector machine,SVM）分类器。实验结果表明此方法有效改善了少数类分类效果。
关键词：	不均衡数据集分类聚类遗传算法样本生成
Research of method to generate samples of class with fewer samples in imbalanced data sets text categorization

DU Juan,JIANG Li-li,CHEN Hong-lib.Research of method to generate samples of class with fewer samples in imbalanced data sets text categorization[J].Application Research of Computers,2009,26(10):3731-3734.

Authors:	DU Juan JIANG Li-li CHEN Hong-lib

Abstract:

Keywords:
本文献已被万方数据等数据库收录！
	点击此处可从《计算机应用研究》浏览原始摘要信息
	点击此处可从《计算机应用研究》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏