基于免疫克隆特征选择和欠采样集成的垃圾网页检测期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于免疫克隆特征选择和欠采样集成的垃圾网页检测

作者姓名：	卢晓勇陈木生吴政隆张百栈

作者单位：	1. 南昌大学软件学院, 南昌 330047;2. 南昌大学信息工程学院, 南昌 330031;3. 元智大学资讯学院, 台湾桃园 32003

基金项目：	江西省科技支撑计划项目（20131102040039）。

摘要：	为解决垃圾网页检测过程中的“维数灾难”和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样（US）集成的二元分类器算法。首先,使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本合并构成多个平衡的子训练样本集;然后,设计一种免疫克隆算法遴选出多个最优的特征子集;基于最优特征子集对平衡的子样本集进行投影操作,生成平衡数据集的多个视图;最后,用随机森林（RF）分类器对测试样本进行分类,采用简单投票法确定测试样本的最终类别。在WEBSPAM UK-2006数据集上的实验结果表明,该集成分类器算法应用于垃圾网页检测：与随机森林算法及其Bagging和AdaBoost集成分类器算法相比,准确率、F1测度、AUC等指标均提高11%以上;与其他最优的研究结果相比,该集成分类器算法在F1测度上提高2%,在AUC上达到最优。
关键词：	垃圾网页检测集成学习免疫克隆算法特征选择欠采样随机森林
收稿时间：	2016-01-08
修稿时间：	2016-03-02

	点击此处可从《计算机应用》浏览原始摘要信息
	点击此处可从《计算机应用》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏