首页 | 本学科首页   官方微博 | 高级检索  
     

集成PCA降维与分类算法的垃圾网页检测
引用本文:李法良,朱焱,曾俊东. 集成PCA降维与分类算法的垃圾网页检测[J]. 计算机应用与软件, 2014, 0(10)
作者姓名:李法良  朱焱  曾俊东
作者单位:西南交通大学信息科学与技术学院 四川 成都610031
基金项目:中央高校基本科研业务费专项基金项目(SWJTU11ZT08)。
摘    要:针对垃圾网页的内容特征和链接特征,设计一种集成主成分分析PCA(Principal Component Analysis)与支持向量机分类算法的垃圾网页检测方法。该方法使用PCA来提取网页样本特征的主成分,使用主成分特征训练支持向量机(SVM)分类器。训练过程引入AdaBoost以提高分类器的性能。此外,采用聚类算法处理训练和测试数据集,解决了样本不均衡问题。通过在WebSpamUK2007数据集上进行多组对比实验,结果表明,所设计的垃圾网页检测方案具有最高的检测率(0.851)。

关 键 词:垃圾网页  垃圾网页检测  主成分分析  AdaBoost  支持向量机

SPAM WEBPAGE DETECTION COMBINING PCA DIMENSIONALITY REDUCTION AND CLASSIFIER ALGORITHM
Li Faliang,Zhu Yan,Zeng Jundong. SPAM WEBPAGE DETECTION COMBINING PCA DIMENSIONALITY REDUCTION AND CLASSIFIER ALGORITHM[J]. Computer Applications and Software, 2014, 0(10)
Authors:Li Faliang  Zhu Yan  Zeng Jundong
Abstract:
Keywords:Spam webpage  Spam webpage detection  Principal component analysis  AdaBoost  Support vector machine (SVM)
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号