首页 | 本学科首页   官方微博 | 高级检索  
     

基于拟合特征分布的垃圾网页检测方法
引用本文:刘阳,张化祥.基于拟合特征分布的垃圾网页检测方法[J].计算机工程与设计,2013,34(8).
作者姓名:刘阳  张化祥
作者单位:山东师范大学信息科学与工程学院,山东济南250014;山东省分布式计算机软件新技术重点实验室,山东济南250014
基金项目:国家自然科学基金项目,教育部高等学校博士点专项基金项目,山东省自然科学基金和科技攻关计划基金项目
摘    要:为了有效地检测垃圾网页,通过分析网页内容特征和链接特征的分布,发现正常网页特征分布有规律而垃圾网页特征分布散乱,根据正常网页特征分布与垃圾网页特征分布的不同,提出了用分布函数拟合正常网页特征分布,并计算正常网页和垃圾网页比例与分布函数的差值,以差值为阈值使用C4.5决策树对垃圾网页进行检测.实验结果表明,该方法能够有效地减少被错误分类的正常网页,提高准确率.

关 键 词:垃圾网页  内容特征  链接特征  分布函数  决策树

Web spam detection based on fitting distribution of features
LIU Yang , ZHANG Hua-xiang.Web spam detection based on fitting distribution of features[J].Computer Engineering and Design,2013,34(8).
Authors:LIU Yang  ZHANG Hua-xiang
Abstract:
Keywords:web spam  content features  linked features  distribution function  decision trees
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号