首页 | 本学科首页   官方微博 | 高级检索  
     

基于多结构特征的垃圾博客识别研究
引用本文:何苑,谭红叶.基于多结构特征的垃圾博客识别研究[J].计算机工程与设计,2010,31(22).
作者姓名:何苑  谭红叶
作者单位:1. 山西大学,计算机与信息技术学院,山西,太原,030006;长治学院,计算机系,山西,长治,046011
2. 山西大学,计算机与信息技术学院,山西,太原,030006
基金项目:国家自然科学基金项目 
摘    要:为解决日益严重的垃圾博客问题,对产生垃圾博客的作弊技术和相应的识别技术进行了研究.通过对大量中文垃圾博客的分析,结合对作弊者目的的研究,提出了从用户名、发帖时间间隔、博文内容、锚文本和链接地址、分类标签等博客的结构特征出发的特征提取方法.在特征提取的基础上,提出了基于多结构特征的识别方法,并建立了相应的系统模型.使用支持向量机和朴素贝叶斯模型作为分类器进行了实验,并与经典的基于内容的方法进行了对比.实验结果表明,在小的训练集上,基于多结构特征的方法正确率达到90%以上,比基于内容的方法提高了6个百分点,该方法可有效区分垃圾博客和正常博客.

关 键 词:中文信息处理  垃圾博客  多结构特征  朴素贝叶斯  支持向量机

Research of identifying Splog based on multiple structure features
HE Yuan,TAN Hong-ye.Research of identifying Splog based on multiple structure features[J].Computer Engineering and Design,2010,31(22).
Authors:HE Yuan  TAN Hong-ye
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号