首页 | 本学科首页   官方微博 | 高级检索  
     

基于结构特征的nBayes双层过滤模型
引用本文:王斌,许洪波,王申. 基于结构特征的nBayes双层过滤模型[J]. 计算机应用, 2006, 26(1): 191-0194
作者姓名:王斌  许洪波  王申
作者单位:中国科学院,计算技术研究所,北京,100080;中国科学院,计算技术研究所,北京,100080;中国科学院研究生院,北京,100049
摘    要:由于算法的简单和效果的出色,Nave Bayes被广泛地应用到了垃圾邮件过滤当中。通过理论与实验分析发现,结构差异较大的邮件集特征分布差异也较大,这种特征分布差异影响到了Nave Bayes算法的效果。在此基础上,论文提出了一种基于结构特征的双层过滤模型,对不同结构的邮件使用不同的Nave Bayes分类器分开训练和学习。实验分析表明,Nave Bayes使用该模型之后效果有明显的提高,已经与SVM非常接近。

关 键 词:机器学习  朴素贝叶斯  文本分类  垃圾邮件  基于内容的过滤
文章编号:1001-9081(2006)01-0191-04
收稿时间:2005-07-19
修稿时间:2005-07-192005-08-26

Structure-based bi-layer nBayes filtering model
WANG Bin,XU Hong-bo,WANG Shen. Structure-based bi-layer nBayes filtering model[J]. Journal of Computer Applications, 2006, 26(1): 191-0194
Authors:WANG Bin  XU Hong-bo  WANG Shen
Affiliation:1. Institute of Computing Technology, Chinese Academy of Sciences, Bering 100080, China; 2. Graduate School, the Chinese Academy of Sciences, Beifing 100049, China
Abstract:Naive Bayes algorithm has been widely used in spam filtering,due to its simple mechanism and excellent performance.But when the structures are very different between two email corpus,the feature distributions vary a lot.The diversity of the feature distributions also affects the performance of Naive Bayes.The problem above was analyzed,and a structure-based 2-layers nBayes filtering model was provided,which used different nBayes filter to train and classify mail of different structure.Experiments show that Naive Bayes algorithm's performance improves a lot with this model.
Keywords:machine learning   naive Bayes   text categorization   spam   content-based filtering
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号