首页 | 本学科首页   官方微博 | 高级检索  
     

基于TF*IDF的垃圾邮件过滤特征选择改进算法*
引用本文:陈琦,伍朝辉,姚芳,宋秀荣,张付志. 基于TF*IDF的垃圾邮件过滤特征选择改进算法*[J]. 计算机应用研究, 2009, 26(6): 2165-2167. DOI: 10.3969/j.issn.1001-3695.2009.06.050
作者姓名:陈琦  伍朝辉  姚芳  宋秀荣  张付志
作者单位:燕山大学,信息科学与工程学院,河北,秦皇岛,066004
基金项目:河北省自然科学基金资助项目(F2008000877)
摘    要:随着电子邮件的普及与应用,垃圾邮件的泛滥也越来越受到人们的关注。而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点,将关键字权重引入到邮件分类中,提出了一种基于关键词权重的TF*IDF特征选择改进算法,并进行了实验验证。实验结果表明,采用该算法改进后的贝叶斯过滤器具有更好的过滤效果。

关 键 词:垃圾邮件  过滤器  贝叶斯  特征选择

Improved feature selection algorithm in spam filtering based on TF*IDF
CHEN Qi,WU Zhao hui,YAO Fang,SONG Xiu rong,ZHANG Fu zhi. Improved feature selection algorithm in spam filtering based on TF*IDF[J]. Application Research of Computers, 2009, 26(6): 2165-2167. DOI: 10.3969/j.issn.1001-3695.2009.06.050
Authors:CHEN Qi  WU Zhao hui  YAO Fang  SONG Xiu rong  ZHANG Fu zhi
Affiliation:College of Information Science & Engineering;Yanshan University;Qinhuangdao Hebei 066004;China
Abstract:With the development of network and computer,more and more spam e-mails affect our lives.This paper firstly introduced the current popular feature selection methods based on term frequency and inversed document frequency.Then it compared and analyzed the various feature extraction algorithms,and introduced a new extracted feature algorithm by using the advanced TF*IDF.Finally it completed the experimental verification with the PU1 corpus.The experiment results demonstrate that the advanced naive Bayes filte...
Keywords:TF*IDF
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号