首页 | 本学科首页   官方微博 | 高级检索  
     

基于核偏最小二乘分类的垃圾邮件过滤
引用本文:岑芳明,王明文,王鹏鸣,戴玉娟. 基于核偏最小二乘分类的垃圾邮件过滤[J]. 中文信息学报, 2009, 23(2): 48-53
作者姓名:岑芳明  王明文  王鹏鸣  戴玉娟
作者单位:江西师范大学 计算机信息工程学院 江西 南昌 330022
基金项目:国家自然科学基金,江西省科技攻关项目,江西省教育厅科技项目 
摘    要:垃圾邮件是Internet上亟待解决的问题,目前许多垃圾邮件过滤技术已经被使用。基于偏最小二乘的方法可以解决垃圾邮件的内容中普遍存在的数据稀疏性、高特征维数和多重相关性问题。但邮件内容之间的内在联系往往不是线性的,该文通过在偏最小二乘方法上引入核函数,去解决这一类的非线性问题。Enron-Spam垃圾数据集实验表明,同PLSR等方法比较,模型表现出了较好的过滤性能。

关 键 词:计算机应用  中文信息处理  垃圾邮件过滤  非线性  核偏最小二乘  回归  分类  潜在语义
  

Spam Filtering Based on Kernel Partial Least Squares Classification
CEN Fang-ming,WANG Ming-wen,WANG Peng-ming,DAI Yu-juan. Spam Filtering Based on Kernel Partial Least Squares Classification[J]. Journal of Chinese Information Processing, 2009, 23(2): 48-53
Authors:CEN Fang-ming  WANG Ming-wen  WANG Peng-ming  DAI Yu-juan
Affiliation:School of Computer Information Engineering, Jiangxi Normal University, Jiangxi,Nanchang, 330022 China
Abstract:The spam is one of the most serious problems to be resolved in the Internet.Recently,several spam filtering technologies have been proposed and applied to spam filtering,such as the Partial Least Squares(PLS) method.The PLS method can deal with the sparse data,the high dimensionalities and the multi-colinearity issues existing in the e-mail dataset.However,the latent content relationships among the e-mail data are,more often than not,nonlinear.This paper introduces the kernel function over PLS method to cap...
Keywords:computer application  Chinese information processing  spam filtering  nonlinear  kernel partial least square  regression  classification  latent semantic  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号