首页 | 本学科首页   官方微博 | 高级检索  
     

基于字符语言模型的垃圾邮件过滤
引用本文:苏绥,林鸿飞,叶正.基于字符语言模型的垃圾邮件过滤[J].中文信息学报,2009,23(2):41-47.
作者姓名:苏绥  林鸿飞  叶正
作者单位:大连理工大学 计算机科学与工程系 辽宁 大连 116024
基金项目:国家自然科学基金,国家高技术研究发展计划(863计划) 
摘    要:基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。该文先简单综述了当前基于内容的垃圾邮件过滤中采用的各种技术,在此基础上提出将基于字符的语言模型应用于垃圾邮件过滤任务中,并通过实验对比了该方法与Nave Bayes、SVM和基于词的语言模型方法的性能差异,以及不同n值、不同特征选择方式对过滤结果的影响。实验结果表明,基于字符的语言模型实现简单且具有很高的性能,能较好地满足大规模在线邮件系统的需要,具有很高的实用价值。

关 键 词:计算机应用  中文信息处理  垃圾邮件过滤  语言模型  朴素贝叶斯  支撑向量机  n-Gram
  

Character-Based Language Modeling Approach for Spam Filtering
SU Sui,LIN Hong-fei,YE Zheng.Character-Based Language Modeling Approach for Spam Filtering[J].Journal of Chinese Information Processing,2009,23(2):41-47.
Authors:SU Sui  LIN Hong-fei  YE Zheng
Affiliation:Department of Computer Science and Engineering, Dalian University of Technology,
Dalian, Liaoning 116024, China
Abstract:Content-based spam filtering is one of the mainstream technologies used so far. After a briefly review of the state-of-the-art of spam filtering based on content, this paper proposes a character-based language modeling approach used in spam filtering task on the basis of these technologies. We experimentally compare the performance of this approach with Nave Bayes、SVM and Word-based language modeling approach. Our experimental results show that character-based language modeling approach can achieve high performance, and can be easily applied in on-line large-scale e-mail system.
Keywords:n-Gram
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号