基于字符语言模型的垃圾邮件过滤 Character-Based Language Modeling Approach for Spam Filtering期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于字符语言模型的垃圾邮件过滤

引用本文：	苏绥,林鸿飞,叶正.基于字符语言模型的垃圾邮件过滤[J].中文信息学报,2009,23(2):41-47.

作者姓名：	苏绥林鸿飞叶正

作者单位：	大连理工大学计算机科学与工程系辽宁大连 116024

基金项目：	国家自然科学基金，国家高技术研究发展计划(863计划)

摘要：	基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。该文先简单综述了当前基于内容的垃圾邮件过滤中采用的各种技术,在此基础上提出将基于字符的语言模型应用于垃圾邮件过滤任务中,并通过实验对比了该方法与Nave Bayes、SVM和基于词的语言模型方法的性能差异,以及不同n值、不同特征选择方式对过滤结果的影响。实验结果表明,基于字符的语言模型实现简单且具有很高的性能,能较好地满足大规模在线邮件系统的需要,具有很高的实用价值。
关键词：	计算机应用中文信息处理垃圾邮件过滤语言模型朴素贝叶斯支撑向量机 n-Gram
Character-Based Language Modeling Approach for Spam Filtering

SU Sui,LIN Hong-fei,YE Zheng.Character-Based Language Modeling Approach for Spam Filtering[J].Journal of Chinese Information Processing,2009,23(2):41-47.

Authors:	SU Sui LIN Hong-fei YE Zheng

Affiliation:	Department of Computer Science and Engineering, Dalian University of Technology, Dalian, Liaoning 116024, China

Abstract:	Content-based spam filtering is one of the mainstream technologies used so far. After a briefly review of the state-of-the-art of spam filtering based on content, this paper proposes a character-based language modeling approach used in spam filtering task on the basis of these technologies. We experimentally compare the performance of this approach with Nave Bayes、SVM and Word-based language modeling approach. Our experimental results show that character-based language modeling approach can achieve high performance, and can be easily applied in on-line large-scale e-mail system.

Keywords:	n-Gram
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《中文信息学报》浏览原始摘要信息
	点击此处可从《中文信息学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏