首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于PCA和RS的文本过滤方法
引用本文:林琛 ,李弼程 ,宋辉.一种基于PCA和RS的文本过滤方法[J].微计算机信息,2005(23).
作者姓名:林琛  李弼程  宋辉
作者单位:郑州信息工程大学 450002
基金项目:河南省教育厅基金(编号:sp200303099)资助项目
摘    要:本文提出一种文本过滤方法,即首先利用PCA(主成分分析)的方法进行文本特征抽取,在此基础上运用RS中决策表上的规则推理方法,发现规则并形成规则库,对于新进来文档将其条件属性与规则库里规则进行相似匹配,进行文本过滤。实验结果表明,此方法用于垃圾邮件过滤能取得很高的正确率和召回率。

关 键 词:主成分分析  粗糙集  特征抽取  文本过滤

A Method for Text Filter Based on PCA and RS
Lin,ChenLi,BichengSong,Hui.A Method for Text Filter Based on PCA and RS[J].Control & Automation,2005(23).
Authors:Lin  ChenLi  BichengSong  Hui
Abstract:This paper proposed a new method for text filtering based on Rough Sets theory and PCA. First,our algorithm for feature extraction is based on principal components analysis. Then, we generated the rules which are useful to us base on the decision tables of Rough Set theory. When an unknown document was inputted, we just matched approximately the condition property of the document to these rules and remained useful information. Results show that using our method to filter out spam enjoys a very high degree of precision and recall.
Keywords:PCA  Rough Sets  Feature Extraction  Text Filter  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号