首页 | 本学科首页   官方微博 | 高级检索  
     

基于向量空间模型的过滤不良文本方法
引用本文:李强,李建华.基于向量空间模型的过滤不良文本方法[J].计算机工程,2006,32(10):4-5,8.
作者姓名:李强  李建华
作者单位:上海交通大学信息安全工程学院,上海,200030
基金项目:国家“863”计划基金资助项目(2003AA142160);国家自然科学基金资助项目(60402019).
摘    要:就向量空间模型文本表示方法以及归一化技术对不良文本过滤性能的影响进行了研究,并基于平衡样本集和不平衡样本集分别进行了试验。试验和结果分析表明,Naive Bayes方法由于采用概率模型进行文本表示,在不平衡样本集上显示了较差的准确度,而基于向量空间模型进行文本表示的方法,如中心向最法(VSM)、支持向量机(SVM)等在平衡或非平衡样本上取得了较好的准确度,并用于过滤不良文本的文本内容安全监管中。

关 键 词:文本表示  文本归一化  向量空间模型  支持向量机  Naive  Bayes模型
文章编号:1000-3428(2006)10-0004-02
收稿时间:2005-06-28
修稿时间:2005-06-28

Method of Filting Reactionary Text Based on Vector Space Model
LI Qiang,LI Jianhua.Method of Filting Reactionary Text Based on Vector Space Model[J].Computer Engineering,2006,32(10):4-5,8.
Authors:LI Qiang  LI Jianhua
Affiliation:College of Information Security Engineering, Shanghai Jiaotong University, Shanghai 200030
Abstract:This paper researches the vector space model for expressing text, and two datasets are used to evaluate the text expressing method, one is a balance data set, the other is a non-balance data set, which is used for filtering some specific text. It gets good precision using VSM and SVM on both data sets, however the result is poor using Naive Bayes model on the non-balance data set, especially to filter unseen reactionary Web text. The paper concludes that term weighting and normalization are very important technique to improve the precision.
Keywords:Text expressing  Text normalization  Vector space model  Support vector machine  Naive Bayes model
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号