首页 | 本学科首页   官方微博 | 高级检索  
     

基于贝叶斯的文本分类方法
引用本文:罗海飞,吴刚,杨金生.基于贝叶斯的文本分类方法[J].计算机工程与设计,2006,27(24):4746-4748.
作者姓名:罗海飞  吴刚  杨金生
作者单位:上海交通大学,软件学院,上海,200240
摘    要:文本分类中的两个关键问题,算法和特征提取。贝叶斯算法是最有效的文本分类算法之一,但是属性间强独立性的假设在现实中并不成立,借鉴概率论中的多项式模型提出了一种改进型的贝叶斯方法;传统的特征抽取方法有词频法、互信息法、CHI统计、信息增益法等,然而上述方法对于词条的权重未作考虑,引进了权重的表征方式,给出了改进方法,由实验证明了通过以上方面的改进,文本分类的正确率得到了提高。

关 键 词:文本分类  特征抽取  贝叶斯  多项式  统计
文章编号:1000-7024(2006)24-4746-03
收稿时间:2005-11-22
修稿时间:2005-11-22

Way of text classification based on Bayes
LUO Hai-fei,WU Gang,YANG Jin-sheng.Way of text classification based on Bayes[J].Computer Engineering and Design,2006,27(24):4746-4748.
Authors:LUO Hai-fei  WU Gang  YANG Jin-sheng
Affiliation:School of Software Engineering, Shanghai Jiaotong University, Shanghai 200240, China
Abstract:Two important factors in text classification are discussed-algorithm and feature abstraction. The practical Bayesian algorithm has an assumption of strong independence of different properties and a modified way on polynomial is introduced. In Feature abstraction, different ways of abstracting features are discussed and a modified CHI based on word weight is introduced. At last the experiments show seen that correct rate of text classification is improved.
Keywords:text classification  feature abstraction  Bayes  polynomial  statistic
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号