基于改进的最大熵均值聚类方法在文本分类中的应用* |
| |
作者姓名: | 张爱科 |
| |
作者单位: | 柳州职业技术学院,广西柳州,545006 |
| |
基金项目: | 广西教育厅科研项目基金资助项目(200911LX486,201106LX745) |
| |
摘 要: | 针对传统的文本分类算法存在着各特征词对分类的结果影响相同、分类准确率较低、造成算法时间复杂度增加的问题,提出了一种改进的最大熵C-均值聚类文本分类方法。该方法充分结合了C-均值聚类和最大熵值算法的优点,以香农熵作为最大熵模型中的目标函数,简化分类器的表达形式,然后采用C-均值聚类算法对最优特征进行分类。仿真实验结果表明,与传统的文本分类方法相比,提出的方法能够快速得到最优分类特征子集,大大提高了文本分类准确率。
|
关 键 词: | 文本分类 最大熵 C-均值聚类 特征选择 |
本文献已被 CNKI 万方数据 等数据库收录! |
| 点击此处可从《计算机应用研究》浏览原始摘要信息 |
|
点击此处可从《计算机应用研究》下载全文 |
|