一种基于聚类的文本特征选择方法 |
| |
作者姓名: | 张文良黄亚楼 倪维健 |
| |
作者单位: | 南开大学,软件学院,天津,300071;南开大学,软件学院,天津,300071;南开大学,软件学院,天津,300071 |
| |
摘 要: | 传统的文本特征选择方法存在一个共性,即通过某种评价函数分别计算单个特征对类别的区分能力,由于没有考虑特征间的关联性,这些方法选择的特征集往往存在着冗余。针对这一问题,提出了一种基于聚类的特征选择方法,先使用聚类的方法对特征间的冗余性进行裁减,然后使用信息增益的方法选取类别区分能力强的特征。实验结果表明,这种基于聚类的特征选择方法使得文本分类的正确性得到了有效的提高。
|
关 键 词: | 特征选择 聚类 文本分类 信息增益 |
文章编号: | 1001-9081(2007)01-0205-02 |
收稿时间: | 2006-06-21 |
修稿时间: | 2006-06-212006-08-27 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
| 点击此处可从《计算机应用》浏览原始摘要信息 |
|
点击此处可从《计算机应用》下载全文 |
|