基于向量空间模型的文本分类方法的研究与实现 |
| |
作者姓名: | 陈治纲 何丕廉 孙越恒 郑小慎 |
| |
作者单位: | 天津大学,电子信息工程学院,天津,300072 |
| |
摘 要: | 文本分类可以有效地解决信息杂乱的现象并有助于定位所需的信息.传统的文本分类方法一般从单一或片面的测试指标出发进行特征抽取,造成单个特征的"过度拟合"问题.文中综合考虑了频度、分散度和集中度等几项测试指标,提出了一种新的特征抽取算法,使得选出的特征能够在上述测试指标中达到整体最优.将这一方法应用于改进的向量空间模型,实验结果表明该方法具有较高的精度和召回率.
|
关 键 词: | 文本分类 特征抽取 测试指标 向量空间模型 |
文章编号: | 1001-9081(2004)06Z-0277-03 |
修稿时间: | 2003-12-14 |
本文献已被 CNKI 万方数据 等数据库收录! |
|