文本分类特征权重改进算法 |
| |
作者姓名: | 台德艺 王俊 |
| |
作者单位: | (合肥学院机器视觉与智能控制技术重点实验室,合肥 230601) |
| |
摘 要: | TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。
|
关 键 词: | 向量空间模型 文本分类 特征权重 特征分布 |
修稿时间: | |
|
| 点击此处可从《计算机工程》浏览原始摘要信息 |
|
点击此处可从《计算机工程》下载全文 |
|