文本分类中特征权重算法改进研究 |
| |
引用本文: | 李鹏鹏,范会敏.文本分类中特征权重算法改进研究[J].计算机与现代化,2018,0(2):66. |
| |
作者姓名: | 李鹏鹏 范会敏 |
| |
基金项目: | 陕西省科技厅工业攻关项目(2017GY-070) |
| |
摘 要: | 为了克服传统的TF-IDF(Term Frequency Inverse Document Frequency)算法分类F1值低的缺陷,利用特征词在类内和类间的分布信息,提出一种改进的TF-IDF-dist算法。实验结果表明,改进的算法在不同特征维度下F1值平均提升3.2%,结合不同特征选择算法,F1值平均提升2.75%,并且对倾斜数据集有更强的适应性,表明本文算法在文本分类中的有效性。
|
关 键 词: | 机器学习 文本分类 特征权重 TF-IDF |
收稿时间: | 2018-03-09 |
|
| 点击此处可从《计算机与现代化》浏览原始摘要信息 |
|
点击此处可从《计算机与现代化》下载全文 |
|