首页 | 本学科首页   官方微博 | 高级检索  
     

文本分类中特征权重算法改进研究
引用本文:李鹏鹏,范会敏.文本分类中特征权重算法改进研究[J].计算机与现代化,2018,0(2):66.
作者姓名:李鹏鹏  范会敏
基金项目:陕西省科技厅工业攻关项目(2017GY-070)
摘    要:为了克服传统的TF-IDF(Term Frequency Inverse Document Frequency)算法分类F1值低的缺陷,利用特征词在类内和类间的分布信息,提出一种改进的TF-IDF-dist算法。实验结果表明,改进的算法在不同特征维度下F1值平均提升3.2%,结合不同特征选择算法,F1值平均提升2.75%,并且对倾斜数据集有更强的适应性,表明本文算法在文本分类中的有效性。

关 键 词:机器学习    文本分类    特征权重    TF-IDF  
收稿时间:2018-03-09
点击此处可从《计算机与现代化》浏览原始摘要信息
点击此处可从《计算机与现代化》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号