基于信息熵与词长信息改进的TFIDF算法 |
| |
引用本文: | 金燕,黄杰.基于信息熵与词长信息改进的TFIDF算法[J].浙江工业大学学报,2021,49(2):203-209. |
| |
作者姓名: | 金燕 黄杰 |
| |
摘 要: | 针对文本分类中传统的TFIDF特征提取算法的缺陷,引入信息熵与词长信息改进TFIDF算法。传统的TFIDF算法中忽略了词长信息,词长不同能够表达的信息也不同,同时还忽略了文本中特征词的分布特征。改进的TFIDF算法中加入了表达词长信息的因子并且引入词条信息熵来反映特征词在文本中的分布特征,实验比较了其与TFIDF、TFIDFL等算法在相同数据集上使用逻辑回归分类器的分类准确率。改进的算法平均准确率比TFIDF算法高了7.34%,比TFIDFL算法高了5.99%,结果表明引入信息熵与词长信息改进TFIDF算法能够有效提升分类准确率。
|
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《浙江工业大学学报》浏览原始摘要信息 |
|
点击此处可从《浙江工业大学学报》下载全文 |
|