首页 | 本学科首页   官方微博 | 高级检索  
     

基于改进的TF-IDF文本特征词提取算法研究
引用本文:贾 强,冯锡炜,王志峰,朱 睿,秦 航.基于改进的TF-IDF文本特征词提取算法研究[J].辽宁石油化工大学学报,2017,37(4):61.
作者姓名:贾 强  冯锡炜  王志峰  朱 睿  秦 航
作者单位:1.辽宁石油化工大学 计算机与通信工程学院,辽宁 抚顺 113001; 2.辽宁省抚顺市望花区教师进修学校,辽宁 抚顺 113001
基金项目:辽宁省教育科学“十三五”规划课题资助项目(JG16DB253);辽宁石油化工大学教育教学改革研究项目(20165230060003)。
摘    要:在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重,按权值排序结果得到关键词。实验对比发现,新的特征词提取算法能够更加精确地反映出特征词的词长情况,该算法与传统的TF-IDF算法相比,在准确率和召回率上都有较大的提升。

关 键 词:TF-IDF  特征词提取  词长    文本预处理  文本分类  
收稿时间:2017-03-08

Research on Keyword Extraction Algorithm Based on Improved TF-IDF
Affiliation:1.School of Computer and Communicating Engineering,Liaoning Shihua University, Fushun Liaoning 113001, China;2.Teacher Continuing Education School of Wanghua District, Fushun City of Liaoning Province, Fushun Liaoning 113001, China
Abstract:In the text feature word extraction algorithm,TF-IDF algorithm is the most common feature weight calculation method. On the basis of the traditional TF-IDF extract algorithm, a new keyword extraction algorithm based on the text word length is proposed.Using chinese phrase word segmentation technique to identify long words and ordinary words in text,the proposed TF-IDF-WL method is used to recompute weights for different lengths of words, and the keywords are sorted by weights. Experimental results show that the new feature word extraction algorithm can more accurately reflect the lexical length of the feature words.Compared with the traditional TF-IDF algorithm, the algorithm has greatly improved accuracy and recall rate.
Keywords:TF-IDF  Keyword extraction  Word length  Text preprocessing  Text classification  
本文献已被 CNKI 等数据库收录!
点击此处可从《辽宁石油化工大学学报》浏览原始摘要信息
点击此处可从《辽宁石油化工大学学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号