首页 | 本学科首页   官方微博 | 高级检索  
     

结合改进的CHI统计方法的TF-IDF算法优化
作者姓名:马莹  赵辉  李万龙  庞海龙  崔岩
作者单位:长春工业大学计算机科学与工程学院,长春,130012;长春工业大学计算机科学与工程学院,长春,130012;长春工业大学计算机科学与工程学院,长春,130012;长春工业大学计算机科学与工程学院,长春,130012;长春工业大学计算机科学与工程学院,长春,130012
基金项目:国家自然科学基金资助项目(61472049);吉林省教育厅“十二五”科学技术研究项目(2014132)
摘    要:为了克服传统的CHI统计方法存在特征项出现频率与类别负相关的情况和某一个特征项存在于某一个文本中的概率问题,针对传统的CHI统计方法引入了负相关判定、频度等重要因素进行了改进,并结合语义相似度的计算方法对TF-IDF算法进行了优化,在WEKA软件上采用了KNN(K-nearest neighbor)分类器和支持向量机(SVM)分类器分别对微博情感语料进行分类,该实验结果表明,新方法在文本分类的准确性上有明显的提高。

关 键 词:文本分类  CHI统计  TF-IDF算法  特征选择
收稿时间:2018-01-27
修稿时间:2019-08-03
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号