首页 | 本学科首页   官方微博 | 高级检索  
     

文本分类中训练集相关数量指标的影响研究
引用本文:李湘东,曹环,黄莉.文本分类中训练集相关数量指标的影响研究[J].计算机应用研究,2014(11).
作者姓名:李湘东  曹环  黄莉
作者单位:1. 武汉大学 信息管理学院; 武汉大学 信息资源研究中心
2. 武汉大学 信息管理学院
3. 武汉大学 图书馆,武汉,430072
摘    要:针对训练集对分类性能的影响,从训练集的文本数、类别数以及特征项数这三项数量指标出发进行研究。使用多因素方差分析方法及多种语料库定量探讨该三项数量指标对分类性能的影响规律。结果发现特征项数对分类性能的影响在不同的文本数和类别数时是不同的,分类性能受训练集的这三项指标的交互影响,通过对训练集的这三项指标进行优化,提出了从分类算法、特征项选择法以外提高分类性能的途径。在真实数据上的实验结果表明,该方法可有效提高分类性能。

关 键 词:训练集优化  文本分类  多因素方差分析  语料库  相关数量指标

Study about effect of relevant quantitative indexes of training set in text classification
LI Xiang-dong,CAO Huan,HUANG Li.Study about effect of relevant quantitative indexes of training set in text classification[J].Application Research of Computers,2014(11).
Authors:LI Xiang-dong  CAO Huan  HUANG Li
Abstract:
Keywords:training set optimization  text classification  multiple ANOVA  corpus  relevant quantitative indexes
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号