首页 | 本学科首页   官方微博 | 高级检索  
     

多类别文本分类方法比较研究
引用本文:于卫红.多类别文本分类方法比较研究[J].计算机技术与发展,2022(1).
作者姓名:于卫红
作者单位:大连海事大学航运经济与管理学院
基金项目:辽宁省社科规划基金项目(L17BGL025)。
摘    要:文本分类特别是多类别文本分类问题是非常重要的经典问题,在舆情监测、新闻推荐、在线评论情感分析等领域有着广泛的应用。目前,可用于多类别文本分类的算法很多,但每个算法都有其特定的假设和优缺点。为了帮助使用者或研究者更好地选择和改进分类方法,设计了多类别文本分类方法比较方案,综合考虑了文本特征表示方法和分类算法两个维度,对3种文本特征表示方法和5种分类算法进行组合,形成15种分类模型作为比较对象。基于所设计的比较流程,以从媒体阅读网站SKIP-GRAM爬取SKIP-GRAM的3000条不同类别的资讯文本为研究语料,对15种模型在不同数据规模下进行若干次比较后,以Kappa系数和运行时间作为评估指标。综合评估后认为:使用词嵌入进行文本特征表示无论在分类模型的运行速度上还是分类效果上都具有明显的优势,KNN+CBOW、SVM+CBOW、朴素贝叶斯+CBOW都是解决多类别文本分类问题较佳的模型。

关 键 词:文本分类  多类别  机器学习  文本特征表示  分类算法

Study on Comparison of Multi-class Text Classification Methods
YU Wei-hong.Study on Comparison of Multi-class Text Classification Methods[J].Computer Technology and Development,2022(1).
Authors:YU Wei-hong
Affiliation:(School of Transportation Economics and Management,Dalian Maritime University,Dalian 116026,China)
Abstract:
Keywords:text classification  multi-class  machine learning  text representation  classification algorithm
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号