首页 | 本学科首页   官方微博 | 高级检索  
     

多类型分类器融合的文本分类方法研究
引用本文:李惠富,陆光. 多类型分类器融合的文本分类方法研究[J]. 计算机应用研究, 2019, 36(3)
作者姓名:李惠富  陆光
作者单位:东北林业大学信息与计算机工程学院,哈尔滨,150040;东北林业大学信息与计算机工程学院,哈尔滨,150040
基金项目:黑龙江省自然科学基金资助项目(F201201)
摘    要:传统的文本分类方法大多数使用单一的分类器,而不同的分类器对分类任务的侧重点不同,就使得单一的分类方法有一定的局限性,同时每个特征提取方法对特征词的考虑角度不同。针对以上问题,提出了多类型分类器融合的文本分类方法。该模型使用了word2vec、主成分分析、潜在语义索引以及TFIDF特征提取方法作为多类型分类器融合的特征提取方法。并在多类型分类器加权投票方法中忽略了类别信息的问题,提出了类别加权的分类器权重计算方法。通过实验结果表明,多类型分类器融合方法在二元语料库、多元语料库以及特定语料库上都取得了很好的性能,类别加权的分类器权重计算方法比多类型分类器融合方法在分类性能方面提高了1.19%。

关 键 词:文本分类  分类器融合  主成分分析  潜在语义索引
收稿时间:2017-09-04
修稿时间:2018-04-18

Research on text classification method of multi-class classifier fusion
Li Huifu and Lu Guang. Research on text classification method of multi-class classifier fusion[J]. Application Research of Computers, 2019, 36(3)
Authors:Li Huifu and Lu Guang
Affiliation:Northeast Forestry University,
Abstract:Most of the traditional text classification methods use a single classifier, and different classifiers have different emphasis on classification tasks, which makes the single classification method have some limitations. At the same time, each feature extraction method has different angles of considering the feature words. Aiming at the above problems, this paper proposes a text classification method based on multi type classifier fusion, which combines Word2vec, Principal Component Analysis, Latent Semantic Indexing and TFIDF feature extraction as feature extraction methods for the multi type classifier fusion. The weighted voting method of multi type classifier ignores the category information. This paper proposes a weighted classifier weight calculation method. The experimental results show that the multi classifier fusion method has achieved good performance both in two dimensional, multiple corpora and corpus specific corpus, the classification weighting method of classifier weighting improves the classification performance by 1.19% compared with the multi type classifier fusion method.
Keywords:text classification  classifier fusion  principal component analysis  potential semantic index
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号