多类型分类器融合的文本分类方法研究 |
| |
作者姓名: | 李惠富 陆光 |
| |
作者单位: | 东北林业大学信息与计算机工程学院,哈尔滨,150040;东北林业大学信息与计算机工程学院,哈尔滨,150040 |
| |
基金项目: | 黑龙江省自然科学基金资助项目(F201201) |
| |
摘 要: | 传统的文本分类方法大多数使用单一的分类器,而不同的分类器对分类任务的侧重点不同,就使得单一的分类方法有一定的局限性,同时每个特征提取方法对特征词的考虑角度不同。针对以上问题,提出了多类型分类器融合的文本分类方法。该模型使用了word2vec、主成分分析、潜在语义索引以及TFIDF特征提取方法作为多类型分类器融合的特征提取方法。并在多类型分类器加权投票方法中忽略了类别信息的问题,提出了类别加权的分类器权重计算方法。通过实验结果表明,多类型分类器融合方法在二元语料库、多元语料库以及特定语料库上都取得了很好的性能,类别加权的分类器权重计算方法比多类型分类器融合方法在分类性能方面提高了1.19%。
|
关 键 词: | 文本分类 分类器融合 主成分分析 潜在语义索引 |
收稿时间: | 2017-09-04 |
修稿时间: | 2018-04-18 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《计算机应用研究》浏览原始摘要信息 |
|
点击此处可从《计算机应用研究》下载全文 |
|