一种应用于文本分类的段落向量正向激励方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

一种应用于文本分类的段落向量正向激励方法

引用本文：	钱亚冠,方科彬,康明,顾钊铨,潘俊,王滨,Wassim Swaileh.一种应用于文本分类的段落向量正向激励方法[J].中文信息学报,2023(7):51-60.

作者姓名：	钱亚冠方科彬康明顾钊铨潘俊王滨 Wassim Swaileh

作者单位：	1. 浙江科技学院大数据学院;2. 海康威视-浙江科技学院边缘智能安全联合实验室;3. 南京航空航天大学经济与管理学院;4. 广州大学网络空间先进技术研究院;5. 塞尔齐.巴黎大学ETIS国家实验室

基金项目：	科技部重点研究与发展计划项目(2018YFB2100400)；;国家自然科学基金(61902082)；

摘要：	文本分类广泛应用于文档检索、网络搜索等领域，其中文本的向量化表示对于分类性能的提高具有重要的影响。在将变长文本表示成定长向量时，传统的段落向量化算法Doc2Vec忽视了该算法每轮训练的次数与段落长度高度相关的问题，以及长段落包含短段落信息的情况，限制了分类模型准确率的进一步提升。针对该问题，该文提出一种应用于文本分类的基于段落向量正向激励的方法。首先，根据中位数划分长、短段落向量，然后在分类模型输入过程中提升长段落向量的权重，实现提高模型分类准确率的目的。在Stanford Sentiment Treebank、IMDB和Amazon Reviews三个数据集上的实验结果表明，通过选择适当的激励系数，采用段落向量正向激励的分类模型可以获得更高的分类准确率。
关键词：	正向激励段落向量文本分类

设为首页 | 免责声明 | 关于勤云 | 加入收藏