首页 | 本学科首页   官方微博 | 高级检索  
     

一种应用于文本分类的段落向量正向激励方法
引用本文:钱亚冠,方科彬,康明,顾钊铨,潘俊,王滨,Wassim Swaileh.一种应用于文本分类的段落向量正向激励方法[J].中文信息学报,2023(7):51-60.
作者姓名:钱亚冠  方科彬  康明  顾钊铨  潘俊  王滨  Wassim Swaileh
作者单位:1. 浙江科技学院大数据学院;2. 海康威视-浙江科技学院边缘智能安全联合实验室;3. 南京航空航天大学经济与管理学院;4. 广州大学网络空间先进技术研究院;5. 塞尔齐.巴黎大学ETIS国家实验室
基金项目:科技部重点研究与发展计划项目(2018YFB2100400);;国家自然科学基金(61902082);
摘    要:文本分类广泛应用于文档检索、网络搜索等领域,其中文本的向量化表示对于分类性能的提高具有重要的影响。在将变长文本表示成定长向量时,传统的段落向量化算法Doc2Vec忽视了该算法每轮训练的次数与段落长度高度相关的问题,以及长段落包含短段落信息的情况,限制了分类模型准确率的进一步提升。针对该问题,该文提出一种应用于文本分类的基于段落向量正向激励的方法。首先,根据中位数划分长、短段落向量,然后在分类模型输入过程中提升长段落向量的权重,实现提高模型分类准确率的目的。在Stanford Sentiment Treebank、IMDB和Amazon Reviews三个数据集上的实验结果表明,通过选择适当的激励系数,采用段落向量正向激励的分类模型可以获得更高的分类准确率。

关 键 词:正向激励  段落向量  文本分类
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号