基于LOTClass模型的弱监督中文短文本分类算法 |
| |
引用本文: | 刘硕,王庚润,任玉媛. 基于LOTClass模型的弱监督中文短文本分类算法[J]. 信息工程大学学报, 2021, 22(5): 613-620 |
| |
作者姓名: | 刘硕 王庚润 任玉媛 |
| |
作者单位: | 信息工程大学 |
| |
摘 要: | 基于全监督学习的文本分类算法需要使用大量的标签数据,而文本数据的标注任务耗时耗力且标注难度较大。针对上述问题,提出了一种基于LOTClass模型的弱监督中文短文本分类算法。首先,使用少量的标签数据构建类别种子词表;其次,使用类别种子词表指导训练中文伪标签生成模型,并使用该模型生成大量伪标签数据;最后,利用优质伪标签数据训练一个中文短文本分类模型。在THUCNews新闻标题数据集和论文标题数据集上进行实验,结果表明,该算法在仅使用少量标签数据的情况下,其性能优于主流的半监督分类算法,同时不逊于一般的全监督分类算法,为无标签数据分类任务提供了一种较好的解决方案。
|
关 键 词: | 弱监督学习 中文文本 短文本分类 预训练模型 种子词 |
收稿时间: | 2021-06-30 |
修稿时间: | 2021-07-17 |
Weakly Supervised Chinese Short Text Classification Algorithm Based on LOTClass Model |
| |
Abstract: | |
| |
Keywords: | |
|
| 点击此处可从《信息工程大学学报》浏览原始摘要信息 |
|
点击此处可从《信息工程大学学报》下载免费的PDF全文 |
|