首页 | 本学科首页   官方微博 | 高级检索  
     

基于LOTClass模型的弱监督中文短文本分类算法
引用本文:刘硕,王庚润,任玉媛. 基于LOTClass模型的弱监督中文短文本分类算法[J]. 信息工程大学学报, 2021, 22(5): 613-620
作者姓名:刘硕  王庚润  任玉媛
作者单位:信息工程大学
摘    要:基于全监督学习的文本分类算法需要使用大量的标签数据,而文本数据的标注任务耗时耗力且标注难度较大。针对上述问题,提出了一种基于LOTClass模型的弱监督中文短文本分类算法。首先,使用少量的标签数据构建类别种子词表;其次,使用类别种子词表指导训练中文伪标签生成模型,并使用该模型生成大量伪标签数据;最后,利用优质伪标签数据训练一个中文短文本分类模型。在THUCNews新闻标题数据集和论文标题数据集上进行实验,结果表明,该算法在仅使用少量标签数据的情况下,其性能优于主流的半监督分类算法,同时不逊于一般的全监督分类算法,为无标签数据分类任务提供了一种较好的解决方案。

关 键 词:弱监督学习  中文文本  短文本分类  预训练模型  种子词  
收稿时间:2021-06-30
修稿时间:2021-07-17

Weakly Supervised Chinese Short Text Classification Algorithm Based on LOTClass Model
Abstract:
Keywords:
点击此处可从《信息工程大学学报》浏览原始摘要信息
点击此处可从《信息工程大学学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号