首页 | 本学科首页   官方微博 | 高级检索  
     

基于提示学习的维吾尔语文本分类研究
引用本文:张博旭,蒲智,程曦.基于提示学习的维吾尔语文本分类研究[J].计算机工程,2023(6):292-299+313.
作者姓名:张博旭  蒲智  程曦
作者单位:新疆农业大学计算机与信息工程学院
基金项目:国家自然科学基金(62161048);
摘    要:维吾尔语属于低资源语言和黏着性语言,现有维吾尔语文本分类方法缺少足够的语料来训练维吾尔语预训练模型。因此,维吾尔语无法基于预训练模型提取有效的句向量信息。现有的文本分类方法利用深度学习模型提取词向量,然而,维吾尔语具有特征稀疏且维度偏高的特点,使得其在文本分类上的效果较差。为此,提出基于提示学习的维吾尔语文本分类方法。基于提示学习,采用多语言预训练模型Cino构造不同的模板,利用模型的掩码预测能力对不同的掩码位置进行预测。为避免掩码预测的词汇信息具有多样性,将模板掩盖掉的词向量代替整体的句向量,利用掩码模型的预测能力,以有限大小的向量表示当前句子的语义信息,将下游任务靠近模型的预训练任务,减少在微调阶段两者不同所造成的影响。在爬取维吾尔语网站所构建新闻数据集上进行的文本分类实验结果表明,相比Cino微调预训练模型,融合提示学习的Cino模型的F1值最高可达到92.53%,精准率和召回率分别提升了1.79、1.04个百分点,具有更优的维吾尔语文本分类效果。

关 键 词:文本分类  维吾尔语  提示学习  预训练模型  深度学习
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号