基于预训练语言模型的藏文文本分类期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于预训练语言模型的藏文文本分类

引用本文：	安波,龙从军.基于预训练语言模型的藏文文本分类[J].中文信息学报,2022(12):85-93.

作者姓名：	安波龙从军

作者单位：	中国社会科学院民族学与人类学研究所

摘要：	藏文文本分类是藏文自然语言处理中的基础任务，具有基础性和重要性。大规模预训练模型加微调的方式是当前的主流文本分类方法。然而藏文缺少开源的大规模文本和预训练语言模型，未能在藏文文本分类任务上进行验证。针对上述问题，该文抓取了一个较大规模的藏文文本数据集，并在该数据集的基础上训练一个藏文预训练语言模型(BERT-base-Tibetan)。将该方法应用到多种基于神经网络的文本分类模型上的实验结果表明，预训练语言模型能够显著提升藏文文本分类的性能(F₁值平均提升9.3%),验证了预训练语言模型在藏文文本分类任务中的价值。
关键词：	藏文文本分类预训练语言模型深度学习