中文预训练模型研究进展期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

中文预训练模型研究进展

引用本文：	侯钰涛,阿布都克力木·阿布力孜,哈里旦木·阿布都克里木.中文预训练模型研究进展[J].计算机科学,2022(7):148-163.

作者姓名：	侯钰涛阿布都克力木·阿布力孜哈里旦木·阿布都克里木

作者单位：	新疆财经大学信息管理学院

基金项目：	国家自然科学基金(61866035,61966033)~~；

摘要：	近年来，预训练模型在自然语言处理领域蓬勃发展，旨在对自然语言隐含的知识进行建模和表示，但主流预训练模型大多针对英文领域。中文领域起步相对较晚，鉴于其在自然语言处理过程中的重要性，学术界和工业界都开展了广泛的研究，提出了众多的中文预训练模型。文中对中文预训练模型的相关研究成果进行了较为全面的回顾，首先介绍预训练模型的基本概况及其发展历史，对中文预训练模型主要使用的两种经典模型Transformer和BERT进行了梳理，然后根据不同模型所属类别提出了中文预训练模型的分类方法，并总结了中文领域的不同评测基准，最后对中文预训练模型未来的发展趋势进行了展望。旨在帮助科研工作者更全面地了解中文预训练模型的发展历程，继而为新模型的提出提供思路。
关键词：	中文预训练模型自然语言处理词向量预处理深度学习