首页 | 本学科首页   官方微博 | 高级检索  
     

基于Transformer的自然语言处理预训练语言模型概述
引用本文:史童月,王中卿.基于Transformer的自然语言处理预训练语言模型概述[J].信息与电脑,2022(10):52-56.
作者姓名:史童月  王中卿
作者单位:苏州大学计算机科学与技术学院
摘    要:在自然语言处理领域,谷歌提出Transformer模型之后,以生成式预训练模型(Generative Pre-Training,GPT)和深度双向预训练语言模型(Bidirectional Encoder Representat ions from Transformers,BERT)等为代表的一些基于Transformer的预训练语言模型(Transformer-based Pre-trained Language Models,TPLM)相继被提出,在大部分自然语言处理任务上取得很好的效果。TPLM使用自监督学习方法学习来自大量文本数据的通用语言表示,并将这些知识转移到下游任务中,为其提供了背景知识,避免了重新开始训练新任务模型的情况。笔者主要研究了基于Transformer的预训练语言模型与基于TPLM的“预训练+微调”的自然语言处理预训练新技术模式。首先,介绍预训练模型的发展背景;其次,解释各种有关TPLM的核心概念,如预训练、预训练方法、预训练任务、自监督学习与迁移学习等;再次,简要介绍相关TPLM模型与目前的进展;最后,提出改进TPLM的方法并总结。

关 键 词:Transformer  自然语言处理  预训练模型
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号