首页 | 本学科首页   官方微博 | 高级检索  
     

QV-Electra:引入Query-Value注意力机制的预训练文本分类模型
引用本文:邵党国,孔宪媛,相艳,安青,黄琨,郭军军.QV-Electra:引入Query-Value注意力机制的预训练文本分类模型[J].中文信息学报,2023(9):92-97.
作者姓名:邵党国  孔宪媛  相艳  安青  黄琨  郭军军
作者单位:1. 昆明理工大学信息工程与自动化学院;2. 昆明理工大学云南省人工智能重点实验室
基金项目:国家自然科学基金(62266025);
摘    要:预训练语言模型的作用是在大规模无监督语料上基于特定预训练任务获取语义表征能力,故在下游任务中仅需少量语料微调模型且效果较传统机器学习模型(如CNN、RNN、LSTM等)更优。常见的预训练语言模型如BERT、Electra、GPT等均是基于传统Attention机制搭建。研究表明,引入Query-Value计算的QV-Attention机制效果较Attention机制有所提升。该文模型QV-Electra将QV-Attention引入预训练模型Electra,该模型在保留Electra预训练模型参数的同时仅通过添加0.1%参数获得性能提升。实验结果表明,QV-Electra模型在同等时间的情况下,相较于传统模型以及同等参数规模预训练模型能取得更好的分类效果。

关 键 词:Electra预训练模型  Attention机制  QV-Attention机制  文本分类
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号