首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
BERT是近年来提出的一种大型的预训练语言模型,在文本分类任务中表现优异,但原始BERT模型需要大量标注数据来进行微调训练,且参数规模大、时间复杂度高。在许多真实场景中,大量的标注数据是不易获取的,而且模型参数规模过大不利于在真实场景的实际应用。为了解决这一问题,提出了一种基于半监督生成对抗网络的BERT改进模型GT-BERT。采用知识蒸馏的压缩方法将BERT模型进行压缩;引入半监督生成对抗网络的框架对BERT模型进行微调并选择最优生成器与判别器配置。在半监督生成对抗网络的框架下增加无标签数据集对模型进行微调,弥补了标注数据较少的缺点。在多个数据集上的实验结果表明,改进模型GT-BERT在文本分类任务中性能优异,可以有效利用原始模型不能使用的无标签数据,大大降低了模型对标注数据的需求,并且具有较低的模型参数规模与时间复杂度。  相似文献   

2.
为了解决预训练语言模型训练时间过长、参数多且难以部署,以及非预训练语言模型分类效果较差的问题,提出了基于知识蒸馏模型的文本情感分析。以预训练深度学习模型(Bidirectional Encoder Representations from Transformers, BERT)作为教师模型,选择双向长短期记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)作为学生模型;在知识蒸馏过程中,将教师模型的Softmax层的输出作为“知识”蒸馏给学生模型,并将蒸馏后的模型应用到公共事件网络舆情文本情感分析中。实验结果表明,该模型参数仅为BERT模型的1/13,使BiLSTM模型的准确率提升了2.2百分点,优于其他同类别轻量级模型,提高了文本情感分析效率。  相似文献   

3.
深度学习模型训练存在缺少大量带标签训练数据和数据隐私泄露等问题.为了解决这些问题,借由生成对抗网络可生成大量与真实数据同分布的对抗样本的特点,提出了一个基于条件生成对抗网络的深度学习模型训练数据生成方案.该方案采用条件生成对抗网络生成数据,满足了生成大量带标签训练数据的需求;结合数据变形方法实现数据隐私保护,解决了数据隐私泄露的问题.实验结果表明该方案是高效可行的,而且与其他方案相比,其在数据可用性和保护隐私方面具有优势.  相似文献   

4.
文本分类是自然语言处理中重要且经典的问题,常被应用于新闻分类、情感分析等场景。目前,基于深度学习的分类方法已经取得了较大的成功,但在实际应用中仍然存在以下3个方面的问题:1)现实生活中的文本数据存在大量的噪声标签,直接用这些数据训练模型会严重影响模型的性能;2)随着预训练模型的提出,模型分类准确率有所提升,但模型的规模和推理计算量也随之提升明显,使得在资源有限的设备上使用预训练模型成为一项挑战;3)预训练模型存在大量的冗余计算,当数据量较大时会导致模型出现预测效率低下的问题。针对上述问题,提出了一个融合抗噪和双重蒸馏(包括知识蒸馏和自蒸馏)的文本分类方法,通过基于置信学习的阈值抗噪方法和一种新的主动学习样例选择算法,以少量的标注成本提升数据的质量。同时,通过知识蒸馏结合自蒸馏的方式,减小了模型规模和冗余计算,进而使其可以根据需求灵活调整推理速度。在真实数据集上进行了大量实验来评估该方法的性能,实验结果表明所提方法在抗噪后准确率提升了1.18%,在较小的精度损失下相比BERT可以加速4~8倍。  相似文献   

5.
针对法律判决预测中罪名预测和法条推荐子任务,提出基于BERT (bidirectional encoder representation from transformers)预训练模型与知识蒸馏策略的多任务多标签文本分类模型.为挖掘子任务间的关联,提高预测准确率,运用BERT预训练模型进行多任务学习,建立BERT12multi文本分类模型;针对罪名、法条类别中的样本不均衡问题,采用分组的焦点损失(focal loss)以增强模型对于罕见罪名及法条的辨别能力;为降低模型计算复杂度并且提高模型推理速度,提出一种以教师模型评价为参考的知识蒸馏策略,通过动态平衡蒸馏中的蒸馏损失和分类损失,将BERT12multi压缩为浅层结构的学生模型.综上,构建出可以处理不均衡样本且具有较高推理速度的多任务多标签文本分类模型BERT6multi.在CAIL2018数据集上的实验表明:采用预训练模型及分组focal loss可显著提高法律判决预测的性能;通过融入教师模型评价,知识蒸馏得到的学生模型推理速度提高近一倍,并且在罪名预测及法条推荐任务...  相似文献   

6.
基于生成对抗网络的图像识别方法拥有很高的识别率,但训练时需要大量有标签样本,在有标签样本较少的情况时识别效果不佳。针对这个问题,结合深度卷积生成对抗网络和半监督生成对抗网络的特点建立半监督深度生成对抗网络。根据有标签样本和无标签样本分布,模型生成拟合真实分布的样本输入并训练分类器,增加了训练样本数从而提升识别率。将模型优化调整并进行图像识别实验,结果表明,该方法仅用少量有标签样本即可实现准确的图像识别。  相似文献   

7.
张云婷  叶麟  唐浩林  张宏莉  李尚 《软件学报》2024,35(7):3392-3409
对抗文本是一种能够使深度学习分类器作出错误判断的恶意样本, 敌手通过向原始文本中加入人类难以察觉的微小扰动制作出能欺骗目标模型的对抗文本. 研究对抗文本生成方法, 能对深度神经网络的鲁棒性进行评价, 并助力于模型后续的鲁棒性提升工作. 当前针对中文文本设计的对抗文本生成方法中, 很少有方法将鲁棒性较强的中文BERT模型作为目标模型进行攻击. 面向中文文本分类任务, 提出一种针对中文BERT的攻击方法Chinese BERT Tricker. 该方法使用一种汉字级词语重要性打分方法——重要汉字定位法; 同时基于掩码语言模型设计一种包含两类策略的适用于中文的词语级扰动方法实现对重要词语的替换. 实验表明, 针对文本分类任务, 所提方法在两个真实数据集上均能使中文BERT模型的分类准确率大幅下降至40%以下, 且其多种攻击性能明显强于其他基线方法.  相似文献   

8.
针对低资源语言缺少标签数据,而无法使用现有成熟的深度学习方法进行命名实体识别(NER)的问题,提出基于句级别对抗生成网络(GAN)的跨语言NER模型——SLGAN-XLM-R(Sentence Level GAN Based on XLM-R)。首先,使用源语言的标签数据在预训练模型XLM-R (XLM-Robustly optimized BERT pretraining approach)的基础上训练NER模型;同时,结合目标语言的无标签数据对XLM-R模型的嵌入层进行语言对抗训练;然后,使用NER模型来预测目标语言无标签数据的软标签;最后,混合源语言与目标语言的标签数据,以对模型进行二次微调来得到最终的NER模型。在CoNLL2002和CoNLL2003两个数据集的英语、德语、西班牙语、荷兰语四种语言上的实验结果表明,以英语作为源语言时,SLGAN-XLM-R模型在德语、西班牙语、荷兰语测试集上的F1值分别为72.70%、79.42%、80.03%,相较于直接在XLM-R模型上进行微调分别提升了5.38、5.38、3.05个百分点。  相似文献   

9.
知识蒸馏结合预训练语言模型是构建问答模型的主要方法之一,然而,这类方法存在知识转移效率低下、训练教师模型耗时严重、教师模型和学生模型能力不匹配等问题。针对上述问题,提出了一种基于自蒸馏与自集成的问答模型SD-SE-BERT。其中:自集成基于滑窗机制设计;学生模型采用BERT;教师模型由训练过程中得到的若干学生模型基于其验证集性能进行加权平均组合得到;损失函数利用集成后的输出结果和真实标签指导当前轮次的学生模型进行训练。在SQuAD1.1数据集上的实验结果表明,SD-SE-BERT的EM指标和F1指标相比较BERT模型分别提高7.5和4.9,并且模型性能优于其他代表性的单模型和蒸馏模型;相较于大型语言模型ChatGLM-6B的微调结果,EM指标提高4.5,F1指标提高2.5。证明SD-SE-BERT可以利用模型自身的监督信息来提高模型组合不同文本数据特征的能力,无须训练复杂的教师模型,避免了教师模型与学生模型不匹配的问题。  相似文献   

10.
张志远  李媛媛 《计算机应用研究》2020,37(11):3343-3346,3352
针对有监督的深度神经网络文本生成模型容易造成错误累积的问题,提出一种基于强化对抗思想训练的文本生成模型。通过将生成对抗网络鉴别器作为强化学习的奖励函数及时指导生成模型优化,尽量避免错误累积;通过在生成过程中加入目标指导特征帮助生成模型获取更多文本结构知识,提升文本生成模型真实性。在合成数据和真实数据集上的实验结果表明,该方法在文本生成任务中,较之前的文本生成模型在准确率和真实性上有了进一步的提高,验证了加入目标指导的强化对抗文本生成方法的有效性。  相似文献   

11.
在大规模无监督语料上的BERT、XLNet等预训练语言模型,通常采用基于交叉熵损失函数的语言建模任务进行训练。模型的评价标准则采用困惑度或者模型在其他下游自然语言处理任务中的性能指标,存在损失函数和评测指标不匹配等问题。为解决这些问题,该文提出一种结合强化学习的对抗预训练语言模型RL-XLNet(Reinforcement Learning-XLNet)。RL-XLNet采用对抗训练方式训练一个生成器,基于上下文预测选定词,并训练一个判别器判断生成器预测的词是否正确。通过对抗网络生成器和判别器的相互促进作用,强化生成器对语义的理解,提高模型的学习能力。由于在文本生成过程中存在采样过程,导致最终的损失无法直接进行回传,故提出采用强化学习的方式对生成器进行训练。基于通用语言理解评估基准(GLUE Benchmark)和斯坦福问答任务(SQuAD 1.1)的实验,结果表明,与现有BERT、XLNet方法相比,RL-XLNet模型在多项任务中的性能上表现出较明显的优势: 在GLUE的六个任务中排名第1,一个任务排名第2,一个任务排名第3。在SQuAD 1.1任务中F1值排名第1。考虑到运算资源有限,基于小语料集的模型性能也达到了领域先进水平。  相似文献   

12.
陈玺  杨雅婷  董瑞 《计算机工程》2021,47(12):112-117
针对训练汉维机器翻译模型时汉语-维吾尔语平行语料数据稀疏的问题,将汉语预训练语言BERT模型嵌入到汉维神经机器翻译模型中,以提高汉维机器翻译质量。对比不同汉语BERT预训练模型编码信息的嵌入效果,讨论BERT不同隐藏层编码信息对汉维神经机器翻译效果的影响,并提出一种两段式微调BERT策略,通过对比实验总结出将BERT模型应用在汉维神经机器翻译中的最佳方法。在汉维公开数据集上的实验结果显示,通过该方法可使机器双语互译评估值(BLEU)提升1.64,有效提高汉维机器翻译系统的性能。  相似文献   

13.
预训练语言模型的发展极大地推动了机器阅读理解任务的进步.为了充分利用预训练语言模型中的浅层特征,并进一步提升问答模型预测答案的准确性,提出了一种基于BERT的三阶段式问答模型.首先,基于BERT设计了预回答、再回答及答案调整三个阶段;然后,在预回答阶段将BERT嵌入层的输入视作浅层特征来进行答案预生成;接着,在再回答阶...  相似文献   

14.
BERT is a representative pre-trained language model that has drawn extensive attention for significant improvements in downstream Natural Language Processing (NLP) tasks. The complex architecture and massive parameters bring BERT competitive performance but also result in slow speed at model inference time. To speed up BERT inference, FastBERT realizes adaptive inference with an acceptable drop in accuracy based on knowledge distillation and the early-exit technique. However, many factors may limit the performance of FastBERT, such as the teacher classifier that is not knowledgeable enough, the batch size shrinkage and the redundant computation of student classifiers. To overcome these limitations, we propose a new BERT inference method with GPU-Efficient Exit Prediction (GEEP). GEEP leverages the shared exit loss to simplify the training process of FastBERT from two steps into only one step and makes the teacher classifier more knowledgeable by feeding diverse Transformer outputs to the teacher classifier. In addition, the exit layer prediction technique is proposed to utilize a GPU hash table to handle the token-level exit layer distribution and to sort test samples by predicted exit layers. In this way, GEEP can avoid batch size shrinkage and redundant computation of student classifiers. Experimental results on twelve public English and Chinese NLP datasets prove the effectiveness of the proposed approach. The source codes of GEEP will be released to the public upon paper acceptance.  相似文献   

15.
在图像分类和工业视觉检测过程中,缺陷样本量少导致神经网络分类器训练效率低及检测精度差,直接采用原始的离散标签又无法使网络分类器学习到不同类别间的相似度信息。针对上述问题,在区域丢弃算法的基础上,提出一种基于生成对抗网络的知识蒸馏数据增强算法。使用补丁对丢弃区域进行填补,减少区域丢弃产生的非信息噪声。在补丁生成网络中,保留生成对抗网络的编码器-解码器结构,利用编码器卷积层提取特征,通过解码器对特征图上采样生成补丁。在样本标签生成过程中,采用知识蒸馏算法中的教师-学生训练模式,按照交叉检验方式训练教师模型,根据教师模型生成的软标签对学生模型的训练进行指导,提高学生模型对特征的学习能力。实验结果表明,与区域丢弃算法相比,该算法在CIFAR-100、CIFAR-10数据集图像分类任务上的Top-1 Err、Top-5 Err分别降低3.1、0.8、0.5、0.6个百分点,在汽车转向器轴承数据集语义分割任务上的平均交并比和识别准确率分别提高2.8、2.3个百分点。  相似文献   

16.
口语理解是自然语言处理的一个重要内容,意图分类和槽填充是口语理解的两个基本子任务。最近的研究表明,共同学习这两项任务可以起到相互促进的作用。该文提出了一个基于BERT的意图分类联合模型,通过一个关联网络使得两个任务建立直接联系和共享信息,以此来提升任务效果。模型引入BERT来增强词向量的语义表示,有效解决了目前联合模型由于训练数据规模较小导致的泛化能力较差的问题。在ATIS和Snips数据集上的实验结果表明,该模型能有效提升意图分类和槽填充的性能。  相似文献   

17.
关系抽取旨在从未经标注的自由文本中抽取实体间的关系.然而,现有的方法大都孤立地预测每一个关系而未考虑关系标签相互之间的丰富语义关联.该文提出了一种融合预训练语言模型和标签依赖知识的关系抽取模型.该模型通过预训练模型BERT编码得到句子和两个目标实体的语义信息,使用图卷积网络建模关系标签之间的依赖图,并结合上述信息指导最...  相似文献   

18.
对话生成是自然语言处理的重点研究方向,对抗生成网络GAN最近在对话生成领域得到了较好的应用。为了进一步改善对话生成的质量,并且解决GAN训练过程中判别模型返回奖励重复利用率低从而导致模型训练效率低的问题,提出一种基于近端策略优化PPO的对话生成算法PPO_GAN。该算法通过GAN模型生成对话,通过判别模型区分生成的对话与真实的对话。并采用近端策略优化的方法训练GAN,能处理GAN在对话生成时导致的反向传播不可微分的情况,在保证生成模型单调非减训练的同时,通过限制生成模型迭代的梯度使判别模型得到的奖励可以重复利用。实验结果表明,对比于极大似然估计与Adver-REGS等对话生成算法,PPO_GAN算法提高了对话训练的效率并且改善了对话生成的质量。  相似文献   

19.
使用预训练语言模型的微调方法在以文本分类为代表的许多自然语言处理任务中取得了良好的效果,尤其以基于Transformer框架的BERT模型为典型代表。然而,BERT直接使用[CLS]对应的向量作为文本表征,没有从全局和局部考虑文本的特征,从而限制了模型的分类性能。因此,本文提出一种引入池化操作的文本分类模型,使用平均池化、最大池化以及K-MaxPooling等池化方法从BERT输出矩阵中提取文本的表征向量。实验结果表明,与原始的BERT模型相比,本文提出的引入池化操作的文本分类模型具有更好的性能,在实验的所有文本分类任务中,其准确率和F1-Score值均优于BERT模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号