共查询到20条相似文献,搜索用时 15 毫秒
1.
近年来,深度学习技术被广泛应用于各个领域,基于深度学习的预处理模型将自然语言处理带入一个新时代。预训练模型的目标是如何使预训练好的模型处于良好的初始状态,在下游任务中达到更好的性能表现。对预训练技术及其发展历史进行介绍,并按照模型特点划分为基于概率统计的传统模型和基于深度学习的新式模型进行综述;简要分析传统预训练模型的特点及局限性,重点介绍基于深度学习的预训练模型,并针对它们在下游任务的表现进行对比评估;梳理出具有启发意义的新式预训练模型,简述这些模型的改进机制以及在下游任务中取得的性能提升;总结目前预训练的模型所面临的问题,并对后续发展趋势进行展望。 相似文献
2.
随着深度学习的发展,基于深度学习的命名实体识别抽取过程中,作为基础步骤的预训练模型也愈发受到重视。中文预训练语言模型能够更好地结合语义语境,更加充分地考虑到一词多义的情况,因此该语言模型目前也普遍应用于命名实体识别任务。文中首先介绍了BERT、ERNIE、NEZHA三种预训练模型,之后构建预训练模型、BiGRU及CRF的算法模型,在阿里中文地址要素解析比赛数据集上进行中文地址命名实体识别任务。实验结果表明,NEZHA取得当前预训练语言模型最优的识别结果。 相似文献
3.
4.
近年来深度学习技术不断进步,随着预训练模型在自然语言处理中的应用与发展,机器阅读理解不再单纯地依靠网络结构与词嵌入相结合的方法。预训练语言模型的发展推动了机器阅读理解的进步,在某些数据集上已经超越了人类的表现。简要介绍机器阅读理解以及预训练语言模型的相关概念,综述当下基于预训练模型的机器阅读理解研究进展,对目前预训练模型在相关数据集上的性能进行分析,总结了目前存在的问题并对未来进行展望。 相似文献
5.
文本匹配是自然语言理解的关键技术之一,其任务是判断两段文本的相似程度.近年来随着预训练模型的发展,基于预训练语言模型的文本匹配技术得到了广泛的应用.然而,这类文本匹配模型仍然面临着在某一特定领域泛化能力不佳、语义匹配时鲁棒性较弱这两个挑战.为此,本文提出了基于低频词的增量预训练及对抗训练方法来提高文本匹配模型的效果.本文通过针对领域内低频词的增量预训练,帮助模型向目标领域迁移,增强模型的泛化能力;同时本文尝试多种针对低频词的对抗训练方法,提升模型对词级别扰动的适应能力,提高模型的鲁棒性.本文在LCQMC数据集和房产领域文本匹配数据集上的实验结果表明,增量预训练、对抗训练以及这两种方式的结合使用均可明显改善文本匹配结果. 相似文献
6.
近年来随着深度学习技术的不断革新,预训练模型在自然语言处理中的应用也越来越广泛,关系抽取不再是单纯地依赖传统的流水线方法。预训练语言模型的发展已经极大地推动了关系抽取的相关研究,在很多领域已经超越了传统方法。首先简要介绍关系抽取的发展与经典预训练模型;其次总结当下常用的数据集与评测方法,并分析模型在各数据集上的表现;最后探讨关系抽取发展的挑战与未来研究趋势。 相似文献
7.
关系抽取任务旨在从文本中抽取实体对之间的关系,是当前自然语言处理(NLP)领域的热门方向之一。针对中文人物关系抽取语料中语法结构复杂,无法有效学习文本语义特征的问题,提出一个基于预训练和多层次信息的中文人物关系抽取模型(CCREPMI)。该模型首先利用预训练模型较强的语义表征能力生成词向量,并将原始句子分成句子层次、实体层次和实体邻近层次分别进行特征提取,最终融合句子结构特征、实体含义以及实体与邻近词的依赖关系等信息进行关系分类预测。在中文人物关系数据集上的实验结果表明,该模型的精度达到81.5%,召回率达到82.3%,F1值达到81.9%,相比BERT和BERT-LSTM等基线模型有所提升。此外,该模型在SemEval2010-task8英文数据集上的F1值也达到了81.2%,表明它对英文语料具有一定的泛化能力。 相似文献
8.
近年来,随着深度学习的快速发展,面向自然语言处理领域的预训练技术获得了长足的进步。早期的自然语言处理领域长期使用Word2Vec等词向量方法对文本进行编码,这些词向量方法也可看作静态的预训练技术。然而,这种上下文无关的文本表示给其后的自然语言处理任务带来的提升非常有限,并且无法解决一词多义问题。ELMo提出了一种上下文相关的文本表示方法,可有效处理多义词问题。其后,GPT和BERT等预训练语言模型相继被提出,其中BERT模型在多个典型下游任务上有了显著的效果提升,极大地推动了自然语言处理领域的技术发展,自此便进入了动态预训练技术的时代。此后,基于BERT的改进模型、XLNet等大量预训练语言模型不断涌现,预训练技术已成为自然语言处理领域不可或缺的主流技术。文中首先概述预训练技术及其发展历史,并详细介绍自然语言处理领域的经典预训练技术,包括早期的静态预训练技术和经典的动态预训练技术;然后简要梳理一系列新式的有启发意义的预训练技术,包括基于BERT的改进模型和XLNet;在此基础上,分析目前预训练技术研究所面临的问题;最后对预训练技术的未来发展趋势进行展望。 相似文献
9.
在自然语言处理领域,谷歌提出Transformer模型之后,以生成式预训练模型(Generative Pre-Training,GPT)和深度双向预训练语言模型(Bidirectional Encoder Representat ions from Transformers,BERT)等为代表的一些基于Transformer的预训练语言模型(Transformer-based Pre-trained Language Models,TPLM)相继被提出,在大部分自然语言处理任务上取得很好的效果。TPLM使用自监督学习方法学习来自大量文本数据的通用语言表示,并将这些知识转移到下游任务中,为其提供了背景知识,避免了重新开始训练新任务模型的情况。笔者主要研究了基于Transformer的预训练语言模型与基于TPLM的“预训练+微调”的自然语言处理预训练新技术模式。首先,介绍预训练模型的发展背景;其次,解释各种有关TPLM的核心概念,如预训练、预训练方法、预训练任务、自监督学习与迁移学习等;再次,简要介绍相关TPLM模型与目前的进展;最后,提出改进TPLM的方法并总结。 相似文献
10.
命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界模糊、语义多样化、形态特征模糊以及中文语料库内容较少等问题,导致中文命名实体识别性能难以大幅提升。介绍了CNER的数据集、标注方案和评价指标。按照CNER的研究进程,将CNER方法分为基于规则的方法、基于统计的方法和基于深度学习的方法三类,并对近五年来基于深度学习的CNER主要模型进行总结。探讨CNER的研究趋势,为新方法的提出和未来研究方向提供一定参考。 相似文献
11.
在对文博数据进行知识图谱的构建时,从文本中抽取出有效的三元组尤为重要,因而命名实体识别成为挖掘文博数据的首要任务。传统的中文实体命名识别方法多采用深度神经网络模型,此类方法在对词进行向量化处理时只是将词映射成单一的词向量,并不能很好地表示词的多义性。预训练语言模型能够有效地对字进行向量化表示,将语义信息充分地结合。因此,针对文博数据提出一种基于BERT的预训练实体识别模型,采用BERT预训练模型进行词嵌入,通过利用双向长短期记忆网络(BiLSTM)模型结合上下文信息来增强词向量的语义信息,然后利用条件随机场(CRF)模型进行解码。与传统长短期记忆(LSTM)网络和BiLSTM-CRF模型相比,该模型在微软公开数据集(MSRA)以及自行标注文博知识数据集上表现突出,在文博知识数据集中,模型的准确率达到93.57%,召回率达到75.00%,F1值达到73.58%。 相似文献
12.
13.
伴随着人工智能时代的到来,深度学习技术开始被应用于各个领域,在自然语言处理领域,基于深度学习的模型逐渐地成为主流,而语言预处理模型又进一步提高了自然语言处理中命名实体识别任务的识别效果。在命名实体识别任务中,良好的预处理模型可以使后续的任务得到更好的性能表现。本文主要通过对比主流的命名实体识别模型在引入预处理模型前后识别效果的变化对比,来探讨语言预处理模型对命名实体识别任务识别效果的影响。 相似文献
14.
15.
16.
17.
藏文文本分类是藏文自然语言处理中的基础任务,具有基础性和重要性。大规模预训练模型加微调的方式是当前的主流文本分类方法。然而藏文缺少开源的大规模文本和预训练语言模型,未能在藏文文本分类任务上进行验证。针对上述问题,该文抓取了一个较大规模的藏文文本数据集,并在该数据集的基础上训练一个藏文预训练语言模型(BERT-base-Tibetan)。将该方法应用到多种基于神经网络的文本分类模型上的实验结果表明,预训练语言模型能够显著提升藏文文本分类的性能(F1值平均提升9.3%),验证了预训练语言模型在藏文文本分类任务中的价值。 相似文献
18.
本文主要针对酒店领域的评论信息进行情感分析,研究用户对于酒店配置、服务等方面的态度,以便为酒店提高个性化服务质量提供一定的帮助.本文基于BiLSTM神经网络构建预训练模型进行实验,同时与传统的机器学习算法进行比较,实验结果显示,相较于朴素贝叶斯,支持向量机的分析准确率更为稳定,而利用预训练模型进行预测的精确率相比前两者有小幅度的提高;同时以基础词典为主体,构建适用于酒店评论的扩展情感词典,对否定词的权重进行了弱化处理,减小对带有相反含义语句的分类效果的影响,将基础词典与扩展词典对获取的同一语料进行情感分类,比较二者的结果表明采用扩展词典进行正向分类的准确率为86%,负向分类的准确率为84%,结果显示扩展词典分类比基础词典的分类效果更好. 相似文献
19.
在大规模无监督语料上的BERT、XLNet等预训练语言模型,通常采用基于交叉熵损失函数的语言建模任务进行训练。模型的评价标准则采用困惑度或者模型在其他下游自然语言处理任务中的性能指标,存在损失函数和评测指标不匹配等问题。为解决这些问题,该文提出一种结合强化学习的对抗预训练语言模型RL-XLNet(Reinforcement Learning-XLNet)。RL-XLNet采用对抗训练方式训练一个生成器,基于上下文预测选定词,并训练一个判别器判断生成器预测的词是否正确。通过对抗网络生成器和判别器的相互促进作用,强化生成器对语义的理解,提高模型的学习能力。由于在文本生成过程中存在采样过程,导致最终的损失无法直接进行回传,故提出采用强化学习的方式对生成器进行训练。基于通用语言理解评估基准(GLUE Benchmark)和斯坦福问答任务(SQuAD 1.1)的实验,结果表明,与现有BERT、XLNet方法相比,RL-XLNet模型在多项任务中的性能上表现出较明显的优势: 在GLUE的六个任务中排名第1,一个任务排名第2,一个任务排名第3。在SQuAD 1.1任务中F1值排名第1。考虑到运算资源有限,基于小语料集的模型性能也达到了领域先进水平。 相似文献
20.
根据上下文语境选择恰当的成语,是自然语言处理领域的重要任务之一.现有的研究将成语完型填空任务看成是文本匹配问题,虽然预训练语言模型能够在文本匹配研究上取得较高的准确率,但也存在明显的缺陷:一方面,预训练语言模型作为特征提取器时,会丢失句子间相互信息;另一方面,预训练语言模型作为文本匹配器时,计算开销大,训练时间和推理时间较长.另外,上下文与候选成语之间的匹配是不对称的,会影响预训练语言模型发挥匹配器的效果.为了解决上述两个问题,利用参数共享的思想,提出了TALBERT-blank.TALBERTblank是将成语选择从基于上下文的不对称匹配过程转换为填空与候选答案之间的对称匹配过程,将预训练语言模型同时作为特征提取器和文本匹配器,并对句向量作潜在语义匹配.这样可以减少参数量和内存的消耗,在保持准确度的情况下,提高了训练和推理速度,达到了轻量高效的效果.在CHID数据集上的实验结果表明:作为匹配器, TALBERT-blank相较于ALBERT,在保证准确率的情况下,更大限度地精简了模型的结构,计算时间进一步缩短54.35%. 相似文献