首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
藏文文本分类是藏文自然语言处理中的基础任务,具有基础性和重要性。大规模预训练模型加微调的方式是当前的主流文本分类方法。然而藏文缺少开源的大规模文本和预训练语言模型,未能在藏文文本分类任务上进行验证。针对上述问题,该文抓取了一个较大规模的藏文文本数据集,并在该数据集的基础上训练一个藏文预训练语言模型(BERT-base-Tibetan)。将该方法应用到多种基于神经网络的文本分类模型上的实验结果表明,预训练语言模型能够显著提升藏文文本分类的性能(F1值平均提升9.3%),验证了预训练语言模型在藏文文本分类任务中的价值。  相似文献   

2.
基于知识图谱的问答方法旨在通过知识图谱的三元组检索和推断来对自然语言形式的问题进行解答.然而,现有中文知识图谱问答语料库存在规模较小,质量较差等问题,相关语料库构建方法亟待完善.因此,本文提出一种融合预训练模型的中文知识图谱问题生成方法,目标是以中文知识图谱三元组作为输入生成正确且多样的问题.该方法汲取了条件变分自编码...  相似文献   

3.
随着自然语言处理(NLP)领域中预训练技术的快速发展,将外部知识引入到预训练语言模型的知识驱动方法在NLP任务中表现优异,知识表示学习和预训练技术为知识融合的预训练方法提供了理论依据。概述目前经典预训练方法的相关研究成果,分析在新兴预训练技术支持下具有代表性的知识感知的预训练语言模型,分别介绍引入不同外部知识的预训练语言模型,并结合相关实验数据评估知识感知的预训练语言模型在NLP各个下游任务中的性能表现。在此基础上,分析当前预训练语言模型发展过程中所面临的问题和挑战,并对领域发展前景进行展望。  相似文献   

4.
针对蒙汉机器翻译中平行语料资源稀缺的问题,提出利用单语语料库对蒙汉机器翻译进行研究.由于利用单语语料库进行机器翻译的效果较差,故将基于自注意力机制预训练跨蒙汉语言模型应用于基于单语语料库训练的蒙汉机器翻译系统中.实验结果表明,基于自注意力机制预训练跨蒙汉语言模型的方法极大改善了蒙汉机器翻译系统的性能.  相似文献   

5.
政策文本的量化研究近年来受到了政策研究学者的广泛关注,其研究结论以客观数据为依据,在很大程度上可以克服以往对政策定性分析的主观性和随机性.已有定量政策文本分析方法主要存在两方面的不足:一方面,对于政策文本的采集主要依靠手工收集,其数据规模较小;另一方面,在政策识别方面主要依靠人类经验,在小规模数据集上进行偏置归纳.针对...  相似文献   

6.
将知识引入到依靠数据驱动的人工智能模型中是实现人机混合智能的一种重要途径.当前以BERT为代表的预训练模型在自然语言处理领域取得了显著的成功,但是由于预训练模型大多是在大规模非结构化的语料数据上训练出来的,因此可以通过引入外部知识在一定程度上弥补其在确定性和可解释性上的缺陷.该文针对预训练词嵌入和预训练上下文编码器两个...  相似文献   

7.
8.
姚奕  杨帆 《计算机科学》2022,(10):243-251
关键词表征了文本的主题,是文本概念和主题的凝练。通过关键词,读者可以快速了解文档表达的主旨和思想,从而提升信息检索效率;此外,关键词抽取也可以为自动摘要、文本分类提供支撑。近年来,自动抽取关键词的研究引起了广泛关注,但如何精准地抽取文档的关键词仍是一个挑战。一方面,关键词是人们主观的认识,判断一个词是否是关键词本身具有主观性;另一方面,中文词汇往往具有丰富的语义信息,单纯依赖传统统计特征和主题特征难以准确提炼文本所表达的主旨思想。针对中文关键词抽取中存在的准确率低、信息冗余和信息缺失等问题,提出了一种联合知识图谱和预训练模型的无监督关键词抽取方法。该方法首先利用预训练模型进行主题聚类,并通过一种以句子为单位的聚类方法保证最终选取的关键词对全文内容的覆盖度;同时,通过知识图谱进行实体链接,以此实现精准分词及歧义消除;然后,根据主题信息构建语义词图,并以此为基础计算词语间的语义权重;最后,通过加权的PageRank算法进行关键词排序。在DUC 2001和CSL两个公开数据集和一个单独标注的CLTS数据集上,以预测结果的准确率、召回率及F1值为指标进行对比实验。实验结果表明,该模型相比多种基...  相似文献   

9.
针对传统情感分类模型的分类效果不足,无法准确地捕捉词语之间关系的问题,提出一种基于预训练语言模型词向量融合的GE-BiLSTM(Glove-ELMO-BiLSTM)情感分析模型.通过预训练语言模型ELMO以语言模型为目的训练词向量,再与传统的Glove模型的训练结果进行运算融合,结合了全局信息以及局部上下文信息,增加了...  相似文献   

10.
属性抽取是构建知识图谱的关键一环,其目的是从非结构化文本中抽取出与实体相关的属性值.该文将属性抽取转化成序列标注问题,使用远程监督方法对电商相关的多种来源文本进行自动标注,缓解商品属性抽取缺少标注数据的问题.为了对系统性能进行精准评价,构建了人工标注测试集,最终获得面向电商的多领域商品属性抽取标注数据集.基于新构建的数...  相似文献   

11.
偏见现象普遍存在于人类社会,并通常以自然语言为载体呈现.传统的偏见研究主要针对静态词嵌入模型展开,但随着自然语言处理技术的不断演进,研究对象逐渐转向上下文处理能力更强的预训练模型.而作为预训练模型的进一步发展,尽管大型语言模型凭借惊人的性能和广阔的发展前景在多个应用场景中得到了广泛部署,但其仍可能会从未经处理的训练数据中捕捉到社会偏见,并将偏见传播到下游任务中.含有偏见的大型语言模型系统会产生不良的社会影响和潜在危害,因此针对大型语言模型的偏见研究亟待深入探讨.探讨了自然语言处理中偏见的由来,并对从词嵌入模型到现在大型语言模型的偏见评估和偏见缓解方法进行了分析与总结,旨在为未来相关研究提供有益参考.  相似文献   

12.
近年来深度学习在软件工程领域任务中取得了优异的性能. 众所周知, 实际任务中优异性能依赖于大规模训练集, 而收集和标记大规模训练集需要耗费大量资源和成本, 这限制了深度学习技术在实际任务中的广泛应用. 随着深度学习领域预训练模型(pre-trained model, PTM)的发布, 将预训练模型引入到软件工程(software engineering, SE)任务中得到了国内外软件工程领域研究人员的广泛关注, 并得到了质的飞跃, 使得智能化软件工程进入了一个新时代. 然而, 目前没有研究提炼预训练模型在软件工程领域的成功和机遇. 为阐明这一交叉领域的工作 (pre-trained models for software engineering, PTM4SE), 系统梳理当前基于预训练模型的智能软件工程相关工作, 首先给出基于预训练模型的智能软件工程方法框架, 其次分析讨论软件工程领域常用的预训练模型技术, 详细介绍使用预训练模型的软件工程领域下游任务, 并比较和分析预训练模型技术这些任务上的性能. 然后详细介绍常用的训练和微调PTM的软件工程领域数据集. 最后, 讨论软件工程领域使用PTM面临的挑战和机遇. 同时将整理的软件工程领域PTM和常用数据集发布在https://github.com/OpenSELab/PTM4SE.  相似文献   

13.
远程监督关系抽取面临着数据质量的问题,即生成的数据集存在多类噪声,包括噪声词、噪声句和噪声包。现有研究主要集中在噪声句方面,忽略了其他噪声的影响,无法彻底消除噪声。为此,提出一种基于多层级注意力机制和动态阈值的远程监督关系抽取模型(MADT)。该模型首先采用预训练语言模型获取实体对语义表示,再通过双向门控循环单元和自注意力机制获得蕴涵关键词信息的语义特征,然后结合句子深层上下文表示依次处理三种噪声问题。此外,还提出一种动态阈值方法进一步剔除噪声句,增强正例句对包表示的贡献,并采用基于语义相似性的注意力机制降低噪声包的影响。在NYT10d和NYT10m数据集上的实验表明,MADT模型能够解决远程监督关系抽取中各个层面的噪声,有效提升关系抽取性能。  相似文献   

14.
针对卷积结构的深度学习模型在小样本学习场景中泛化性能较差的问题,以AlexNet和ResNet为例,提出一种基于小样本无梯度学习的卷积结构预训练模型的性能优化方法.首先基于因果干预对样本数据进行调制,由非时序数据生成序列数据,并基于协整检验从数据分布平稳性的角度对预训练模型进行定向修剪;然后基于资本资产定价模型(CAP...  相似文献   

15.
针对新闻主题文本用词缺乏规范、语义模糊、特征稀疏等问题,提出了结合BERT和特征投影网络(FPnet)的新闻主题文本分类方法。该方法包含两种实现方式:方式1将新闻主题文本在BERT模型的输出进行多层全连接层特征提取,并将最终提取到的文本特征结合特征投影方法进行提纯,从而强化分类效果;方式2在BERT模型内部的隐藏层中融合特征投影网络进行特征投影,从而通过隐藏层特征投影强化提纯分类特征。在今日头条、搜狐新闻、THUCNews-L、THUCNews-S数据集上进行实验,实验结果表明上述两种方式相较于基线BERT方法在准确率、宏平均F1值上均具有更好的表现,准确率最高分别为86.96%、86.17%、94.40%和93.73%,验证了所提方法的可行性和有效性。  相似文献   

16.
知识图谱是一种应用广泛且语义丰富的数据表示形式,日益成为知识工程领域的重要技术。但是由于现实世界中的知识图谱往往存在不完整和含糊的信息,阻碍了知识图谱应用性能。知识图谱补全技术旨在通过预测缺失的实体或关系来丰富知识图谱的内容,是近年来研究的热点,特别是在知识图谱补全任务中采用嵌入式方法取得了显著进展。回顾近年来嵌入式静态知识图谱补全方法,从空间平移、张量分解、神经网络模型、预训练语言模型等角度开展分类探讨。这些方法通过将实体关系嵌入到连续向量空间中,实现了更好的语义表示和推理能力;同时,在捕捉实体间复杂关系、利用图结构信息等方面具有潜在优势。  相似文献   

17.
基于ALBERT-BGRU-CRF的中文命名实体识别方法   总被引:1,自引:0,他引:1  
命名实体识别是知识图谱构建、搜索引擎、推荐系统等上层自然语言处理任务的重要基础,中文命名实体识别是对一段文本序列中的专有名词或特定命名实体进行标注分类。针对现有中文命名实体识别方法无法有效提取长距离语义信息及解决一词多义的问题,提出一种基于ALBERT-双向门控循环单元(BGRU)-条件随机场(CRF)模型的中文命名实体识别方法。使用ALBERT预训练语言模型对输入文本进行词嵌入获取动态词向量,有效解决了一词多义的问题。采用BGRU提取上下文语义特征进一步理解语义,获取长距离词之间的语义特征。将拼接后的向量输入至CRF层并利用维特比算法解码,降低错误标签输出概率。最终得到实体标注信息,实现中文命名实体识别。实验结果表明,ALBERT-BGRU-CRF模型在MSRA语料库上的中文命名实体识别准确率和召回率分别达到95.16%和94.58%,同时相比于片段神经网络模型和CNN-BiLSTM-CRF模型的F1值提升了4.43和3.78个百分点。  相似文献   

18.
问题分类的计算模型研究   总被引:2,自引:0,他引:2  
问题分类是问答系统技术处理的基础与核心,它决定答案抽取的范围和方法,进而影响整个系统的性能。本文提出了一个基于贝叶斯理论的问题分类计算模型,并给出其详细算法。研究分析了问句内部结构与问题类型之间的关系,将基于疑问词的2-gram组合和问句特征项同义近义扩展应用到具体计算中。实验表明,效果较为理想。  相似文献   

19.
开放域答案选择模型通过对同一问题的不同候选答案打分,寻找与问题最匹配的答案,是问答(QA)系统的重要组成部分。现有开放域QA系统中的答案选择模型较少关注词级与句子级的融合,导致在匹配关系上缺乏上下文的语义联系,或损失个别单词在语法语义上的细节信息。基于相邻相似原理,提出一种融合双匹配焦点的答案选择模型。根据问答任务多语句关联的特点,设计一种可以将词语的问答承接关系和问答语义关系嵌入进词向量的词嵌入方式,并利用该词向量直接计算词对的余弦相似度,得到词级匹配焦点。通过引入注意力机制的Encoder-Decoder模型提取句子级词对匹配焦点,以问题为基准对齐两个焦点分布矩阵,并使用焦点间的相对距离融合词级与句子级匹配矩阵,获得问题与答案的相关性得分。在Wiki-QA、TREC-QA两个公开问答数据集上的实验结果表明,该模型与多跳注意力模型、层级排序模型相比,平均准确率均值分别提高0.080 1和0.057 1,平均倒数排名分别提高0.017 6和0.006 6。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号