首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
藏文文本分类是藏文自然语言处理中的基础任务,具有基础性和重要性。大规模预训练模型加微调的方式是当前的主流文本分类方法。然而藏文缺少开源的大规模文本和预训练语言模型,未能在藏文文本分类任务上进行验证。针对上述问题,该文抓取了一个较大规模的藏文文本数据集,并在该数据集的基础上训练一个藏文预训练语言模型(BERT-base-Tibetan)。将该方法应用到多种基于神经网络的文本分类模型上的实验结果表明,预训练语言模型能够显著提升藏文文本分类的性能(F1值平均提升9.3%),验证了预训练语言模型在藏文文本分类任务中的价值。  相似文献   

2.
基于知识图谱的问答方法旨在通过知识图谱的三元组检索和推断来对自然语言形式的问题进行解答.然而,现有中文知识图谱问答语料库存在规模较小,质量较差等问题,相关语料库构建方法亟待完善.因此,本文提出一种融合预训练模型的中文知识图谱问题生成方法,目标是以中文知识图谱三元组作为输入生成正确且多样的问题.该方法汲取了条件变分自编码...  相似文献   

3.
随着自然语言处理(NLP)领域中预训练技术的快速发展,将外部知识引入到预训练语言模型的知识驱动方法在NLP任务中表现优异,知识表示学习和预训练技术为知识融合的预训练方法提供了理论依据。概述目前经典预训练方法的相关研究成果,分析在新兴预训练技术支持下具有代表性的知识感知的预训练语言模型,分别介绍引入不同外部知识的预训练语言模型,并结合相关实验数据评估知识感知的预训练语言模型在NLP各个下游任务中的性能表现。在此基础上,分析当前预训练语言模型发展过程中所面临的问题和挑战,并对领域发展前景进行展望。  相似文献   

4.
针对蒙汉机器翻译中平行语料资源稀缺的问题,提出利用单语语料库对蒙汉机器翻译进行研究.由于利用单语语料库进行机器翻译的效果较差,故将基于自注意力机制预训练跨蒙汉语言模型应用于基于单语语料库训练的蒙汉机器翻译系统中.实验结果表明,基于自注意力机制预训练跨蒙汉语言模型的方法极大改善了蒙汉机器翻译系统的性能.  相似文献   

5.
政策文本的量化研究近年来受到了政策研究学者的广泛关注,其研究结论以客观数据为依据,在很大程度上可以克服以往对政策定性分析的主观性和随机性.已有定量政策文本分析方法主要存在两方面的不足:一方面,对于政策文本的采集主要依靠手工收集,其数据规模较小;另一方面,在政策识别方面主要依靠人类经验,在小规模数据集上进行偏置归纳.针对...  相似文献   

6.
将知识引入到依靠数据驱动的人工智能模型中是实现人机混合智能的一种重要途径.当前以BERT为代表的预训练模型在自然语言处理领域取得了显著的成功,但是由于预训练模型大多是在大规模非结构化的语料数据上训练出来的,因此可以通过引入外部知识在一定程度上弥补其在确定性和可解释性上的缺陷.该文针对预训练词嵌入和预训练上下文编码器两个...  相似文献   

7.
8.
姚奕  杨帆 《计算机科学》2022,(10):243-251
关键词表征了文本的主题,是文本概念和主题的凝练。通过关键词,读者可以快速了解文档表达的主旨和思想,从而提升信息检索效率;此外,关键词抽取也可以为自动摘要、文本分类提供支撑。近年来,自动抽取关键词的研究引起了广泛关注,但如何精准地抽取文档的关键词仍是一个挑战。一方面,关键词是人们主观的认识,判断一个词是否是关键词本身具有主观性;另一方面,中文词汇往往具有丰富的语义信息,单纯依赖传统统计特征和主题特征难以准确提炼文本所表达的主旨思想。针对中文关键词抽取中存在的准确率低、信息冗余和信息缺失等问题,提出了一种联合知识图谱和预训练模型的无监督关键词抽取方法。该方法首先利用预训练模型进行主题聚类,并通过一种以句子为单位的聚类方法保证最终选取的关键词对全文内容的覆盖度;同时,通过知识图谱进行实体链接,以此实现精准分词及歧义消除;然后,根据主题信息构建语义词图,并以此为基础计算词语间的语义权重;最后,通过加权的PageRank算法进行关键词排序。在DUC 2001和CSL两个公开数据集和一个单独标注的CLTS数据集上,以预测结果的准确率、召回率及F1值为指标进行对比实验。实验结果表明,该模型相比多种基...  相似文献   

9.
针对传统情感分类模型的分类效果不足,无法准确地捕捉词语之间关系的问题,提出一种基于预训练语言模型词向量融合的GE-BiLSTM(Glove-ELMO-BiLSTM)情感分析模型.通过预训练语言模型ELMO以语言模型为目的训练词向量,再与传统的Glove模型的训练结果进行运算融合,结合了全局信息以及局部上下文信息,增加了...  相似文献   

10.
属性抽取是构建知识图谱的关键一环,其目的是从非结构化文本中抽取出与实体相关的属性值.该文将属性抽取转化成序列标注问题,使用远程监督方法对电商相关的多种来源文本进行自动标注,缓解商品属性抽取缺少标注数据的问题.为了对系统性能进行精准评价,构建了人工标注测试集,最终获得面向电商的多领域商品属性抽取标注数据集.基于新构建的数...  相似文献   

11.
社区问答系统已经积累了大量的以层次类别结构进行组织的问题答案对。为了能够重用这些非常宝贵的历史问题答案对资源,设计出一个非常有效的问题检索模型至关重要。在该文中,我们在语言模型建模的框架下提出了一种新的基于问题类别先验信息的方法来提高相似问题检索的性能。特别地,我们将叶子类别语言模型看作是Dirichlet超参来对一元语言模型的参数进行加权,从而提出了一种新的基于类别先验信息的语言模型。该方法具有严格的数学推导依据。在来源于Yahoo! Answers的真实的大量数据集上做了实验比较和分析,实验结果表明我们提出的方法比之前简单的线性插值的方法具有非常显著的性能提升。  相似文献   

12.
基于语义扩展模型的中文网页关键词抽取   总被引:1,自引:0,他引:1       下载免费PDF全文
汪洋  帅建梅 《计算机工程》2012,38(22):163-166
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。  相似文献   

13.
在研究区分性关键词提取方法的基础上,对维吾尔语中的生气和高兴等常见情感类型进行基于文本句子的情感分类研究。结合维吾尔文本句子中的情感表达特点,以词频和文档频率作为基本统计量,通过计算同一词语在不同组合统计量下的类间差异得到区分性关键词,并基于这些关键词进行特征提取和区分性情感模型构建。从维吾尔语电影字幕、小说等文本库中提取生气和高兴2种情感构造实验数据集,并验证所提出的情感分类方法。实验结果表明,基于区分性关键词的建模方法能有效地对维吾尔文本句子进行情感分类。  相似文献   

14.
蒋凯  关佶红 《计算机工程》2011,37(3):42-43,46
基于重启型随机游走模型和个人化PageRank算法,提出一种新的图上关键字搜索算法。该算法将向量空间模型和随机游走模型进行有效的结合,使查询搜索得到的结果可以匹配查询关键字,通过充分挖掘利用图中隐含的结构信息,更好地提供搜索结果。实验结果证明了该算法的有效性。  相似文献   

15.
问题自动生成是自然语言处理领域的一个研究热点,旨在从文本中生成自然问句.随着电子商务的不断发展,网络上产生了大量关于产品的评论.面对海量的评价信息,如何快速挖掘产品信息相关的关键评价,从而生成与产品各个层面息息相关的问答数据具有极大的研究价值,这对商家和顾客都具有极大的意义.现有的问题生成模型大多针对阅读理解类型等长文...  相似文献   

16.
连泽宇  田景文 《计算机工程》2021,47(11):292-297,304
针对复杂遮挡条件下人脸检测精度低的问题,提出一种基于掩膜生成网络(MGN)的遮挡人脸检测方法。对人脸训练集进行预处理,将训练人脸划分为25个子区域,并为每个子区域分别添加遮挡。将一系列添加遮挡的人脸图像和原始人脸图像作为图像对依次输入MGN进行训练,以生成对应各个遮挡子区域的遮挡掩膜字典。通过组合相关字典项生成与检测人脸遮挡区域相对应的组合特征掩膜,并将该组合特征掩膜与检测人脸深层特征图相点乘,以屏蔽由局部遮挡引起的人脸特征元素损坏。在AR和MAFA数据集上进行实验,结果表明,该方法的检测精度高于MaskNet、RPSM等方法,且检测速度较快。  相似文献   

17.
为实现在海量网格事件库中快速、准确地检索事件, 本文提出一种基于关键词生成的网格事件相似度并行计算方法. 该方法通过双向LSTM网络的编码器和单向LSTM网络的解码器构建指针生成网络生成事件关键词, 使用记忆网络作为指针生成网络的序列信息存储单元, 并将注意力机制用在输入序列上以将更重要的信息输入至解码器, 同时引入覆盖机制来解决生成重复文本问题. 在生成事件关键词后, 基于结构相似度和情境相似度计算事件总体相似度, 并利用GPU对LSTM网络和相似度计算进行加速. 实验结果表明: 相比基于机器学习的计算方法, 该方法在事件相似度计算性能上更好, 最高获得了4.04倍的加速比.  相似文献   

18.
针对已有方法在XML数据上基于SLCA(smallest lowest common ancestor)语义处理查询时存在的冗余计算问题,提出了一种基于列存储的倒排索引CList,用于避免已有方法的倒排表中相同数据重复存储的问题。基于CList,提出了一种自顶向下的查询处理算法TDCOL(top-down SLCA computation based oncol-umn storage)来提升系统的处理性能。对于给定查询Q={k1,k2,...,km}的每个公共祖先结点,TDCOL在保证仅处理一次的情况下即可得到所有满足条件的结果,因而将时间复杂度降为O(m′|LID1|′lb|Skmaxch(v)|),其中|LID1|是Q的最短倒排表中包含的不同ID值的数目,Skmaxch(v)是所有被处理结点的包含关键字的孩子结点集中的最大集合。最后通过比较各种指标,从不同角度对TDCOL算法的性能优势进行了验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号