首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
民间文学文本中含有大量生动形象的修辞手法;人名、地名极其复杂,难以判断词与词之间的边界;与现代汉语表达差别较大,预训练语言模型难以有效地学习其隐含知识,为机器自然语言理解带来困难。该文提出一种基于BERT的民间文学文本预训练模型MythBERT,使用民间文学语料库预训练,将BERT的字隐蔽策略改进为对中文词语隐蔽策略。对民间文学文本中解释字、词的注释词语重点隐蔽,减小BERT隐蔽的随机性并有利于学习词语语义信息。同时利用注释增强语言模型表示,解决一词多义、古今异义等问题。将MythBERT与BERT、BERT-WWM和RoBERTa等主流中文预训练模型在情感分析、语义相似度、命名实体识别和问答四个自然语言处理任务上进行比较。实验结果表明,注释增强的民间文学预训练模型MythBERT在民间文学文本任务上性能显著提升,与基线方法相比取得了最优的效果。  相似文献   

2.
传统文本分类方法主要是基于单模态数据所驱动的经验主义统计学习方法,缺乏对数据的理解能力,鲁棒性较差,单个模态的模型输入也难以有效分析互联网中越来越丰富的多模态化数据。针对此问题提出两种提高分类能力的方法:引入多模态信息到模型输入,旨在弥补单模态信息的局限性;引入知识图谱实体信息到模型输入,旨在丰富文本的语义信息,提高模型的泛化能力。模型使用BERT提取文本特征,改进的ResNet提取图像特征,TransE提取文本实体特征,通过前期融合方式输入到BERT模型中进行分类,在研究多标签分类问题的MM-IMDB数据集上F1值达到66.5%,在情感分析数据集Twitter15&17上ACC值达到71.1%,结果均优于其他模型。实验结果表明,引入多模态信息和实体信息能够提高模型的文本分类能力。  相似文献   

3.
互联网时代的新闻宣传领域,每天都会产生海量的文本稿件,仅依靠人工进行校正,成本极高,效率低下。利用计算机辅助技术对新闻稿件进行审阅极大地提高了校稿效率,大大减少人力成本,进一步利用特定新闻领域语料集的深度学习模型,完成个性化定制,在该领域的纠错过程中可以取得更好的效果。文中使用一种全新的中文文本纠错模型理论:Soft-Masked BERT,该模型将中文文本的检错过程与纠错过程分离,纠正网络的输入来自于检测网络输出。文中旨在Soft-Masked BERT基础上进行改进并应用。使用“哈尔滨工业大学新闻网”新闻稿件中10 000条文本序列(HIT News Site)作为初始语料进行训练,之后对该新闻网的相关稿件进行中文文本校对。结果表明,Soft-Masked模型在HIT News Site数据集上的整体性能表现优于BERT-Finetune,准确率提高0.6个百分点,精确率提高1.3个百分点,召回率提高1.5个百分点,F1分数提高1.4个百分点,效果良好。  相似文献   

4.
罗玲    李硕凯    何清    杨骋骐  王宇洋恒  陈天宇 《智能系统学报》2021,16(4):819-826
传统信息检索技术已经不能满足人们对信息获取效率的要求,智能问答系统应运而生,并成为自然语言处理领域一个非常重要的研究热点。本文针对中文的冬奥问答领域,提出了基于知识图谱、词频-逆文本频率指数 (term frequency-inverse document frequency,TF-IDF)和自注意力机制的双向编码表示(bidirectional encoder representation from transformers,BERT)的3种冬奥问答系统模型。本文首次构建了冬奥问答数据集,并将上述3种方法集成在一起,应用于冬奥问答领域,用户可以使用本系统来快速准确地获取冬奥内容相关的问答知识。进一步,对3种模型的效果进行了测评,测量了3种模型各自的回答可接受率。实验结果显示BERT模型的整体效果略优于知识图谱和TDIDF模型,BERT模型对3类问题的回答可接受率都超过了96%,知识图谱和TDIDF模型对于复合统计问答对的回答效果不如BERT模型。  相似文献   

5.
医疗领域知识的获取通常需要耗费大量的时间和人力成本。通过自动提取医疗知识,构建知识图谱,并利用自然语言处理(Natural Language Processing,NLP)技术进行推理和推荐,可以辅助医生制定更准确、个性化的诊疗方案,并为患者提供更好的医疗服务。基于此,文章探讨了结合自然语言处理和知识图谱的医疗文本挖掘与知识提取。  相似文献   

6.
该文聚焦于利用丰富的知识对预训练语言模型进行增强以进行文本推理。预训练语言模型虽然在大量的自然语言处理任务上达到了很高的性能表现,具有很强的语义理解能力,但是大部分预训练语言模型自身包含的知识很难支撑其进行更高效的文本推理。为此,该文提出了一个知识增强的预训练语言模型进行文本推理的框架,使得图以及图结构的知识能够更深入地与预训练语言模型融合。在文本推理的两个子任务上,该文框架的性能超过了一系列的基线方法,实验结果和分析验证了模型的有效性。  相似文献   

7.
传统的案例检索方法不能反映案例之间的内在联系,导致检索结果不够准确和全面.根据食品安全案例的特点,提出一种运用知识图谱与BERT模型相结合的案例检索方法,以提高检索效果.综合考虑食品安全案例知识图谱的关系结构和实体属性特征进行案例检索.以三元组的形式表示食品安全案例并构建知识图谱,一方面,用Jaccard相似系数计算案...  相似文献   

8.
基于属性图模型的领域知识图谱构建方法   总被引:1,自引:0,他引:1  
随着大数据时代的到来,各个行业领域需要处理的数据之间的关系数量呈几何级数增长,亟需一种支持海量复杂数据关系表示能力的数据模型,即领域知识图谱.虽然领域知识图谱展现了巨大的潜力,但不难发现目前仍然缺乏成熟的构建技术和平台.如何快速构建出领域知识图谱是一个重要挑战.在对领域知识图谱进行系统的研究后,提出了一种基于属性图模型...  相似文献   

9.
【目的】在自然语言处理领域,文本分类是十分重要的基础研究,可以应用于许多下游任务中,例如文章检索、推荐系统、问答系统等。受到知识图谱在文本推理领域发挥作用的启发,本文探索了将知识图谱应用于文本分类任务的方法,在降低对标注训练数据依赖的同时利用知识图谱的推理能力提升文本分类的效果。【方法】本文提出了基于知识图谱的图匹配文本分类算法。具体而言,依据分类目标,为每一个类别构建了该类别的知识图谱,模型基于类别知识图谱中的语义和连接信息对文本与各个类别的相关性进行推理,综合各个知识图谱的推理评估结果。【结论】为了证明本文提出的方法的有效性,本文构建了分类所需的知识图谱并在两个数据集上进行了实验,实验结果证明在允许一定拒绝的前提下,此模型具有很高的准确率,进一步推动了算法的应用落地。  相似文献   

10.
现有的人员简历信息抽取方法无法针对金融公告中非结构化人员简历进行人员属性以及事件的抽取,无法发现金融公告中跨文档的人员之间关系。针对以上问题,将非结构化的人员简历抽取成结构化的人员信息模板,提出一种金融领域人物关系图谱构建方法。通过对BERT预训练语言模型进行训练,抽取出非结构化人员简历文本中的人员属性实体,利用训练好的BERT预训练模型获取事件实例向量,对事件实例向量进行准确的分类,填充层次化的人员信息模板,准确地关联人员属性。进一步地,通过填充好的人员信息模板,提取人员关系,构建人物关系图谱。通过构建人工标注的数据集,进行实验验证。实验表明所提出的方法可以有效解决非结构化金融人员简历文本信息提取问题,有效地构建金融领域人物关系图谱。  相似文献   

11.
知识图谱是由各种知识或数据单元经过抽取等处理而组成的一种结构化知识库,用于描述和表示实体、概念、事实和关系等信息。自然语言处理技术的限制和各种知识或信息单元文本本身的噪声都会使信息抽取的准确性受到一定程度的影响。现有的知识图谱补全方法通常只考虑单一结构信息或者文本语义信息,忽略了整个知识图谱中同时存在的结构信息与文本语义信息。针对此问题,提出一种基于语言模型增强嵌入与对比学习的知识图谱补全(KGC)模型。将输入的实体和关系通过预训练语言模型获取实体和关系的文本语义信息,利用翻译模型的距离打分函数捕获知识图谱中的结构信息,使用2种用于对比学习的负采样方法融合对比学习来训练模型以提高模型对正负样本的表征能力。实验结果表明,与基于来自Transformеr的双向编码器表示的知识图谱补全(KG-BERT)模型相比,在WN18RR和FB15K-237数据集上该模型链接预测的排名小于等于10的三元组的平均占比(Hits@10)分别提升了31%和23%,明显优于对比模型。  相似文献   

12.
13.
针对传统词向量在自动文本摘要过程中因无法对多义词进行有效表征而降低文本摘要准确度和可读性的问题,提出一种基于BERT(Bidirectional Encoder Representations from Transformers)的自动文本摘要模型构建方法。该方法引入BERT预训练语言模型用于增强词向量的语义表示,将生成的词向量输入Seq2Seq模型中进行训练并形成自动文本摘要模型,实现对文本摘要的快速生成。实验结果表明,该模型在Gigaword数据集上能有效地提高生成摘要的准确率和可读性,可用于文本摘要自动生成任务。  相似文献   

14.
15.
实体抽取是构建知识图谱的重要环节,大多数深度学习模型没有注意到上下文的语义信息和忽略了对于知识实体的处理,因此,实体抽取的准确性有待进一步提高.本文提出了一种BERT模型结合实体向量的知识图谱实体抽取方法.该方法采用基于全词Mask的BERT模型生成句子向量和具有上下文语义的词向量,再将词向量取平均值得到实体向量,通过注意力机制将句子向量与实体向量结合,最后,将结合后的新向量放入条件随机场进行序列标注,找到最优的标签以达到实体抽取的目的.实验结果表明,该方法在人民日报语料库进行实体抽取时,其准确率、召回率和F1值分别为93.01%,90.32%和91.65%.同时,该模型在CoNLL-2003语料库中的实体抽取也具有很好的效果.  相似文献   

16.
短文本的表示方法和特征提取方法是自然语言处理基础研究的一个重要方向,具有广泛的应用价值.本文提出了BERT_BLSTM_TCNN模型,该神经网络模型利用BERT的迁移学习,并在词向量编码阶段引入对抗训练方法,训练出包括句的语义和结构特征的且泛化性能更优的句特征,并将这些特征输入BLSTM_TCNN层中进行特征抽取以完成...  相似文献   

17.
18.
乔少杰  杨国平  于泳  韩楠  覃晓  屈露露  冉黎琼  李贺 《软件学报》2023,34(10):4584-4600
基于知识图谱的问答系统可以解析用户问题,已成为一种检索知识、自动回答所询问题的有效途径.知识图谱问答系统通常是利用神经程序归纳模型,将自然语言问题转化为逻辑形式,在知识图谱上执行该逻辑形式能够得到答案.然而,使用预训练语言模型和知识图谱的知识问答系统包含两个挑战:(1)给定问答(questionanswering, QA)上下文,需要从大型知识图谱(knowledge graph, KG)中识别相关知识;(2)对QA上下文和KG进行联合推理.基于此,提出一种语言模型驱动的知识图谱问答推理模型QA-KGNet,将QA上下文和KG连接起来形成一个工作图,使用语言模型计算给定QA上下文节点与KG节点的关联度,并使用多头图注意力网络更新节点表示.在Commonsense QA、OpenBookQA和Med QA-USMLE真实数据集上进行实验来评估QA-KGNet的性能,实验结果表明:QA-KGNet优于现有的基准模型,表现出优越的结构化推理能力.  相似文献   

19.
通过主题模型对酒店评论文本进行文本挖掘,有利于引导酒店管理者和客户对评论信息做出合适的鉴别和判断。提出一种基于预训练的BERT语言模型与LDA主题聚类相结合的方法;利用中文维基百科语料库训练BERT模型并从中获取文本向量,基于深度学习算法对评论文本进行情感分类;通过LDA模型对分类后的文本进行主题聚类,分别获取不同情感极性文本的特征主题词,进而挖掘出酒店客户最为关注的问题,并对酒店管理者提出具有参考价值的建议。实验结果表明,通过BERT模型获取的文本向量在情感分类任务中表现较好,且BERT-LDA文本挖掘方法能使酒店评论文本的主题更具表达性。  相似文献   

20.
跨境民族是指居住地"跨越"了国境线,但又保留了原来共同的某些民族特色,彼此有着同一民族的认同感的民族,对于跨境民族文化中涉及到的文本分类问题可以看作领域文本细分类任务,但是,目前面临类别标签歧义的问题.为此提出一种融合领域知识图谱的跨境民族文化分类方法.首先把知识图谱中的知识三元组通过TransE模型表示为实体语义向量...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号