首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
传统的中文生成式摘要方法未充分考虑中文文本字特征和词特征之间的不同含义,容易对原文内容的信息做出错误理解。提出一种基于Graph Attention的双通道中文文本摘要生成方法,采用双通道的编码器结构分别提取文本的字级和词级特征,并通过Graph Attention提取文本对应的三元组集合特征,进行融合之后输入到带copy机制的解码端进行解码,从而提升原始文本的信息提取能力。对比实验结果表明,该方法在两个数据集上都有较好的表现。  相似文献   

2.
自动文本摘要技术旨在凝练给定文本,以篇幅较短的摘要有效反映出原文核心内容.现阶段,生成型文本摘要技术因能够以更加灵活丰富的词汇对原文进行转述,已成为文本摘要领域的研究热点.然而,现有生成型文本摘要模型在产生摘要语句时涉及对原有词汇的重组与新词的添加,易造成摘要语句不连贯、可读性低.此外,通过传统基于已标注数据的有监督训...  相似文献   

3.
传统生成式模型中存在的梯度经过多次传播后,倾向于消失或爆炸,且存在语言理解不充分的性能缺陷,为此提出一种生成式自动文本摘要方法(BiGRUAtten-LSTM).编码器端将原始文本输入到编码器并结合双向门控循环单元生成固定长度的语义向量,使用注意力机制分配每个输入词的权重来减少输入序列信息的细节损失.解码器端使用LST...  相似文献   

4.
针对自然语言处理(NLP)生成式自动摘要领域的语义理解不充分、摘要语句不通顺和摘要准确度不够高的问题,提出了一种新的生成式自动摘要解决方案,包括一种改进的词向量生成技术和一个生成式自动摘要模型。改进的词向量生成技术以Skip-Gram方法生成的词向量为基础,结合摘要的特点,引入词性、词频和逆文本频率三个词特征,有效地提高了词语的理解;而提出的Bi-MulRnn+生成式自动摘要模型以序列映射(seq2seq)与自编码器结构为基础,引入注意力机制、门控循环单元(GRU)结构、双向循环神经网络(BiRnn)、多层循环神经网络(MultiRnn)和集束搜索,提高了生成式摘要准确性与语句流畅度。基于大规模中文短文本摘要(LCSTS)数据集的实验结果表明,该方案能够有效地解决短文本生成式摘要问题,并在Rouge标准评价体系中表现良好,提高了摘要准确性与语句流畅度。  相似文献   

5.
基于GAN技术的自能源混合建模与参数辨识方法   总被引:1,自引:0,他引:1  
自能源(We-energy,WE)作为能源互联网的子单元旨在实现能量间的双向传输及灵活转换.由于自能源在不同工况下运行特性存在很大差异,现有方法还不能对其参数精确地辨识.为了解决上述问题,本文根据自能源网络结构提出了一种基于GAN技术的数据——机理混合驱动方法对自能源模型参数辨识.将GAN(Generative adversarial networks)模型中训练数据与专家经验结合进行模糊分类,解决了自能源在不同运行工况下的模型切换问题.通过应用含策略梯度反馈的改进GAN技术对模型进行训练,解决了自能源中输出序列离散的问题.仿真结果表明,提出的模型具有较高的辨识精度和更好的推广性,能有效地拟合系统不同工况下各节点的状态变化.  相似文献   

6.
任务中的生成式摘要模型对原文理解不充分且容易生成重复文本等问题,提出将词向量模型ALBERT与统一预训练模型UniLM相结合的算法,构造出一种ALBERT-UniLM摘要生成模型。该模型采用预训练动态词向量ALBERT替代传统的BERT基准模型进行特征提取获得词向量。利用融合指针网络的UniLM语言模型对下游生成任务微调,结合覆盖机制来降低重复词的生成并获取摘要文本。实验以ROUGE评测值作为评价指标,在2018年CCF国际自然语言处理与中文计算会议(NLPC-C2018)单文档中文新闻摘要评价数据集上进行验证。与BERT基准模型相比,ALBERT-UniLM模型的Rouge-1、Rouge-2和Rouge-L指标分别提升了1.57%、1.37%和1.60%。实验结果表明,提出的ALBERT-UniLM模型在文本摘要任务上效果明显优于其他基准模型,能够有效提高文本摘要的生成质量。  相似文献   

7.
8.
基于递归神经网络的序列到序列的模型在文本摘要生成任务中取得了非常好的效果,但这类模型大多存在生成文本重复、曝光偏差等问题。针对重复问题,提出一种由存储注意力和解码自注意力构成的混合注意力,通过存储历史注意力和增加对历史生成单词的注意力来克服该问题;使用强化学习作为一种新的训练方式来解决曝光偏差问题,同时修正损失函数。在CNN/Daily Mail数据集对模型进行测试,以ROUGE为评价指标,结果证明了混合注意力对重复问题有较大的改善,借助强化学习可以消除曝光偏差,整合后的模型在测试集上超越先进算法。  相似文献   

9.
异构信息网络中包含丰富的结构和语义信息,通过网络表示学习保留异构信息网络的结构和语义信息是当前研究的热点。传统的异构信息网络表示学习方法局限于利用元路径的形式保留异构信息网络中的语义信息,缺乏考虑网络中所有节点的分布情况,保留的信息不够充分。因此,本文提出一种基于生成式对抗网络(Generative Adversarial Networks, GAN)的异构信息网络表示学习方法(HINGAN),其能更好地保留网络中的结构信息和语义信息。HINGAN中通过生成模型和判别模型的对抗学习,提高表示学习的鲁棒性。基于2个真实数据集的实验结果表明,本文提出的模型与传统的异构信息网络方法相比,在节点分类和链接预测任务中的结果都有明显提升。  相似文献   

10.
庞超  尹传环 《计算机科学》2018,45(1):144-147, 178
自动文本摘要是自然语言处理领域中一项重要的研究内容,根据实现方式的不同其分为摘录式和理解式,其中理解式文摘是基于不同的形式对原始文档的中心内容和概念的重新表示,生成的文摘中的词语无需与原始文档相同。提出了一种基于分类的理解式文摘模型。该模型将基于递归神经网络的编码-解码结构与分类结构相结合,并充分利用监督信息,从而获得更多的摘要特性;通过在编码-解码结构中使用注意力机制,模型能更精确地获取原文的中心内容。模型的两部分可以同时在大数据集下进行训练优化,训练过程简单且有效。所提模型表现出了优异的自动摘要性能。  相似文献   

11.
文本摘要模型的输入数据中通常包含被视为噪声的冗余信息,对输入数据中的噪声进行过滤可以提高摘要模型的表现.提出了基于动态路由指导的分层信息过滤(Dynamic Routing Based Hierarchical Informa-tion Filtering,DRBHIF)层,该层首先通过动态路由模块根据编码器的输出动态...  相似文献   

12.
郭梦洁  熊贇 《计算机工程》2021,47(6):299-304
分析疾病与基因、miRNA等生物实体之间的关联是生物研究领域的重要目标,然而利用海量的数据进行生物学实验成本过高.提出一种基于网络表示学习的关联预测算法,通过多源数据集构建生物异质网络,并给出基于生成式对抗网络的异质网络表示学习算法学习鲁棒的向量表示,算法中的判别器和生成器考虑网络中的关系来捕获丰富的异质语义信息,并通...  相似文献   

13.
在互联网数据急剧扩张和深度学习技术高速发展的背景下,自动文本摘要任务作为自然语言处理领域的主要研究方向之一,其相关技术及应用被广泛研究。基于摘要任务深化研究需求,以研究过程中存在的关键问题为导向,介绍现有基于深度学习的生成式文本摘要模型,简述定义及来源、数据预处理及基本框架、常用数据集及评价标准等,指出发展优势和关键问题,并针对关键问题阐述对应的可行性解决方案。对比常用的深度预训练模型和创新方法融合模型,分析各模型的创新性和局限性,提出对部分局限性问题的解决思路。进一步地,对该技术领域的未来发展方向进行展望总结。  相似文献   

14.
针对自然语言处理领域生成式文本摘要任务中存在的语义编码不充分、摘要语句不通顺问题,提出一种基于序列到序列(Seq2Seq)结构的生成式摘要模型TCAtten-GRU.采用双编码器对源文信息进行充分编码,应用时间卷积网络(TCN)获取全文的语义信息,卷积神经网络(CNN)提取文本的高层特征.解码器采用结合指针机制和集束搜...  相似文献   

15.
陈可佳  费子阳  陈景强  杨子农 《软件学报》2022,33(12):4668-4687
文本风格迁移是近年来自然语言处理领域的热点问题之一,旨在保留文本内容的基础上通过编辑或生成的方式更改文本的特定风格或属性(如情感、时态和性别等).旨在梳理已有的技术,以推进该方向的研究.首先,给出文本风格迁移问题的定义及其面临的挑战;然后,对已有方法进行分类综述,重点介绍基于无监督学习的文本风格迁移方法并将其进一步分为隐式和显式两类方法,对各类方法在实现机制、优势、局限性和性能等方面进行分析和比较;同时,还通过实验比较了几种代表性方法在风格迁移准确率、文本内容保留和困惑度等自动化评价指标上的性能;最后,对文本风格迁移研究进行总结和展望.  相似文献   

16.
图像识别是图像处理的重点研究领域,在测试结果难以判定以及数据集样本类别不平衡的影响下,适用于图像识别系统健壮性以及稳定性的测试技术较为欠缺.为有效测试图像识别系统,本文提出将蜕变测试方法用于图像识别系统的测试过程中,依据生成式对抗网络来生成贴近现实的衍生数据以构建适用于图像识别系统的蜕变关系,引入衍生图像质量验证方法与...  相似文献   

17.
针对传统Seq2Seq序列模型在文本摘要任务中无法准确地提取到文本中的关键信息、无法处理单词表之外的单词等问题,本文提出一种基于Fastformer的指针生成网络(pointer generator network, PGN)模型,且该模型结合了抽取式和生成式两种文本摘要方法.模型首先利用Fastformer模型高效的获取具有上下文信息的单词嵌入向量,然后利用指针生成网络模型选择从源文本中复制单词或利用词汇表来生成新的摘要信息,以解决文本摘要任务中常出现的OOV(out of vocabulary)问题,同时模型使用覆盖机制来追踪过去时间步的注意力分布,动态的调整单词的重要性,解决了重复词问题,最后,在解码阶段引入了Beam Search优化算法,使得解码器能够获得更加准确的摘要结果.实验在百度AI Studio中汽车大师所提供的汽车诊断对话数据集中进行,结果表明本文提出的FastformerPGN模型在中文文本摘要任务中达到的效果要优于基准模型,具有更好的效果.  相似文献   

18.
面向查询的文本摘要是自动文摘中的一个特殊领域,可以根据用户个性化的查询需求,从原始文档或文档集中提取有价值的摘要信息。目前,该技术已经在面向查询的搜索引擎、智能化信息检索、问答系统等领域得到广泛应用,并受到越来越多的关注。文章基于面向查询的文本摘要任务的典型技术框架,从查询理解、文档处理和信息组织三个方面对其国内外研究方法的现状进行对比和分析,对不同业务场景的应用进行了举例,归纳了面向查询的文本摘要面临的挑战及发展趋势。  相似文献   

19.
技术是一种能从海量文本中获取重要信息的方法,它可以缓解大数据时代信息过载的问题.传统基于编码-解码自动摘要模型生成的摘要易出现句内重复、语义无关等现象,不利于读者理解文本的核心思想.受人工摘要书写方式的启发,即先理解文本局部信息,再从全局层面归纳信息、书写摘要,提出一种基于卷积自注意力编码过滤的自动摘要模型(CSAG).模型由编码器、卷积自注意力门控单元、解码器组成,结合卷积神经网络可以提取局部特征,多端自注意力机制可以学习长期依赖关系,模型可以根据上下文的局部和全局特征,从不同角度和不同层面提取文本潜在信息,确保模型生成正确流畅的摘要.然后通过策略梯度强化学习可直接利用不可微的度量指标ROUGE对模型进行优化,避免推理过程中出现曝光偏差问题.在Gigaword数据集上的多组对比实验结果表明,该文提出的模型在自动摘要任务上具有一定的优势.  相似文献   

20.
文本摘要成为人们从互联网上海量文本信息中便捷获取知识的重要手段。现有方法都是在特定数据集上进行训练和效果评价,包括一些公用数据集和作者自建数据集。已有综述文献对现有方法进行全面细致的总结,但大多都是对方法进行总结,而缺少对数据集的详细描述。该文从调研数据集的角度出发,对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述。对公用数据集的综述包括数据来源、语言及获取方式等,对自建数据集的总结包括数据规模、获取和标注方式等。对于每一种公用数据集,给出了文本摘要问题的形式化定义。同时,对经典和最新方法在特定数据集上的实验效果进行了分析。最后,总结了已有常用数据集和方法的现状,并指出存在的一些问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号