期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

付颖王红玲王中卿《计算机科学》2021,48(10):59-66

为科技论文生成自动摘要,这能够帮助作者更快撰写摘要,是自动文摘的研究内容之一.相比于常见的新闻文档,科技论文具有文档结构性强、逻辑关系明确等特点.目前,主流的编码-解码的生成式文摘模型主要考虑文档的序列化信息,很少深入探究文档的篇章结构信息.为此,文中针对科技论文的特点,提出了一种基于"单词-章节-文档"层次结构的自动摘要模型,利用单词与章节的关联作用增强文本结构的层次性和层级之间的交互性,从而筛选出科技论文的关键信息.除此之外,该模型还扩充了一个上下文门控单元,旨在更新优化上下文向量,从而能更全面地捕获上下文信息.实验结果表明,提出的模型可有效提高生成文摘在ROUGE评测方法上的各项指标性能. 相似文献

2.

基于单词-章节关联的科技论文摘要

付颖王红玲王中卿《计算机科学》2021,48(10):59-66

为科技论文生成自动摘要,这能够帮助作者更快撰写摘要,是自动文摘的研究内容之一.相比于常见的新闻文档,科技论文具有文档结构性强、逻辑关系明确等特点.目前,主流的编码-解码的生成式文摘模型主要考虑文档的序列化信息,很少深入探究文档的篇章结构信息.为此,文中针对科技论文的特点,提出了一种基于"单词-章节-文档"层次结构的自动摘要模型,利用单词与章节的关联作用增强文本结构的层次性和层级之间的交互性,从而筛选出科技论文的关键信息.除此之外,该模型还扩充了一个上下文门控单元,旨在更新优化上下文向量,从而能更全面地捕获上下文信息.实验结果表明,提出的模型可有效提高生成文摘在ROUGE评测方法上的各项指标性能. 相似文献

3.

面向法律文书的分段式摘要模型

王刚孙媛媛陈彦光林鸿飞《计算机工程》2022,48(6):288-294

文本摘要是指对文本信息内容进行概括、提取主要内容进而形成摘要的过程。现有的文本摘要模型通常将内容选择和摘要生成独立分析,虽然能够有效提高句子压缩和融合的性能,但是在抽取过程中会丢失部分文本信息,导致准确率降低。基于预训练模型和Transformer结构的文档级句子编码器,提出一种结合内容抽取与摘要生成的分段式摘要模型。采用BERT模型对大量语料进行自监督学习,获得包含丰富语义信息的词表示。基于Transformer结构,通过全连接网络分类器将每个句子分成3类标签,抽取每句摘要对应的原文句子集合。利用指针生成器网络对原文句子集合进行压缩,将多个句子集合生成单句摘要,缩短输出序列和输入序列的长度。实验结果表明,相比直接生成摘要全文,该模型在生成句子上ROUGE-1、ROUGE-2和ROUGE-L的F1平均值提高了1.69个百分点,能够有效提高生成句子的准确率。相似文献

4.

面向中文法律裁判文书的抽取式摘要算法

温嘉宝杨敏《集成技术》2024,13(1):62-71

裁判文书自动摘要的目的在于让计算机能够自动选择、抽取和压缩法律文本中的重要信息,从而减轻法律从业者的工作量。目前,大多数基于预训练语言模型的摘要算法对输入文本的长度存在限制,因此无法对长文本进行有效摘要。为此,该文提出了一种新的抽取式摘要算法,利用预训练语言模型生成句子向量,并基于Transformer编码器结构融合包括句子向量、句子位置和句子长度在内的信息,完成句子摘要。实验结果显示,该算法能够有效处理长文本摘要任务。此外,在2020年中国法律智能技术评测(CAIL)摘要数据集上进行测试的结果表明,与基线模型相比,该模型在ROUGE-1、ROUGE-2和ROUGE-L指标上均有显著提升。相似文献

5.

基于篇章主次关系的单文档抽取式摘要方法研究

张迎王中卿王红玲《中文信息学报》2019,33(8):67-76

抽取式自动文摘研究抽取文档中最能代表文档核心内容的句子作为摘要,篇章主次关系分析则是从篇章结构方面分析出篇章的主要内容和次要内容,因此,篇章主次关系分析和抽取式自动文摘存在较大关联,篇章主次关系可指导摘要的抽取。该文提出了一种基于篇章主次关系的单文档抽取式摘要方法,该方法基于神经网络模型构建了一个篇章主次关系和文本摘要联合学习的模型。该模型在考虑词组、短语等语义信息的基础上同时考虑了篇章的主次关系等结构信息,最终基于篇章内容的整体优化抽取出最能代表文档核心内容的句子作为摘要。实验结果表明,与当前主流的单文档抽取式摘要方法相比,该方法在ROUGE评价指标上有显著提高。相似文献

6.

指针生成网络和覆盖损失优化的Transformer在生成式文本摘要领域的应用

李想王卫兵尚学达《计算机应用》2021,41(6):1647-1651

针对生成式文本摘要应用场景,提出了以Transformer为基础的摘要模型,并在Transformer模型中加入了指针生成（Pointer Generator）网络和覆盖损失（Coverage Loss）进行优化。首先,提出了基于Transformer模型作为基础结构的方法,利用其注意力机制更好地捕捉上下文的语意信息。然后,在模型的损失函数中引入Coverage Loss来惩罚不断出现的重复的词的分布和覆盖范围,从而解决Transformer模型中的注意力机制在生成式任务中出现不断生成同一个词的问题。最后,在模型中加入了Pointer Generator网络,从而允许模型从源文本中复制词用作生成词来解决词表无法覆盖（OOV）的问题。探索了改进后的模型是否减少了不准确的表达以及重复出现相同词的现象是否得以解决。该模型相较于原始的Transformer模型在ROUGE-1评测函数上得分提升了1.98个百分点、ROUGE-2评测函数上得分提升0.95个百分点,在ROUGE-L评测函数上得分提升了2.27个百分点,并提升了摘要结果的可读性及准确性。实验结果表明,Transformer在加入Coverage Loss和Pointer Generator网络后可应用于生成式文本摘要领域。相似文献

7.

基于篇章层次结构的商品评论摘要

张宜飞王中卿王红玲《计算机科学》2020,47(2):195-200

商品评论摘要是从一个商品的所有评论中抽取出一系列有序的能够代表评论广泛意见的句子作为该商品的综合评论。篇章层次结构分析旨在对篇章内部各个语义单元之间的层次结构和语义关系进行分析。由此可见,分析篇章层次结构有利于更加准确地判断篇章内各个语义单元的语义信息和重要程度,这对于抽取篇章的重要内容有很大帮助。因此,文中提出了一种基于篇章层次结构的商品评论摘要方法。该方法基于LSTM(Long Short Term Memory Network)神经网络构建抽取式商品评论摘要模型,并利用注意力机制将篇章层次结构信息作为判断篇章单元重要程度的参照加入该模型中,以便更加准确地抽取出商品评论中的重要内容,从而提升整个任务的性能。将所提方法在Yelp 2013数据集上进行实验,并在ROUGE评价指标上进行评测。实验结果表明,加入篇章层次结构信息后,模型的ROUGE-1值达到了0.3608,与仅考虑评论句子信息的标准LSTM方法相比提升了1.57%,这说明在商品评论摘要任务中引入篇章层次结构信息能够有效地提升该任务的性能。相似文献

8.

基于场景与对话结构的摘要生成研究

李健智王红玲王中卿《计算机工程》2023,(4):303-311

对话摘要是从复杂的对话中提取关键信息以转化成简短的文本，供用户快速浏览对话内容。相比传统文本摘要，对话摘要数据具有篇幅较长、结构复杂等特点。传统的摘要模型难以充分地利用数据的长文本信息，并且无法考虑对话的结构信息。为此，结合抽取和生成模型，提出一种基于场景与对话结构的摘要生成方法，以对话中的场景、角色和对话内容为主要信息生成对话摘要。通过对话解析构建以角色、动作说明和会话为要素的对话结构图，并使用序列标注任务微调BERT预训练模型，生成以对话句子为单位的向量表示，利用图神经网络建模对话结构，筛选出包含关键信息的句子。在此基础上，将得到的抽取结果作为生成模型的输入，利用双向自回归变压器（BART）预训练模型作为基础框架，在编码端额外引入角色和场景信息，丰富生成模型的语义特征，使用加入多头注意力机制的解码器生成摘要。实验结果表明，相比BART、MV＿BART、HMNet等方法，该方法在ROUGE-1指标上最高可提升5.3个百分点。相似文献

9.

基于双编码器的中文文本摘要技术的研究与实现

高巍马辉李大舟于沛《计算机工程与设计》2021,42(9):2687-2695

针对自然语言处理领域生成式文本摘要任务中存在的语义编码不充分、摘要语句不通顺问题,提出一种基于序列到序列(Seq2Seq)结构的生成式摘要模型TCAtten-GRU.采用双编码器对源文信息进行充分编码,应用时间卷积网络(TCN)获取全文的语义信息,卷积神经网络(CNN)提取文本的高层特征.解码器采用结合指针机制和集束搜索的门控循环单元(GRU)解决生成摘要不通顺问题.中文短文本摘要数据集LCSTS的实验结果表明,该模型与RNN、RNN con-tent、MC-LSTM+atten和BiGRU-GRU+atten这4个模型对比,ROUGE-1提高了0.037-0.155,ROUGE-2提高了0.075-0.156,ROUG E-L提高了0.035-0.157,验证了该模型可以有效提升摘要质量. 相似文献

10.

融合流注意力机制的中文摘要生成方法

崔少国王奥迪杜兴《小型微型计算机系统》2023,(12):2685-2691

针对现有文本摘要生成方法对源文全局语义信息提取不充分问题，提出了一种融合流注意力机制的并行编码器摘要生成算法模型.首先使用单颗粒的分词方法对源文进行分词；然后在编码阶段引入多头流注意力机制，从而更全面地提取源文的全局语义信息；其次运用并行编码器训练模型，使得输入序列中语义信息获得更大权重；最后将编码得到的全局语义信息送入到融合指针的解码器中，通过指针复制源文词汇，减少生成摘要中未登录词的出现，从而使得解码过程中生成的摘要更加全面准确地匹配源文语义.模型在CLTS和NLPCC两个数据集上进行实验，使用ROUGE-1、ROUGE-2和ROUGE-L作为评价指标.实验结果显示，与基准模型相比在CLTS数据集上分别有2.62%、1.44%和0.87%的提升，在NLPCC数据集上分别有2.82%、1.84%和1.64%的提升，表明所提算法模型在中文摘要生成任务上更加有效. 相似文献

11.

基于文本结构和图卷积网络的生成式摘要

魏文杰王红玲王中卿《中文信息学报》2021,35(3):78-87

目前主流的生成式自动文摘采用基于编码器—解码器架构的机器学习模型,且通常使用基于循环神经网络的编码器.该编码器主要学习文本的序列化信息,对文本的结构化信息学习能力较差.从语言学的角度来讲,文本的结构化信息对文本重要内容的判断具有重要作用.为了使编码器能够获取文本的结构信息,该文提出了基于文本结构信息的编码器,其使用了图... 相似文献

12.

融合全局和局部信息的汉语宏观篇章结构识别

范亚鑫蒋峰朱巧明褚晓敏李培峰《中文信息学报》2022,36(3):1-9

作为宏观篇章分析中的基础任务,篇章结构识别的目的是识别相邻篇章单元之间的结构,并层次化构建篇章结构树.已有的工作只考虑局部的结构和语义信息或只考虑全局信息.该文提出了一种融合全局和局部信息的指针网络模型,该模型在考虑全局语义信息的同时,又考虑局部段落间的语义关系密切程度,从而有效提高宏观篇章结构识别的能力.在汉语宏观篇... 相似文献

13.

融合上下文信息和关键信息的文本摘要

李志欣彭智唐素勤马慧芳《中文信息学报》2022,36(1):83-91

文本摘要的一个迫切需要解决的问题是如何准确地概括文本的核心内容.目前文本摘要的主要方法是使用编码器-解码器架构,在解码过程中利用软注意力获取所需的上下文语义信息.但是,由于编码器有时候会编码过多的信息,所以生成的摘要不一定会概括源文本的核心内容.为此,该文提出一种基于双注意指针网络的文本摘要模型.首先,该模型使用了双注... 相似文献

14.

融合关键词的中文新闻文本摘要生成

宁珊严馨徐广义周枫张磊《计算机工程与科学》2020,42(12):2265-2272

The existing seq2seq model often suffers from semantic irrelevance when generating summaries, and does not consider the role of keywords in summary generation. Aiming at this problem, this paper proposes a Chinese news text abstractive summarization method with keywords fusion. Firstly, the source text words are input into the Bi-LSTM model in order. The obtained hidden state is input to the sliding convolutional neural network, so local features between each word and adjacent words are extracted. Secondly, keyword information and gating unit are used to filter news text information, so as to remove redundant information. Thirdly, the global feature information of each word is obtained through the self-attention mechanism, and the hierarchical combination of local and global word features representation is obtained after encoding. Finally, the encoded word feature representation is input into the LSTM model with the attention mechanism to decode the summary information. The method models the n-gram features of news words through a sliding convolutional network. Based on this, the self-attention mechanism is used to obtain hierarchical local and global word feature representations. At the same time, the important role of keywords in abstractive summary is considered, and the gating unit is used to remove redundant information to obtain more accurate news text information. Experiments on Sogou's news corpus show that this method can effectively improve the quality of summary generation, and effectively enhance the values of ROUGE-1、ROUGE-2、ROUGE-L. 相似文献

15.

基于神经网络和信息检索的源代码注释生成

沈鑫周宇《计算机系统应用》2023,32(7):1-10

源代码注释生成旨在为源代码生成精确的自然语言注释,帮助开发者更好地理解和维护源代码.传统的研究方法利用信息检索技术来生成源代码摘要,从初始源代码选择相应的词或者改写相似代码段的摘要;最近的研究采用机器翻译的方法,选择编码器-解码器的神经网络模型生成代码段的摘要.现有的注释生成方法主要存在两个问题:一方面,基于神经网络的方法对于代码段中出现的高频词更加友好,但是往往会弱化低频词的处理;另一方面,编程语言是高度结构化的,所以不能简单地将源代码作为序列化文本处理,容易造成上下文结构信息丢失.因此,本文为了解决低频词问题提出了基于检索的神经机器翻译方法,使用训练集中检索到的相似代码段来增强神经网络模型;为了学习代码段的结构化语义信息,本文提出结构化引导的Transformer,该模型通过注意力机制将代码结构信息进行编码.经过实验,结果证明该模型在低频词和结构化语义的处理上对比当下前沿的代码注释生成的深度学习模型具有显著的优势. 相似文献

16.

基于分类的中文文本摘要方法

庞超尹传环《计算机科学》2018,45(1):144-147, 178

自动文本摘要是自然语言处理领域中一项重要的研究内容,根据实现方式的不同其分为摘录式和理解式,其中理解式文摘是基于不同的形式对原始文档的中心内容和概念的重新表示,生成的文摘中的词语无需与原始文档相同。提出了一种基于分类的理解式文摘模型。该模型将基于递归神经网络的编码-解码结构与分类结构相结合,并充分利用监督信息,从而获得更多的摘要特性;通过在编码-解码结构中使用注意力机制,模型能更精确地获取原文的中心内容。模型的两部分可以同时在大数据集下进行训练优化,训练过程简单且有效。所提模型表现出了优异的自动摘要性能。相似文献

17.

自注意力机制和随机森林回归的视频摘要生成

下载免费PDF全文

李雷霆武光利郭振洲《计算机工程与应用》2022,58(4):198-205

是通过生成关键帧或片段来达到压缩视频的效果,能够在概括视频主要内容的基础上极大缩短观看时间,在视频快速浏览与检索领域应用广泛。现有方法大多只基于图像内容进行探索,忽略了视频具有时序的特点,且模型对波动数据学习能力较差,导致生成的摘要缺乏时间连贯性和代表性。提出了一个以编码器-解码器为框架的视频摘要网络。具体来说,编码部分由卷积神经网络提取特征,通过自注意力机制提升对关键特征的权重,而解码部分由融合了随机森林的双向长短期记忆网络构成,通过调整随机森林和双向长短期记忆网络在损失函数中所占比例,使模型具有较强的稳定性和预测准确率。实验在两个数据集上与其他七种方法进行了比较,综合实验结果证明了方法的有效性与可行性。提出了自注意力机制和随机森林回归的视频摘要网络,利用自注意力机制完成对特征的优化,将双向长短期记忆网络与随机森林结合,提升模型的稳定性与泛化性,有效降低损失值,使得生成的视频摘要更符合用户视觉特性。相似文献