共查询到20条相似文献,搜索用时 187 毫秒
1.
在文本信息数量迅速增长的环境下,为提升阅读效率,提出一种基于深度学习的多文档自动文本摘要模型。在传统文摘模型的基础上将Siamese LSTM深度学习网络应用到文本相似度计算中,计算曼哈顿距离来表征文本相似度,并采用去除停用词的方法改进该网络模型以提升计算效率。实验结果表明,使用Siamese LSTM与传统余弦相似度等方法相比,生成的文摘在语义方面更贴近主题,质量更高,整个文摘系统的工作效率也显著提升。 相似文献
2.
提出一种基于文本分割技术的多文档自动文摘方法。该方法使用HowNet作为概念获取工具,通过建立句子概念向量空间模型和利用改进的DotPlotting模型来进行文本分割。利用建立的句子概念向量空间模型计算句子重要度,并根据句子重要度、文本分割结果和文摘句相似度等因素产生文本摘要。使用ROUGE-N评测方法和F_Score作为评测指标对系统产生的文摘进行评测,结果显示使用文本分割技术进行多文档摘要是有效的。 相似文献
3.
针对当前自动文摘方法的不足,提出了基于文本聚类的自动文摘实现方法.可以克服常规自动文摘方法的不足,使文摘的质量和效果得到大大的提高.将文本聚类引入自动文摘中,不但使单文档的文摘质量得到提高,而且能够实现多文档的自动文摘,这是现有的自动文摘技术所没有涉及的.实现了面向"塑料"行业的基于文本聚类的自动文摘系统TCAAS.实验表明该方法可行, 对自动文摘系统的设计具有借鉴意义和深入研究的价值. 相似文献
4.
5.
6.
7.
文本分类在信息检索、Web文档自动分类、数字图书馆、自动文摘、文档的组织和管理等多个领域都有着广泛的应用。提出一种改进的基于语义理解的文本情感分类方法,在情感相似度计算中加入情感义原来重新修正定义,并综合情感短语倾向性的研究,侧重情感词与否定词、程度副词的组合形式分析,重点提出否定词程度副词综合处理模块。结合以连词为划分标准的语句情感倾向性分类处理,提出一种文本倾向度算法,以实现基于语义理解的文本情感分类。实验结果表明,与传统的语义理解算法相比,该方法的分类效果有了一定程度的提升。 相似文献
8.
文本自动综述系统的研究与实现 总被引:6,自引:0,他引:6
文本自动综述是自动文摘在多文档上的推广.提出了一种基于统计的文本自动综述方法,并描述了它的实现过程.该方法利用文档内和文档之间段落的语义相关性,实现多文档的自动综述.首先对文本进行分段实现信息分割;再对文本段进行聚类实现信息凝聚;最后抽取代表段产生综述结果实现信息压缩.实验结果表明,该方法是有效的,具有一定的实用价值. 相似文献
9.
文本倾向性识别在信息过滤、自动文摘、文本分类等领域有广泛的应用前景。句子倾向性研究是文本倾向性识别的基础,结合句法分析结果和词语语义倾向性可以衡量句子褒贬倾向性。以HowNet的词汇语义相似度计算为基础,提出了基于的语义距离和语法距离的句子褒贬倾向性计算方法。大量语句实验表明,该方法的计算结果与人工判别结果更接近。 相似文献
10.
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动文摘面临的主要难题之一。MapReduce是Google提出的一种分布式并行计算方法,它可以部署在任意一个普通商用计算机组成的集群上,能够有效地协调集群内各计算机的计算任务,充分利用计算机集群的处理能力,能够对海量数据进行有效的分析处理。提出了一个有效的实验模型,将MapReduce分布式并行框架应用在多文档自动文摘技术中。实验结果表明,MapReduce在保证文摘质量的前提下,能够有效地提高文摘抽取过程的处理性能。 相似文献
11.
Automatic summarization is a topic of common concern in computational linguistics and information science, since a computer
system of text summarization is considered to be an effective means of processing information resources. A method of text
summarization based on latent semantic indexing (LSI), which uses semantic indexing to calculate the sentence similarity,
is proposed in this article. It improves the accuracy of sentence similarity calculations and subject delineation, and helps
the abstracts generated to cover the documents comprehensively as well as reducing redundancies. The effectiveness of the
method is proved by the experimental results. Compared with the traditional keyword-based vector space model method of automatic
text summarization, the quality of the abstracts generated was significantly improved. 相似文献
12.
13.
14.
经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置和长度等信息引入到TextRank网络图的构造中,给出改进后的句子相似度计算方法及权重调整因子,并将其应用于中文文本的自动摘要提取,同时分析了算法的时间复杂度。最后,实验证明iTextRank比经典的TextRank方法具有更高的准确率和更低的召回率。 相似文献
15.
Recently, automation is considered vital in most fields since computing methods have a significant role in facilitating work such as automatic text summarization. However, most of the computing methods that are used in real systems are based on graph models, which are characterized by their simplicity and stability. Thus, this paper proposes an improved extractive text summarization algorithm based on both topic and graph models. The methodology of this work consists of two stages. First, the well-known TextRank algorithm is analyzed and its shortcomings are investigated. Then, an improved method is proposed with a new computational model of sentence weights. The experimental results were carried out on standard DUC2004 and DUC2006 datasets and compared to four text summarization methods. Finally, through experiments on the DUC2004 and DUC2006 datasets, our proposed improved graph model algorithm TG-SMR (Topic Graph-Summarizer) is compared to other text summarization systems. The experimental results prove that the proposed TG-SMR algorithm achieves higher ROUGE scores. It is foreseen that the TG-SMR algorithm will open a new horizon that concerns the performance of ROUGE evaluation indicators. 相似文献
16.
17.
18.
19.
针对自然语言处理(NLP)生成式自动摘要领域的语义理解不充分、摘要语句不通顺和摘要准确度不够高的问题,提出了一种新的生成式自动摘要解决方案,包括一种改进的词向量生成技术和一个生成式自动摘要模型。改进的词向量生成技术以Skip-Gram方法生成的词向量为基础,结合摘要的特点,引入词性、词频和逆文本频率三个词特征,有效地提高了词语的理解;而提出的Bi-MulRnn+生成式自动摘要模型以序列映射(seq2seq)与自编码器结构为基础,引入注意力机制、门控循环单元(GRU)结构、双向循环神经网络(BiRnn)、多层循环神经网络(MultiRnn)和集束搜索,提高了生成式摘要准确性与语句流畅度。基于大规模中文短文本摘要(LCSTS)数据集的实验结果表明,该方案能够有效地解决短文本生成式摘要问题,并在Rouge标准评价体系中表现良好,提高了摘要准确性与语句流畅度。 相似文献
20.
文本自动摘要技术在网页搜索和网页内容推荐等多个领域都有着非常广阔的应用前景。经典的文本摘要算法采用统计学的方法来提取文章关键字,进而提取主题句。这种方法在一定程度上忽略了文本的语义和语法信息。近年来,分布式词向量嵌入技术已经应用到文本检索当中,基于该技术提出了一种词向量化的自动文本摘要方法,该方法主要分为4个步骤:词向量生成、基于词向量的段向量生成、关键词提取和主题句抽取,最终实现文本段落的自动摘要。实验结果表明,改进的文本自动摘要方法能够有效提取主题句。 相似文献