首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 10 毫秒
1.
为了让计算机能够对中文文章提取摘要,提出一种中文摘要自动生成算法。该算法基于Gensim自然语言处理框架实现,并在原有的基础上做出了改进,算法主要分为两个阶段。关键句生成阶段,对中文语料进行预处理,并放入Gensim框架中的Word2vec模型进行训练,修改TextRank算法使其能够接受词向量的输入生成无向图从而找到关键句;摘要生成框架构建阶段,根据文章结构与Gensim框架中的LDA主题模型所提取的关键词,赋予句子不同的权值,将分数高的几个句子组合生成文章摘要。Rouge摘要评测结果表明,该算法生成的摘要能够包含文章关键信息,相比于其他自动文摘算法,句意通顺程度得到了提升。  相似文献   

2.
随着互联网的发展, 如何快速地从海量新闻中获取核心信息, 减少浏览负担, 是信息部门目前急需解决的问题. 现有的TextRank及其改进算法在新闻摘要抽取任务中, 考虑文本特征不全面. 在摘要句选择时, 只考虑到摘要的冗余度, 忽略了摘要的多样性及可读性. 针对上述问题, 本文提出了融合多特征的文本自动摘要方法MF-TextRank(multi-feature TextRank). 根据新闻的结构、句子和单词总结了更全面的文本特征信息用于改进TextRank算法的权重转移矩阵, 使句子权重计算更准确. 采用MMR算法更新句子权重, 通过集束搜索得到候选摘要集, 在MMR得分的基础上选择内聚性最高的候选摘要集作为最终的摘要输出. 实验结果表明, MF-TextRank算法在摘要抽取任务中摘要Rouge得分优于现有改进的TexRank算法, 有效提高了摘要抽取的准确性.  相似文献   

3.
提出一种改进词共现模型的自动摘要方法.在词共现模型的基础上,通过融合词性和标题隐含关键词信息,将主题与内容相结合,来提取关键词和摘要.与改进前的方法相比较,该方法在提取关键词的准确度和生成摘要的质量上有明显提高.  相似文献   

4.
针对语义信息对TextRank的影响,同时考虑新闻标题信息高度浓缩以及关键词的覆盖性与差异性的特点,提出一种新的融合LSTM和LDA差异的关键词抽取方法。首先对新闻文本进行预处理,得到候选关键词;其次通过LDA主题模型得到候选关键词的主题差异影响度;然后结合LSTM模型和word2vec模型计算候选关键词与标题的语义相关性影响度;最后将候选关键词节点按照主题差异影响度和语义相关性影响度进行非均匀转移,得到最终的候选关键词排序,抽取关键词。该方法融合了关键词的语义重要性、覆盖性以及差异性的不同属性。在搜狗全网新闻语料上的实验结果表明,该方法的抽取结果相比于传统方法在准确率和召回率上都有明显提升。  相似文献   

5.
关键词提取在自然语言处理领域有着广泛的应用,如何准确、快速地从文本中获取关键词信息已经成为文本处理的关键性问题。现有的关键词提取方法很多,但是这些关键词提取方法的准确率和通用性有待提高。因此,提出了一种改进的TextRank关键词提取方法,该方法使用TF-IDF方法与平均信息熵方法计算文本中词语的重要性,然后根据计算结果得到词语的综合权重。利用词语的综合权重改进TextRank算法的节点初始值以及节点概率转移矩阵,通过迭代的方式计算各个节点的权重,直至收敛,从而得到词语的权重信息,选择top N个词语作为关键词输出,实现关键词的提取功能。实验结果表明,相较于传统的TF-IDF方法和TextRank方法,提出的改进后的TextRank关键词提取方法有更好的通用性,提取的关键词的准确率更高。  相似文献   

6.
随着近些年深度学习的兴起,词语在计算机中的表示有了重大突破;而长期以来关键词提取算法均以词语作为特征进行计算,效果并不理想。因此,本文提出了一种基于深度学习工具word2vec的关键词提取算法。该算法首先使用word2vec将所有词语映射到一个更抽象的词向量空间中;然后基于词向量计算词语之间的相似度,最终通过词语聚类得到文章关键词。实验表明该算法对于篇幅长文章的关键词提取的准确率要明显高于其他算法。  相似文献   

7.
基于图模型的TextRank算法是一种有效的关键词提取算法,在提取关键词时可取得较高准确度。但该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大随意性与不确定性。针对这一问题,该文提出了一种基于粗糙数据推理理论的改进TextRank关键词提取算法,粗糙数据推理可扩大关联范围,增加关联数据,得到的结果更加全面。结合粗糙数据推理理论中的关联规则,该文提出的算法做了以下改进: 依据词义对候选关键词进行划分;再通过粗糙数据推理对不同分类中候选词间的关联关系进行推理。实验结果表明,与传统的TextRank算法相比,改进后算法的提取精度有了明显的提高,证明了利用粗糙数据推理的思想能有效地改善算法提取关键词的性能。  相似文献   

8.
在对中文文本进行摘要提取时,传统的TextRank算法只考虑节点间的相似性,忽略了文本的其他重要信息。首先,针对中文单文档,在现有研究的基础上,使用TextRank算法,一方面考虑句子间的相似性,另一方面,使TextRank算法与文本的整体结构信息、句子的上下文信息等相结合,如文档句子或者段落的物理位置、特征句子、核心句子等有可能提升权重的句子,来生成文本的摘要候选句群;然后对得到的摘要候选句群做冗余处理,以除去候选句群中相似度较高的句子,得到最终的文本摘要。最后通过实验验证,该算法能够提高生成摘要的准确性,表明了该算法的有效性。  相似文献   

9.
10.
11.
传统的TextRank算法进行关键词提取时词语之间的连接边采用权值均分的形式进行加权,未考虑词语的语义信息。针对这种情况,提出结合拓扑势与TextRank算法的关键词提取方法。方法使用词频和词语在文中的分布情况对词语加权作为词语的全局影响;使用拓扑势的思想结合词语全局影响计算词语间的转移概率作为词语的局部影响;将转移概率矩阵应用于传统TextRank算法中。实验表明,考虑词语全局及局部重要性等语义信息可有效提升TextRank算法的准确率和召回率。  相似文献   

12.
提出了一种基于高频词和共现词的文本主题词抽取方法。该方法充分考虑到文档的统计信息和语义信息, 通过对提问问题和答案库中答案的相似度计算排序, 输出候选答案。提出一种具体的应用模型, 分别从问题的分析、信息检索和答案抽取三个模块进行系统的设计, 具有一定的应用价值。  相似文献   

13.
14.
一种简单的自动生成矢量汉字库算法   总被引:1,自引:0,他引:1  
林丕源 《计算机学报》1990,13(4):299-303
本文提出了一种非常简单的自动生成矢量汉字库的原理和算法。其方法可普遍地用于将各种线体点阵汉字库转化得到相应的矢量汉字库。 文中提出的算法我们已在IBM PC XT上实现,并在很短的时间内生成了一个矢量汉字库,效果是令人满意的。  相似文献   

15.
王庆  陈泽亚  郭静  陈晰  王晶华 《计算机应用》2015,35(6):1649-1653
针对专业领域中科技项目的关键词提取和项目词库建立的问题,提出了一种基于语义关系、利用共现矩阵建立项目关键词词库的方法。该方法在传统的基于共现矩阵提取关键词研究的基础上,综合考虑了关键词在文章中的位置、词性以及逆向文件频率(IDF)等因素,对传统算法进行改进。另外,给出一种利用共现矩阵建立关键词关联网络,并通过计算与语义基向量相似度识别热点关键词的方法。使用882篇电力项目数据进行仿真实验,实验结果表明改进后的方法能够有效对科技项目进行关键词提取,建立关键词关联网络,并在准确率、召回率以及平衡F分数(F1-score)等指标上明显优于基于多特征融合的中文文本关键词提取方法。  相似文献   

16.
针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够 提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。  相似文献   

17.
作为一种经典的文本关键字提取和自动生成算法,TextRank将文本看作若干单词组成的集合,并通过对单词节点图的节点权值进行迭代计算,挖掘单词之间的潜在语义关系。在TextRank节点图模型的基础上,将马尔可夫状态转移模型与节点图相结合,提出节点间边权为条件概率的新模型生成算法TextRank_Revised。通过对有标记和无标记的验证集进行验证,证明新的算法在不提升时间复杂度的前提下,通过计算单文本得出的单词排序结果相较于原TextRank算法更加吻合人工对文档的关键字提取结果。  相似文献   

18.
针对Word2Vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与Word2Vec模型相结合,提出Word2Vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical Softmax的Word2Vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(Global ACV)和局部平均上下文词向量(Local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵。将Word2Vec-ACV模型和Word2Vec模型分别进行类比任务实验和命名实体识别任务实验,实验结果表明,Word2Vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。  相似文献   

19.
1.引言 Internet的迅猛的发展,使人们能方便快捷地获取众多的信息和服务。但是,面对Internet上浩瀚纷繁的信息海洋,人们常常会陷入窘迫的境地:一方面收到太多的信息无从选择和消化,淹没在繁杂的信息中;另一方面是信息的迷失,人们难于找到真正所需的信息。因此,信息社会对能够有效浓缩文本信息的网络自动文摘有着迫切的要求。自动文摘是自然语言理解的一个重要分支,而且文摘的研究也由来已久。早在50年代末,Luhn就首次设计了一个自动文摘系统,引起了世人的极大注目。从那时起,先后涌现了许多著名的系统。所谓自动文摘系统是指这样的一种软件系统,它能将给定原文的中心内容,或所需要的内容自动抽取出来,并用同于或不同于原文的句子表示出来。  相似文献   

20.
蒋效宇 《计算机工程》2012,38(3):183-186
针对生成文摘内容不完整的问题,利用相邻词的共现频率进行未登录词识别,提出一种通过词汇链的构建进行中文关键词抽取和文摘生成的算法,并给出一种采用《知网》为知识库构建词汇链的方法。通过计算词义相似度构建词汇链,结合词汇所在词汇链的强度、信息熵和出现位置等属性,进行关键词抽取和句子重要度计算。实验结果表明,与已有算法相比,该算法能够提高生成摘要的召回率和准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号