首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 140 毫秒
1.
提出了一种基于LDA模型以及信息熵的文档自动摘要技术,即通过LDA模型对文档进行浅层语义分析,得到文档的主题分布以及不同主题下的词语分布;通过对主题的分析,可以得到最能代表文档中心思想的主题,以及该主题下的词语分布。同时,提出了一种新的基于信息熵的度量句子重要性的方法,并将该方法应用于文档的关键句抽取过程中。该方法将文档中句子的出现看成一个随机变量,通过对随机变量建模并度量它的信息熵来选取文档中的关键性语句。实验结果表明,应用主题模型与信息熵摘取的文档摘要能有效地从文档中摘出中心句。  相似文献   

2.
基于主题特征的关键词抽取   总被引:2,自引:1,他引:1  
为了使抽取出的关键词更能反映文档主题,提出了一种新的词的主题特征(topic feature,TF)计算方法,该方法利用主题模型中词和主题的分布情况计算词的主题特征。并将该特征与关键词抽取中的常用特征结合,用装袋决策树方法构造一个关键词抽取模型。实验结果表明提出的主题特征可以提升关键词抽取的效果,同时验证了装袋决策树在关键词抽取中的适用性。  相似文献   

3.
基于联合权重的多文档关键词抽取技术   总被引:2,自引:0,他引:2  
该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×Proportional Document Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词。该方法综合考虑了词语的频率,词性以及词语之间的语义相似性等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高3%,召回率提高7%,F-measure提高4.4%。  相似文献   

4.
一种利用BC方法的关键词自动提取算法研究   总被引:5,自引:0,他引:5  
通过分析几种常见关键词自动抽取方法的特点和不足,以KeyGraph算法思想为基础,构建词语网络并利用网络节点中心度(Betweenness Centrality)理论,提出了一种新的自动抽取关键词算法.通过分析和比较,新算法提取的关键词更能体现文档内容,并且相对低频而意义重要的关键词也能被提取出.最后,通过与TF和TFIDF算法的比较和分析,获得了令人满意的结果.  相似文献   

5.
文档自动文摘是自然语言处理一个研究热点。本文提出了一种基于局部主题关键句抽取的多文档自动文摘方法。首先,将文档集合中的每篇文档划分为若干个局部主题,然后对不同文档中的局部主题进行聚类分析,最后从局部主题聚簇中间抽取所需要的文摘句。实验证明了该方法的有效性。  相似文献   

6.
为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词语共现关系构建无向加权词图;引入节点词汇主题影响力因素根据词语主题相关性来修改节点间的随机跳转概率,在词图的基础上运用TextRank算法获取候选关键词排序;再利用bootstraping算法的思想迭代生成表意性更强的关键短语。实验表明,该方法可有效提取出表意性强且涵盖文本主题信息的关键短语。  相似文献   

7.
基于词汇链的中文新闻网页关键词抽取方法   总被引:1,自引:0,他引:1  
词汇链是一种词语间语义关系引起的连贯性的外在表现,提供关于文本结构和主题的重要线索。文中在解决歧义消解问题的基础上提出利用词汇链,结合词频特征、位置特征和集聚特征抽取中文新闻网页关键词的方法。该方法根据词语在文档中语义联系将文档表示成词汇链形式,并在此基础上抽取关键词。对中文新闻网页和学术期刊文献两种语料进行实验,结果表明该方法可明显提高抽取的关键词质量。  相似文献   

8.
基于局部主题关键句抽取的自动文摘方法   总被引:2,自引:1,他引:1       下载免费PDF全文
徐超  王萌  何婷婷  张勇 《计算机工程》2008,34(22):49-51
自动文摘是语言信息处理中的重要环节。该文提出一种基于局部主题关键句抽取的中文自动文摘方法。通过层次分割的方法对文档进行主题分割,从各个局部主题单元中抽取一定数量的句子作为文章的文摘句。通过事先对文档进行语义分析,有效地避免了数据冗余和容易忽略分布较小的主题等问题。实验结果表明了该方法的有效性。  相似文献   

9.
关键词提取和摘要抽取的目的都是从原文档中选择关键内容并对原文档的主要意思进行概括.评价关键词和摘要抽取质量的好坏主要看其能否对文档的主题进行良好的覆盖.在现有基于图模型的关键词提取和摘要抽取方法中,很少涉及到将关键词提取和摘要抽取任务协同进行的,而文中提出了一种基于图模型的方法进行关键词提取和摘要的协同抽取.该方法首先利用文档中词、主题和句子之间的6种关系,包括词和词、主题和主题、句子和句子、词和主题、主题和句子、词和句子,进行图的构建;然后利用文档中词和句子的统计特征对图中各顶点的先验重要性进行评价;接着采用迭代的方式对词和句子进行打分;最后根据词和句子的得分,得到关键词和摘要.为验证所提方法的效果,文中在中英文数据集上进行关键词提取和摘要抽取实验,发现该方法不管是在关键词提取还是摘要抽取任务上都取得了良好的效果.  相似文献   

10.
各类应用领域的文本数据日益增多,如何从这些海量数据中迅速准确地提取核心内容,已成为关键词抽取的主要任务.提出一种基于词和文档嵌入的关键词抽取方法,通过计算单词与文档在同一维度上的向量表示,得出每个单词与文档之间的语义相似度,将其作为无向图中每个单词节点的初始权重.接着使用带语义偏向的随机游走策略,计算出每个单词以及候选词的分值.最后选取得分较高的前N个候选词作为最终关键词.在公开数据集上的实验结果表明,该算法在准确率、召回率、F值上均超过现有的主流关键词抽取方法,极大提高了关键词自动抽取的效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号