共查询到10条相似文献,搜索用时 15 毫秒
1.
《计算机应用与软件》2017,(6)
关键短语的抽取在文本聚类、分类、检索等方面有着重要的作用。利用经典的TF-IDF算法来提高文本关键短语抽取的质量。通过对TF-IDF算法的研究,发现TF-IDF可以综合利用单个文本信息和文本集合信息抽取文本关键词。在此基础上,提出一种综合TF-IDF、TextRank、统计学知识抽取关键短语的方法和利用候选关键短语逆向文档频率排序的方法。该方法在TextRank基础上,通过TF-IDF引入词的文本集合信息计算词之间权重得到词的得分。然后利用统计学知识从上一步选出词组成的短语筛选出候选关键短语。最后利用逆向文档频率的思想对候选关键短语排序。实验证明,该模型相比于经典TextRank模型准确率提高了2%,召回率提高了4.5%,F-measure提高了3.4%。 相似文献
2.
针对词汇语义的差异性对TextRank算法的影响进行了研究,提出一种基于词向量与TextRank的关键词抽取方法。利用FastText将文档集进行词向量表征,基于隐含主题分布思想和利用词汇间语义性的差异,构建TextRank的转移概率矩阵,最后进行词图的迭代计算和关键词抽取。实验结果表明,该方法的抽取效果相比于传统方法有明显提升,同时证明利用词向量能简单而有效地改善TextRank算法的性能。 相似文献
3.
针对微博关键词抽取准确率不高的问题,提出一种基于标签优先的抽取排序方法。该方法利用微博本身具有的社交特征——标签,从微博内容集中抽取关键词。该方法首先根据微博自身建立初始词与微博之间的加权图,再将基于标签的随机游走方法应用于图中,随机游走反复跳跃到标签词节点上,经过一系列迭代得出每个词的平稳概率,并通过概率决定词的最终排序。该抽取方法根据真实的新浪微博内容进行测验,结果显示,与通过词与词的加权图来抽取关键词相比,基于标签的微博关键词抽取方法准确率提高了50%,在实际应用中能够有效提高关键词抽取的正确率。 相似文献
4.
5.
6.
TextRank使用共现窗口代替PageRank网页超链接以判断词语关系,但共现窗口机制下的词汇图是无向图,且实际中文文本中词语与其共现窗口内的词语之间在多数情况下没有认知上的指向性链接关系,导致共现窗口机制下的词语关系与PageRank网页超链接关系存在较大差别。为此,提出一种融合语义特征的关键词抽取方法S-TextRank。在TextRank方法的基础上以依存关系代替共现窗口判断词语关系,以模拟PageRank网页指向性超链接。对不同词性词语赋予相应的权重系数,从而模拟不同性质网页的重要程度。在此基础上,使用IDF方法结合汉语语法规则构建非关键词表,排除无关词语以降低其对抽取结果的影响。实验结果表明,S-TextRank方法在测试集上的准确率达到74%,比TextRank方法高19.4个百分点。 相似文献
7.
基于词汇链的中文新闻网页关键词抽取方法 总被引:1,自引:0,他引:1
词汇链是一种词语间语义关系引起的连贯性的外在表现,提供关于文本结构和主题的重要线索。文中在解决歧义消解问题的基础上提出利用词汇链,结合词频特征、位置特征和集聚特征抽取中文新闻网页关键词的方法。该方法根据词语在文档中语义联系将文档表示成词汇链形式,并在此基础上抽取关键词。对中文新闻网页和学术期刊文献两种语料进行实验,结果表明该方法可明显提高抽取的关键词质量。 相似文献
8.
9.
10.
为提升基于TextRank算法的关键词抽取效果,分析中文语义结构和分词算法的特点,提出一种融合语义依存和外部知识库的方法。使用语义依存图代替共现窗口构建词图,增强词图中各节点间的语义联系;在此基础上引入规范化谷歌距离和领域词典这两个外部知识库特征,结合文档内外部信息对词图中的边进行加权计算,对提取出的文档关键词应用前后向匹配算法做进一步处理,使提取的关键词更具语义完整性。实验结果表明,该方法在数据集上的关键词抽取效果有了显著提升,可读性更强,验证了所提方法的有效性。 相似文献