首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现
作者单位:;1.昆明理工大学信息工程与自动化学院;2.云南省计算机应用重点实验室
摘    要:为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词语共现关系构建无向加权词图;引入节点词汇主题影响力因素根据词语主题相关性来修改节点间的随机跳转概率,在词图的基础上运用TextRank算法获取候选关键词排序;再利用bootstraping算法的思想迭代生成表意性更强的关键短语。实验表明,该方法可有效提取出表意性强且涵盖文本主题信息的关键短语。

关 键 词:关键短语抽取  LDA模型  主题挖掘  TextRank  主题影响力

DESIGN AND IMPLEMENTION OF A KEY PHRASES EXTRACTION SCHEME IN THE TEXT BASED ON LDA AND TEXTRANK
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号