首页 | 本学科首页   官方微博 | 高级检索  
     

大规模短文本的快速话题发现方法与评价研究
引用本文:韩忠明,张慧,张梦,黄今慧.大规模短文本的快速话题发现方法与评价研究[J].计算机应用研究,2015,32(3).
作者姓名:韩忠明  张慧  张梦  黄今慧
作者单位:北京工商大学计算机与信息工程学院,北京,100048
基金项目:国家自然科学基金资助项目,国家教育部人文社会科学研究青年基金资助项目,北京市属高等学校科学技术与研究生教育创新工程建设项目
摘    要:传统的话题发现研究主要针对于长文本及新闻数据集,大规模短文本具有稀疏、无结构、多噪等特点,传统方法很难有效发现话题.提出了一个融合词共现与加权GN (CW-WGN)算法的快速话题发现方法,描述了CW-WGN方法的详细过程,给出方法的具体算法.采集了sina微博、新闻网站的标题真实的短文本数据,构建了基础测试数据集,采用LDA与K-means方法作为对比进行了大量对比实验.实验结果表明CW-WGN比LDA和K-means方法能够多发现20%以上的正确话题,而且发现的话题纯度也高于LDA与K-means.此外,CW-WGN消耗的时间最少,能够有效地从实际大规模短文本上发现话题.

关 键 词:短文本  话题发现  词共现  社团发现

Fast topic detection and evaluation towards massive short texts
HAN Zhong-ming,ZHANG Hui,ZHANG Meng,HUANG Jin-hui.Fast topic detection and evaluation towards massive short texts[J].Application Research of Computers,2015,32(3).
Authors:HAN Zhong-ming  ZHANG Hui  ZHANG Meng  HUANG Jin-hui
Abstract:
Keywords:short text  topic detection  word co-occurrence  community detection
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号