首页 | 本学科首页   官方微博 | 高级检索  
     

基于隐主题分析和文本聚类的微博客中新闻话题的发现
引用本文:路荣,项亮,刘明荣,杨青. 基于隐主题分析和文本聚类的微博客中新闻话题的发现[J]. 模式识别与人工智能, 2012, 25(3): 382-387
作者姓名:路荣  项亮  刘明荣  杨青
作者单位:中国科学院自动化研究所模式识别国家重点实验室北京100190
摘    要:提出一种在大规模微博客短文本数据集上发现新闻话题的方法。利用隐主题分析技术,解决短文本相似度度量的问题。在每个时间窗口内,根据新闻的特点选取出最有可能谈论新闻事件的微博客文本,然后用两层的K均值和层次聚类的混合聚类方法,对这个时间窗口内的那些最有可能谈论新闻事件的微博文本进行聚类,从而检测出新闻话题。此方法能较好地解决微博客短文本的数据稀疏性及数据量巨大的问题。实验证明该算法的有效性。

关 键 词:微博客  短文本  隐主题模型  话题发现  混合聚类  
收稿时间:2010-10-13

Discovering News Topics from Microblogs Based on Hidden Topics Analysis and Text Clustering
LU Rong , XIANG Liang , LIU Ming-Rong , YANG Qing. Discovering News Topics from Microblogs Based on Hidden Topics Analysis and Text Clustering[J]. Pattern Recognition and Artificial Intelligence, 2012, 25(3): 382-387
Authors:LU Rong    XIANG Liang    LIU Ming-Rong    YANG Qing
Affiliation:National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190
Abstract:A method of news topics extraction from large-scale short posts of microblogging-service is proposed. Through the hidden topic analysis,the similarity measurement of short texts is solved well. In every time window,the short posts which are most likely to talk about news events are selected according to the characteristics of the news. Then,a two-level K-means-hierarchical hybrid clustering method is used to cluster all the selected data into different news topics. The experimental results show the proposed method works well on large-scale microblog dataset.
Keywords:Microblog  Short Text  Hidden Topic Model  Topics Extraction  Hybrid Clustering
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《模式识别与人工智能》浏览原始摘要信息
点击此处可从《模式识别与人工智能》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号