首页 | 本学科首页   官方微博 | 高级检索  
     

基于线索树双层聚类的微博话题检测
引用本文:马彬,洪宇,陆剑江,姚建民,朱巧明.基于线索树双层聚类的微博话题检测[J].中文信息学报,2012,26(6):121-129.
作者姓名:马彬  洪宇  陆剑江  姚建民  朱巧明
作者单位:苏州大学 计算机科学与技术学院,江苏 苏州 215006
基金项目:国家自然科学基金资助项目,教育部博士点基金资助项目,教育部博士学科点专项基金资助项目,江苏省苏州市自然科学基金项目
摘    要:微博作为一种全新的信息发布模式,在极大程度上增强了网络信息的开放性和互动性,但同时也造成微博空间内信息量的裂变式增长。利用话题检测技术将微博文本信息按照话题进行归类和组织,可以帮助用户在动态变化的信息环境下高效获取个性信息或热点话题。该文针对微博文本短、半结构、上下文信息丰富等特点,提出了基于线索树的双层聚类的话题检测方法,通过利用融合了时序特征和作者信息的话题模型(Temporal-Author-Topic, TAT)进行线索树内的局部聚类,借以实现垃圾微博的过滤,最后利用整合后的线索树进行全局话题检测。实验结果显示该方法在解决数据稀疏方面取得了较好的效果,话题检测的F值达到31.2%。

关 键 词:微博文本  话题检测  TAT模型  线索树  LDA特征选择  

A Thread-based Two-stage Clustering Method of Microblog Topic Detection
MA Bin , HONG Yu , LU Jianjiang , YAO Jianmin , ZHU Qiaoming.A Thread-based Two-stage Clustering Method of Microblog Topic Detection[J].Journal of Chinese Information Processing,2012,26(6):121-129.
Authors:MA Bin  HONG Yu  LU Jianjiang  YAO Jianmin  ZHU Qiaoming
Affiliation:School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006, China
Abstract:Microblog is a novel individual publication model over Internet, making significantly more information open and interactive. Utilizing topic detection techniques to classify and organize microblog texts by topics can enable users access to the information interested to them under the dynamic environment. To deal with the short, semi-structured, context dependent microblog texts, we propose a thread-based two-stage clustering method. In the first phase, the temporal-author-topic (TAT) model is applied to clean the thread, namely to filter out the noisy microblog texts. In the second phrase, microblog texts with each thread are merged to form the thread texts for global topic detection. Experimental results show the approach achieves a good performance with a F-measure of 31.2%.
Key wordsmicroblog texts; topic detection; TAT model; thread information; LDA feature selection
Keywords:microblog texts  topic detection  TAT model  thread information  LDA feature selection  
本文献已被 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号