首页 | 本学科首页   官方微博 | 高级检索  
     

基于流信息距离的多文本流热点挖掘
引用本文:杨宁,唐常杰,王悦,陈瑜,郑皎凌,李红军.基于流信息距离的多文本流热点挖掘[J].软件学报,2011,22(8):1761-1770.
作者姓名:杨宁  唐常杰  王悦  陈瑜  郑皎凌  李红军
作者单位:四川大学计算机学院,四川成都,610065
基金项目:国家自然科学基金(600773169); 国家科技支撑计划(2006BAI05A01)
摘    要:把文本流中的热点区分为局部热点和全局热点,分析了二者的相关性,并将Kolmogorov复杂度应用于多文本流中的热点挖掘,首先,定义了基于Kolmogorov复杂度的冗余信息的概念,并论证了文本流存在局部热点的必要条件是冗余信息超过某个阈值;其次,基于条件Kolmogorov复杂度提出了一个相似性度量指标——流信息距离(...

关 键 词:热点挖掘  多文本流  流信息距离  冗余信息  Kolmogorov复杂度
收稿时间:2009/10/12 0:00:00
修稿时间:2010/3/29 0:00:00

Mining Hotspots from Multiple Text Streams Based on Stream Information Distance
YANG Ning,TANG Chang-Jie,WANG Yue,CHEN Yu,ZHENG Jiao-Ling and LI Hong-Jun.Mining Hotspots from Multiple Text Streams Based on Stream Information Distance[J].Journal of Software,2011,22(8):1761-1770.
Authors:YANG Ning  TANG Chang-Jie  WANG Yue  CHEN Yu  ZHENG Jiao-Ling and LI Hong-Jun
Affiliation:YANG Ning,TANG Chang-Jie,WANG Yue,CHEN Yu,ZHENG Jiao-Ling,LI Hong-Jun(College of Computer Science,Sichuan University,Chengdu 610065,China)
Abstract:This paper characterizes the local and global hotspots in text streams and elaborates their correlation.The paper then applies Kolmogorov complexity to mining the hotspots in multiple text streams.The Redundant Information is defined based on Kolmogorov complexity,and it has been demonstrated that the Redundant Information exceeding a threshold is necessary for the local hotspots.Secondly,a similarity metric,termed as Stream Information Distance(SID),is suggested based on the conditional Kolmogorov complexi...
Keywords:hotspot mining  multiple text streams  stream information distance  redundant information  Kolmogorov complexity  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号