首页 | 本学科首页   官方微博 | 高级检索  
     

网络热点事件发现系统的设计
引用本文:刘星星,何婷婷,龚海军,陈龙. 网络热点事件发现系统的设计[J]. 中文信息学报, 2008, 22(6): 80-85
作者姓名:刘星星  何婷婷  龚海军  陈龙
作者单位:1.华中师范大学 计算机科学系,湖北 武汉 430079;
2. 国家语言资源监测与研究中心 网络媒体语言分中心,湖北 武汉 430079
基金项目:国家自然科学基金,国家自然科学基金,国家自然科学基金,国家自然科学基金,国家自然科学基金
摘    要:该文设计了一个热点事件发现系统。该系统面向互联网新闻报道流,能自动发现任意一段时间内网络上的热点事件,并给出描述事件发展过程的曲线图。针对网络新闻语料具有数据规模大和时间特征明显两个特性,系统将语料按时间(天)分组,对每天的语料采用凝聚聚类得到微类,选取某段时间内的所有微类,再做Single-pass聚类得到事件列表,利用事件热度计算公式,把候选事件按热度进行排序。采用该系统对2007年新闻语料进行实验,结果表明该系统能取得较好的效果。

关 键 词:计算机应用  中文信息处理  事件发现  凝聚聚类  Single-pass聚类  热度计算  

Design of Hot Web Event Detection System
LIU Xing-xing,HE Ting-ting,GONG Hai-jun,CHEN Long. Design of Hot Web Event Detection System[J]. Journal of Chinese Information Processing, 2008, 22(6): 80-85
Authors:LIU Xing-xing  HE Ting-ting  GONG Hai-jun  CHEN Long
Affiliation:1. Department of Computer Science, Huazhong Normal University ,Wuhan, Hubei 430079, China;
2. National Language Resources Monitoring and Research Center,
Network Media Branch, Wuhan, Hubei 430079 ,China
Abstract:We propose a system to detect hot web event automatically.The system is focused on the stream of news report on the Internet,which provides a diagram concerning the tendency of the event and can be utilized to detect the hot web event in any period of time.Since news corpus is characterized by large scale data and distinct time features,it is divided into hundreds of groups according to the date.We further divide each group into some macro-clusters using the agglomerative clustering,select the macro-clusters during a certain period of time and then combine all these selected macro-clusters into event lists by the Single-pass clustering.Finally,we sort the candidate events by calculating their hot degree.Experiments on 2007 news corpus show that our system can produce satisfactory results.
Keywords:computer application  Chinese information processing  event detection  agglomerative clustering  single-pass clustering  hot degree calculation
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号