首页 | 本学科首页   官方微博 | 高级检索  
     

互联网话题识别与跟踪系统设计及实现
引用本文:闵可锐,赵迎宾,刘昕,赵泽宇,闫华. 互联网话题识别与跟踪系统设计及实现[J]. 计算机工程, 2008, 34(19): 212-214
作者姓名:闵可锐  赵迎宾  刘昕  赵泽宇  闫华
作者单位:1. 复且大学计算机科学与工程系,上海,200433
2. 复旦大学信息化办公室,上海,200433
摘    要:针对互联网上论坛和新闻网站发布的海量自然语言文本,该文设计一个话题识别与跟踪系统,将海量的数据分类整理并聚合形成各个话题。该系统的核心采用SVM方法进行文本分类,基于知识库和网络流算法实现话题的聚合,测试结果表明,文章分类的正确率达到92%,聚类的正确率达到88%,具有较高的应用价值。

关 键 词:话题识别与跟踪  信息检索  支持向量机  分类  聚类
修稿时间: 

Design and Implementation of Topic Detection and Tracking System on Web
MIN Ke-rui,ZHAO Ying-bin,LIU Xin,ZHAO Ze-yu,YAN Hua. Design and Implementation of Topic Detection and Tracking System on Web[J]. Computer Engineering, 2008, 34(19): 212-214
Authors:MIN Ke-rui  ZHAO Ying-bin  LIU Xin  ZHAO Ze-yu  YAN Hua
Affiliation:(1. Dept. of Computer Science & Engineering, Fudan University, Shanghai 200433; 2. Informationization Office, Fudan University, Shanghai 200433)
Abstract:This paper designs and implements a Topic Detection and Tracking(TDT) system to process the huge number of natural language text on Web. It classifies the text into several categories, performs clustering in each category to get the topic. The system can detect the hot topics in real-time and track some topics selected by user. The accuracy of text classification is 92%, and the accuracy of clustering is 88%. Experiment shows the feasibility of the TDT system.
Keywords:Topic Detection and Tracking(TDT)  information retrieval  SVM  classification  clustering
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号