首页 | 本学科首页   官方微博 | 高级检索  
     

互联网上主题信息的一种收集与处理模型及其应用
引用本文:李晓明,朱家稷,闫宏飞. 互联网上主题信息的一种收集与处理模型及其应用[J]. 计算机研究与发展, 2003, 40(12): 1667-1671
作者姓名:李晓明  朱家稷  闫宏飞
作者单位:1. 北京大学计算机科学技术系,北京,100871
2. 北京大学计算机科学技术系,北京,100871;中国科学院软件研究所计算机科学重点实验室,北京,100080
基金项目:国家“九七三”重点基础研究发展规划项目 (G19990 3 2 70 6),中国科学院软件研究所计算机科学实验室开放课题基金项目(SYSKF0 3 0 2 )
摘    要:互联网上的信息是社会状况的一种反映,可以被人们从多种不同的角度来关心,而有了计算机作为工具,这种“关心”的深度和广度就能够大大地拓展,提出一种模型,基于它实现的一套程序和过程能够针对人们关心的热点主题,系统地对网上的信息进行收集和分析,从不同的角度和层次得出互联网对该主题报道的强度,对社会科学类研究具有一定的参考价值,利用这个模型(和相应的系统),以2002年11月8日为中心,以“十六大”为主题,前后分别扩展半个月,对中国互联网上的信息进行了跟踪研究,得出了在这些天里和“十六大”相关信息占总信息量的7.3%;从2002年11月2日开始,“十六大”相关信息量逐日递增,在2002年11月20日达到最高等结论。

关 键 词:互联网信息挖掘 模型 “十六大”

A Model for Collecting and Processing Topical Information in the Web and Its Application
LI Xiao-Ming ,ZHU Jia-Ji ,and YAN Hong-Fei . A Model for Collecting and Processing Topical Information in the Web and Its Application[J]. Journal of Computer Research and Development, 2003, 40(12): 1667-1671
Authors:LI Xiao-Ming   ZHU Jia-Ji   and YAN Hong-Fei
Affiliation:LI Xiao-Ming 1,ZHU Jia-Ji 1,and YAN Hong-Fei 1,2 1
Abstract:Internet is increasingly becoming an important media for news reporting. Presented in this paper is a model for collecting and processing topical information in the web. Selection of sample space, extraction of topical features, and issues in page gathering are described, as well as post processing the data collected. With this model, it is possible to obtain, for a specific topic, the strength of presence in the Internet from a variety of angles, having worth for social scientific research. Based on this model, a system is implemented and an experiment is conducted using "16th Congress" as the topic from October 22nd to November 24th, 2002. It is concluded from the experiment data that the amount of information that are related to the 16th Congress is 7.3% among all the information, and the amount of topical information exhibits a strong taking off from November 2nd, and reached its peak on November 20th, etc.
Keywords:Web mining  model  16th Congress
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号