首页 | 本学科首页   官方微博 | 高级检索  
     

搜索引擎用户访问量模型
引用本文:王继民,彭波. 搜索引擎用户访问量模型[J]. 计算机工程与应用, 2004, 40(25): 9-11,30
作者姓名:王继民  彭波
作者单位:北京大学计算机科学技术系网络实验室,北京,100871;中科院资源环境科学信息中心,兰州,730000;北京大学计算机科学技术系网络实验室,北京,100871
基金项目:国家973重点基础发展研究计划项目(编号:G1999032706)资助
摘    要:基于大规模分布式WWW搜索引擎系统---北大“天网”的用户日志,该文研究了搜索引擎用户访问量建模分析和预测的一般方法;将用户的访问量看成按时间次序排列的随机变量序列,利用时间序列分析的方法,分别建立了天网用户的查询量、点击量和不同IP用户访问量的潜周期模型;结果显示模型对实际数据拟合效果较好;用户访问的主周期为24小时,其它周期依次为12小时、6小时、8小时、5小时、168小时(即一周);用户的异常访问情况可通过小波技术检测。

关 键 词:搜索引擎  用户访问量  小波  潜周期模型
文章编号:1002-8331-(2004)25-0009-03

Modeling Quantity of Users'Access for Search Engine
Wang Jiming , Peng Bo. Modeling Quantity of Users'Access for Search Engine[J]. Computer Engineering and Applications, 2004, 40(25): 9-11,30
Authors:Wang Jiming    Peng Bo
Affiliation:Wang Jiming 1,2 Peng Bo 11
Abstract:Tianwang is a large-scale search engine system which is now maintaining index of about 258millions web pages and20millions ftp files.Some hidden periodicity models of the quantity of users' access for search engine is established based on the query and click log of Tianwang.The main idea is that the quantity of users' access,which includes the quantity of users' query,click and distinct IP users under a unit time ,is regarded as a time series.Then the models can be established by applying some methods in time series analysis.The results show that the models provide a better fit to the real data.And the main period of the quantity of users' access is24hour ,the others12hour ,6hour ,8hour ,5hour and168hour (i.e.one week).The exceptional access can be detected by applying wavelet method.
Keywords:search engine  quantity of users'access  wavelet  hidden periodicity model
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号