首页 | 本学科首页   官方微博 | 高级检索  
     

改进的基于Web的频繁访问路径挖掘算法
引用本文:庞敏,赵乙国,周海英.改进的基于Web的频繁访问路径挖掘算法[J].测试技术学报,2009,23(3).
作者姓名:庞敏  赵乙国  周海英
作者单位:1. 中北大学,电子与计算机科学技术学院,山西,太原,030051
2. 中北大学,信息与通信工程学院,山西,太原,030051
摘    要:对于连续频繁访问路径的挖掘如果采用常见的序列模式挖掘算法, 挖掘效率是比较低的, 而且只能得到频繁访问路径. 本文在研究访问路径性质的基础上给出了一种能从普通 Web 日志中挖掘出连续频繁访问路径的算法. 设计了一种新颖的数据结构压缩存储空间及存储所需挖掘信息. 同时采用分区搜索的方式, 为每个频繁节点构造一棵后缀树, 通过遍历该后缀树挖掘出连续频繁访问路径. 采用这种方法进行挖掘, 无需生成候选集, 而且一次就可以挖掘出所有以根节点为后缀的连续频繁访问路径.

关 键 词:连续频繁访问路径  网络服务器日志  分区搜索  后缀树  频繁节点

An Improved Web-Based Mining Algorithm for Frequent Access Paths
PANG Min,ZHAO Yiguo,ZHOU Haiying.An Improved Web-Based Mining Algorithm for Frequent Access Paths[J].Journal of Test and Measurement Techol,2009,23(3).
Authors:PANG Min  ZHAO Yiguo  ZHOU Haiying
Affiliation:1.School of Computer Science and Technology;North University of China Taiyuan 030051;China;2.School of Information and Communication Engineering;North University of China;Taiyuan 030051;China
Abstract:Universal sequential pattern mining algorithms can be used to mine the continuous frequent access paths,but the efficiency is lower,and they can only obtain frequent access paths.Based on the features of access paths,this paper puts forward an algorithm that can mine continuous frequent access paths from Web logs.The algorithm devises a new data structure to compress the store space and save all needed information for mining.At the same time,by adopting the zoning searching method the algorithm constructs a...
Keywords:continuous frequent access patterns  Web Server Logs  zoning searching  a suffix tree  frequent page node  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号