首页 | 本学科首页   官方微博 | 高级检索  
     

Web日志预处理中优化的会话识别方法
引用本文:方元康,胡学钢,夏启寿. Web日志预处理中优化的会话识别方法[J]. 计算机工程, 2009, 35(7): 49-51
作者姓名:方元康  胡学钢  夏启寿
作者单位:合肥工业大学计算机与信息学院,合肥,230009;池州学院计算机中心,池州,247000;合肥工业大学计算机与信息学院,合肥,230009;池州学院计算机中心,池州,247000
基金项目:国家自然科学基金,池州学院自然科学基金 
摘    要:针对Web日志数据预处理中会话识别这一重要环节,提出一种优化的会话识别算法。在用户识别后,通过过滤框架页面大幅度减少实验产生的有效页面数,为每个页面设置访问时间阈值,并根据页面重要程度对该阈值进行调整,页面的重要性由页面内容及站点结构确定。实验数据显示,与对所有页面使用单一的先验阈值进行会话识别的方法相比较,该方法得到了真实性更强的会话集。

关 键 词:Web挖掘  数据预处理  阈值  Frame 页面  会话识别
修稿时间: 

Improved Method for Session Identification in Web Log Preprocessing
FANG Yuan-kang,HU Xue-gang,XIA Qi-shou. Improved Method for Session Identification in Web Log Preprocessing[J]. Computer Engineering, 2009, 35(7): 49-51
Authors:FANG Yuan-kang  HU Xue-gang  XIA Qi-shou
Affiliation:1.Computer & Information College;Hefei University of Technology;Hefei 230009;2.Center of Computer;Chizhou College;Chizhou 247000
Abstract:Session identification is an important step in data preprocessing of Web log mining.This paper proposes an improved session identification algorithm.After identifying users, effective Web pages in experiment are reduced greatly by filtering frame pages, and the access time threshold is adjusted by the Web contents and site's structure on this condition.Compared with the traditional method that defines a uniform threshold for all Web pages experimentally, the approach can decide the access time threshold mor...
Keywords:Web mining  data preprocessing  threshold  Frame page  session identification  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号