首页 | 本学科首页   官方微博 | 高级检索  
     

基于归纳化会话的网络用户的聚类
引用本文:黄松,刘晓明,宋自林.基于归纳化会话的网络用户的聚类[J].计算机研究与发展,2001,38(10):1224-1228.
作者姓名:黄松  刘晓明  宋自林
作者单位:通信工程学院计算机科学系
基金项目:本课题得到国家自然科学基金项目资助(69975024)
摘    要:为了发掘具有相似的访问兴趣的网络用户,探讨了网络用户聚类的问题。网络用户的访问信息从服务器日志文件中抽取出来,组织成会话向量的形式,会话描述为一段时间内用户向服务器发出一系列访问请求。为了减少会话向量的维度,根据网页的层次性,采用面向属性的推理方法,对这些会话进行了归纳,并且定义了一个新的距离测度来描述两个会话之间的相似度,最后采用某种非欧几里德的关系聚类算法聚类这些归纳化的会话。实验表明,这种方法对在大型的日志文件集中挖掘出有意义的网络用户的分类是高效可行的。

关 键 词:归纳化会话  网络用户  聚类  网站  计算机网络

CLUSTERING OF WEB USERS BASED ON THE GENERALIZED SESSIONS
HUANG Song,LIU Xiao Ming,and SONG Zi Lin.CLUSTERING OF WEB USERS BASED ON THE GENERALIZED SESSIONS[J].Journal of Computer Research and Development,2001,38(10):1224-1228.
Authors:HUANG Song  LIU Xiao Ming  and SONG Zi Lin
Abstract:In order to find Web users with similar access interest, clustering of Web users is studied in this paper. Access records of the Web users are extracted from Web severs' log files and organized into user sessions. Each session is a compact sequence of Web accesses by a user. Using attributed oriented induction, the sessions are then generalized according to the page hierarchy. A new distance is defined to measure similarity between two generalized sessions. The generalized sessions are finally clustered using some non Euclidean and relational clustering algorithms. The experiment shows that this approach is efficient and practical in finding several interesting clusters within a large set of log.
Keywords:Web mining  attribute  oriented induction  session  session distance  generalized sessions
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号