首页 | 本学科首页   官方微博 | 高级检索  
     

一种Web用户行为聚类算法
引用本文:业宁,李威,梁作鹏,董逸生.一种Web用户行为聚类算法[J].小型微型计算机系统,2004,25(7):1364-1367.
作者姓名:业宁  李威  梁作鹏  董逸生
作者单位:1. 东南大学,计算机科学与工程系,江苏,南京,210096;南京林业大学,信息学院,江苏,南京,210037
2. 南京林业大学,信息学院,江苏,南京,210037
3. 东南大学,计算机科学与工程系,江苏,南京,210096
基金项目:江苏省九五重点攻关课题 (BJ980 17-1)资助,江苏省十五高科技项目 (BJ2 0 0 10 13 )资助,校科研基金重点课题 (X0 2 -0 70 -1(Z) )资助
摘    要:提出了一种新的路径相似度系数计算方法,并使之与雅可比相似系数结合,用于计算用户访问行为的相似度,在此基础之上又提出了一种分析web用户行为的聚类算法(FCC)。通过挖掘Web日志,找出具有相似行为的web用户,由于FCC聚类算法过滤了小于指定阚值的相似度系数,大大缩小了数据规模,很好地解决了其他聚类算法(如层次聚类)在高堆空间聚类时的“堆数灾难”问题,最后的实验结果很好。

关 键 词:Web日志  数据挖掘  聚类  相似度
文章编号:1000-1220(2004)07-1364-04

Web User Action Clustering Algorithm
YE Ning ,LI Wei ,LIANG Zuo peng ,DONG Yi Sheng.Web User Action Clustering Algorithm[J].Mini-micro Systems,2004,25(7):1364-1367.
Authors:YE Ning    LI Wei  LIANG Zuo peng  DONG Yi Sheng
Affiliation:YE Ning 1,2,LI Wei 2,LIANG Zuo peng 1,DONG Yi Sheng 1 1
Abstract:A clustering algorithm called FCC (Filter Coefficient Clustering) is proposed in this paper to get similitude action of Web users through mining web logs. First, we define a novel similarity coefficient called CM, and then combine it with the Jaccard Coefficient. As a result, a mix Coefficient is obtained to represent the similarity of Web user actions. The main reason why our algorithm is superior to other algorithms such as hierarchical clustering is that a threshold is engaged to filter the web log, thus the volume of data processed declined dramatically and the "dimension disaster" problem is resolved. The experiment result is satisfactory.
Keywords:web log  data mining  clustering  similarity
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号