首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
Web上的数据规模大,动态性强,而通常发现的知识或规则很可能是不精确的、不完备的,为了克服以上困难,将粗糙集概念引入到Web挖掘中,进行Web事务聚类.介绍了将粗糙近似算法嵌入到WEKA平台的过程,充分利用了开源WEKA中的类和可视化功能,扩充了WEKA系统的聚类算法,并对嵌入的算法进行了分析,测试.粗糙近似算法方法能够实现从Web访问日志中聚类Web事务,并且该算法对分类属性的数据具有很高的准确率.  相似文献   

2.
Web使用挖掘是数据挖掘技术在Web信息仓库中的应用.Web使用挖掘通过挖掘Web服务器日志获取的知识来预测用户浏览行为,是Web挖掘技术中的一个重要研究方向.通常发现的知识或一些意外规则很可能是不精确的、不完备的,这就需要用软计算技术如粗糙集来解决.提出一种基于粗糙近似的聚类方法,该方法能够实现从Web访问日志中聚类Web事务.通过这种方法可以有效地挖掘Web日志记录,从而发现用户存取Web页面的模式.  相似文献   

3.
聚类分析是Web日志挖掘系统的重要组件,聚类分析的质量决定挖掘结果的有效性.本文引入一种向量聚类方法,并针对原有方法的不足提出改进.首先分析用户事务求出用户事务的相似矩阵,通过分别计算用户事务相似度和用户浏览路径相似度,然后把两者平均得到不同用户事务之间的相似性系数,最后根据相似性系数方法得出聚类结果.这种算法考虑到了web用户访问的有序、连续、重复性,结果能够真正反映出用户的浏览兴趣.  相似文献   

4.
基于变精度粗糙集的Web用户聚类方法   总被引:1,自引:1,他引:0       下载免费PDF全文
针对Web使用挖掘中的用户聚类问题,提出一种基于变精度粗糙集理论的粗糙聚类方法,该方法放宽经典粗糙集中不可区分关系的传递性将其扩展为相容关系,使用变精度粗糙集的相对错误分类率β来形成新的相似β上近似,从而将一个用户划分到多个聚类,该方法不需要区分用户会话,降低了数据预处理的难度,通过理论推导和实例证明了其有效性。  相似文献   

5.
一种基于路径聚类的Web用户访问模式发现算法   总被引:7,自引:0,他引:7  
本文在将用户对Web站点访问行为表示成用户访问事务基础上,给出有关兴趣度、相似度、聚类中心定义,提出基于ISODATA算法的路径聚类方法,并对实际网站Web日志文件进行实验,结果表明该方法不但能够发现群体用户访问模式。而且还得到较为合理的模式聚类个数。  相似文献   

6.
用户对Web网站访问兴趣可以通过页面的浏览顺序表现出来,Web站点的访问日志记录了用户访问页面的详细信息.介绍Web站点访问日志挖掘的相关知识,并定义新的兴趣度,相似度和聚类中心,提出了一种基于用户访问兴趣的路径聚类算法,最后通过实验来验证这种算法的有效性.  相似文献   

7.
基于兴趣度的Web用户访问模式分析   总被引:1,自引:0,他引:1  
吕佳 《计算机工程与设计》2007,28(10):2403-2404,2407
Web日志隐含了用户访问Web行为的动因和规律,如何有效地从中挖掘出用户访问模式是Web日志挖掘的重要研究内容.构造了User_ID-URL矩阵,矩阵元素为用户访问页面的兴趣度.应用经典的模糊C-均值聚类算法进行用户访问模式分析,通过在真实数据集上的实验,结果表明引入了用户兴趣度的日志挖掘算法是行之有效的.  相似文献   

8.
针对Web使用挖掘中聚类结果准确性不高的问题,提出了一种改进的基于相对Hamming距离和类不一致度的聚类算法。该算法首先以Web站点的URL为行、以UserID为列建立关联矩阵,元素值为用户的访问次数;然后,对所建立关联矩阵的列向量或行向量进行相似性度量,获得相似客户群体或相关页面。实验表明,该算法具有较高的准确性。  相似文献   

9.
王荣  李晋宏  宋威 《计算机工程与设计》2012,33(9):3553-3557,3568
为了得到准确有效的用户聚类,提出了一种基于关键字的用户聚类算法.该算法是在传统Rock算法的基础上进行了改进,提出了相似权重和平均邻居的概念,并且将用户关键字事务集的平均邻居数定义为用户访问模式相似性的标准.在不产生离群用户点的基础上,缩小了用户聚类的范围,将一个大的用户聚类更加精确的划分为几个小的用户聚类.利用用户之间的相似度阈值对数据进行过滤,减小了用户聚类的计算量.经过实验验证该算法有效的提高了相似用户聚类的准确性和运行效率.  相似文献   

10.
Web用户聚类算法   总被引:2,自引:0,他引:2  
Web用户聚类是将具有相似访问特性的用户归在一起,在电子商务的市场分割和为用户提供个性化服务中,能发挥巨大作用。文章提出基于用户访问路径以及节点高度的相似性评价函数,建立相似矩阵,并提出相似矩阵结构分解算法对此相似矩阵进行变换生成对角矩阵或下三角矩阵,该矩阵中的每一个子对角阵即对应一个用户类,矩阵的左下角对应各用户类之间的关系。  相似文献   

11.
Sequential mining is the process of applying data mining techniques to a sequential database for the purposes of discovering the correlation relationships that exist among an ordered list of events. An important application of sequential mining techniques is web usage mining, for mining web log accesses, where the sequences of web page accesses made by different web users over a period of time, through a server, are recorded. Web access pattern tree (WAP-tree) mining is a sequential pattern mining technique for web log access sequences, which first stores the original web access sequence database on a prefix tree, similar to the frequent pattern tree (FP-tree) for storing non-sequential data. WAP-tree algorithm then, mines the frequent sequences from the WAP-tree by recursively re-constructing intermediate trees, starting with suffix sequences and ending with prefix sequences.This paper proposes a more efficient approach for using the WAP-tree to mine frequent sequences, which totally eliminates the need to engage in numerous re-construction of intermediate WAP-trees during mining. The proposed algorithm builds the frequent header node links of the original WAP-tree in a pre-order fashion and uses the position code of each node to identify the ancestor/descendant relationships between nodes of the tree. It then, finds each frequent sequential pattern, through progressive prefix sequence search, starting with its first prefix subsequence event. Experiments show huge performance gain over the WAP-tree technique.  相似文献   

12.
吴梦杰  陈红琳 《电脑学习》2011,(4):59-60,64
用户访问兴趣度的分析是Web日志挖掘中一个重要的研究课题。在概述Web日志挖掘过程的基础上,对日志挖掘各个阶段进行了分析,研究得出了用户对访问页面的兴趣度。  相似文献   

13.
一种基于关联分类方法的Web用户兴趣预测   总被引:1,自引:0,他引:1  
对用户分类是Web挖掘的一个重要的研究方向。文中提出一种基于关联规则的分类方法,并且将它应用于用户兴趣预测。首先对服务器日志文件预处理,形成一个访问事务集。然后对该事务集进行数据挖掘,找出所有的满足最小支持度的类别关联规则。最后用这些类别关联规则去预测用户的兴趣。实验证明此方法是有效的。  相似文献   

14.
会话识别是Web日志挖掘中的数据预处理中的一个重要步骤。文中提出了一种改进的会话识别方法。首先,在用户识别后,进行框架页面的过滤,从而大大地减少了实验产生的有效页面,然后为页面设置访问时间阙值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整。通过实验证明,相对于传统的对所有页面使用单一的先验阈值进行会话识别的方法,该方法所得到的会话集更具有真实性。  相似文献   

15.
基于Web日志的用户访问模式挖掘   总被引:1,自引:0,他引:1  
Web日志挖掘是数据挖掘技术在Web日志数据存储中的应用。论文介绍了Web日志挖掘,在分析发现用户访问模式方法——类Apriori算法的基础上,给出一种基于粗糙集的用户访问模式聚类方法。  相似文献   

16.
Interval Set Clustering of Web Users with Rough K-Means   总被引:1,自引:0,他引:1  
Data collection and analysis in web mining faces certain unique challenges. Due to a variety of reasons inherent in web browsing and web logging, the likelihood of bad or incomplete data is higher than conventional applications. The analytical techniques in web mining need to accommodate such data. Fuzzy and rough sets provide the ability to deal with incomplete and approximate information. Fuzzy set theory has been shown to be useful in three important aspects of web and data mining, namely clustering, association, and sequential analysis. There is increasing interest in research on clustering based on rough set theory. Clustering is an important part of web mining that involves finding natural groupings of web resources or web users. Researchers have pointed out some important differences between clustering in conventional applications and clustering in web mining. For example, the clusters and associations in web mining do not necessarily have crisp boundaries. As a result, researchers have studied the possibility of using fuzzy sets in web mining clustering applications. Recent attempts have used genetic algorithms based on rough set theory for clustering. However, the genetic algorithms based clustering may not be able to handle the large amount of data typical in a web mining application. This paper proposes a variation of the K-means clustering algorithm based on properties of rough sets. The proposed algorithm represents clusters as interval or rough sets. The paper also describes the design of an experiment including data collection and the clustering process. The experiment is used to create interval set representations of clusters of web visitors.  相似文献   

17.
Web日志中有趣关联规则的发现   总被引:16,自引:0,他引:16  
关联规则挖掘是Web用法挖掘的一个重要研究课题。目前的Web日志关联规则挖掘算法忽略了用户对规则是否感兴趣这一重要问题。对Web日志关联规则挖掘算法进行了研究,结合网络拓扑结构,提出了Web拓扑概率模型和有趣关联规则(IAR)算法。利用Web拓扑概率模型对关联规则进行有趣度评价,得出有趣度高的规则,用于改善网络性能。实验显示了IAR算法如何提高规则的利用率和有效地改善网络拓扑,它可以成功地应用到Web用法挖掘中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号