共查询到17条相似文献,搜索用时 140 毫秒
1.
Web上的数据规模大,动态性强,而通常发现的知识或规则很可能是不精确的、不完备的,为了克服以上困难,将粗糙集概念引入到Web挖掘中,进行Web事务聚类.介绍了将粗糙近似算法嵌入到WEKA平台的过程,充分利用了开源WEKA中的类和可视化功能,扩充了WEKA系统的聚类算法,并对嵌入的算法进行了分析,测试.粗糙近似算法方法能够实现从Web访问日志中聚类Web事务,并且该算法对分类属性的数据具有很高的准确率. 相似文献
2.
Web使用挖掘是数据挖掘技术在Web信息仓库中的应用.Web使用挖掘通过挖掘Web服务器日志获取的知识来预测用户浏览行为,是Web挖掘技术中的一个重要研究方向.通常发现的知识或一些意外规则很可能是不精确的、不完备的,这就需要用软计算技术如粗糙集来解决.提出一种基于粗糙近似的聚类方法,该方法能够实现从Web访问日志中聚类Web事务.通过这种方法可以有效地挖掘Web日志记录,从而发现用户存取Web页面的模式. 相似文献
3.
聚类分析是Web日志挖掘系统的重要组件,聚类分析的质量决定挖掘结果的有效性.本文引入一种向量聚类方法,并针对原有方法的不足提出改进.首先分析用户事务求出用户事务的相似矩阵,通过分别计算用户事务相似度和用户浏览路径相似度,然后把两者平均得到不同用户事务之间的相似性系数,最后根据相似性系数方法得出聚类结果.这种算法考虑到了web用户访问的有序、连续、重复性,结果能够真正反映出用户的浏览兴趣. 相似文献
4.
5.
一种基于路径聚类的Web用户访问模式发现算法 总被引:7,自引:0,他引:7
本文在将用户对Web站点访问行为表示成用户访问事务基础上,给出有关兴趣度、相似度、聚类中心定义,提出基于ISODATA算法的路径聚类方法,并对实际网站Web日志文件进行实验,结果表明该方法不但能够发现群体用户访问模式。而且还得到较为合理的模式聚类个数。 相似文献
6.
用户对Web网站访问兴趣可以通过页面的浏览顺序表现出来,Web站点的访问日志记录了用户访问页面的详细信息.介绍Web站点访问日志挖掘的相关知识,并定义新的兴趣度,相似度和聚类中心,提出了一种基于用户访问兴趣的路径聚类算法,最后通过实验来验证这种算法的有效性. 相似文献
7.
基于兴趣度的Web用户访问模式分析 总被引:1,自引:0,他引:1
吕佳 《计算机工程与设计》2007,28(10):2403-2404,2407
Web日志隐含了用户访问Web行为的动因和规律,如何有效地从中挖掘出用户访问模式是Web日志挖掘的重要研究内容.构造了User_ID-URL矩阵,矩阵元素为用户访问页面的兴趣度.应用经典的模糊C-均值聚类算法进行用户访问模式分析,通过在真实数据集上的实验,结果表明引入了用户兴趣度的日志挖掘算法是行之有效的. 相似文献
8.
9.
为了得到准确有效的用户聚类,提出了一种基于关键字的用户聚类算法.该算法是在传统Rock算法的基础上进行了改进,提出了相似权重和平均邻居的概念,并且将用户关键字事务集的平均邻居数定义为用户访问模式相似性的标准.在不产生离群用户点的基础上,缩小了用户聚类的范围,将一个大的用户聚类更加精确的划分为几个小的用户聚类.利用用户之间的相似度阈值对数据进行过滤,减小了用户聚类的计算量.经过实验验证该算法有效的提高了相似用户聚类的准确性和运行效率. 相似文献
10.
11.
Sequential mining is the process of applying data mining techniques to a sequential database for the purposes of discovering the correlation relationships that exist among an ordered list of events. An important application of sequential mining techniques is web usage mining, for mining web log accesses, where the sequences of web page accesses made by different web users over a period of time, through a server, are recorded. Web access pattern tree (WAP-tree) mining is a sequential pattern mining technique for web log access sequences, which first stores the original web access sequence database on a prefix tree, similar to the frequent pattern tree (FP-tree) for storing non-sequential data. WAP-tree algorithm then, mines the frequent sequences from the WAP-tree by recursively re-constructing intermediate trees, starting with suffix sequences and ending with prefix sequences.This paper proposes a more efficient approach for using the WAP-tree to mine frequent sequences, which totally eliminates the need to engage in numerous re-construction of intermediate WAP-trees during mining. The proposed algorithm builds the frequent header node links of the original WAP-tree in a pre-order fashion and uses the position code of each node to identify the ancestor/descendant relationships between nodes of the tree. It then, finds each frequent sequential pattern, through progressive prefix sequence search, starting with its first prefix subsequence event. Experiments show huge performance gain over the WAP-tree technique. 相似文献
12.
用户访问兴趣度的分析是Web日志挖掘中一个重要的研究课题。在概述Web日志挖掘过程的基础上,对日志挖掘各个阶段进行了分析,研究得出了用户对访问页面的兴趣度。 相似文献
13.
一种基于关联分类方法的Web用户兴趣预测 总被引:1,自引:0,他引:1
对用户分类是Web挖掘的一个重要的研究方向。文中提出一种基于关联规则的分类方法,并且将它应用于用户兴趣预测。首先对服务器日志文件预处理,形成一个访问事务集。然后对该事务集进行数据挖掘,找出所有的满足最小支持度的类别关联规则。最后用这些类别关联规则去预测用户的兴趣。实验证明此方法是有效的。 相似文献
14.
15.
基于Web日志的用户访问模式挖掘 总被引:1,自引:0,他引:1
Web日志挖掘是数据挖掘技术在Web日志数据存储中的应用。论文介绍了Web日志挖掘,在分析发现用户访问模式方法——类Apriori算法的基础上,给出一种基于粗糙集的用户访问模式聚类方法。 相似文献
16.
Interval Set Clustering of Web Users with Rough K-Means 总被引:1,自引:0,他引:1
Data collection and analysis in web mining faces certain unique challenges. Due to a variety of reasons inherent in web browsing and web logging, the likelihood of bad or incomplete data is higher than conventional applications. The analytical techniques in web mining need to accommodate such data. Fuzzy and rough sets provide the ability to deal with incomplete and approximate information. Fuzzy set theory has been shown to be useful in three important aspects of web and data mining, namely clustering, association, and sequential analysis. There is increasing interest in research on clustering based on rough set theory. Clustering is an important part of web mining that involves finding natural groupings of web resources or web users. Researchers have pointed out some important differences between clustering in conventional applications and clustering in web mining. For example, the clusters and associations in web mining do not necessarily have crisp boundaries. As a result, researchers have studied the possibility of using fuzzy sets in web mining clustering applications. Recent attempts have used genetic algorithms based on rough set theory for clustering. However, the genetic algorithms based clustering may not be able to handle the large amount of data typical in a web mining application. This paper proposes a variation of the K-means clustering algorithm based on properties of rough sets. The proposed algorithm represents clusters as interval or rough sets. The paper also describes the design of an experiment including data collection and the clustering process. The experiment is used to create interval set representations of clusters of web visitors. 相似文献
17.
Web日志中有趣关联规则的发现 总被引:16,自引:0,他引:16
关联规则挖掘是Web用法挖掘的一个重要研究课题。目前的Web日志关联规则挖掘算法忽略了用户对规则是否感兴趣这一重要问题。对Web日志关联规则挖掘算法进行了研究,结合网络拓扑结构,提出了Web拓扑概率模型和有趣关联规则(IAR)算法。利用Web拓扑概率模型对关联规则进行有趣度评价,得出有趣度高的规则,用于改善网络性能。实验显示了IAR算法如何提高规则的利用率和有效地改善网络拓扑,它可以成功地应用到Web用法挖掘中。 相似文献