首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 312 毫秒
1.
文章提出了一种基于ISODATA的用户访问路径聚类算法,根据用户的访问兴趣定义了相似性测量手段和聚类中心。在对Web站点的访问日志进行事务识别后,根据群体用户对Web站点的访问顺序进行聚类,则每一个聚类集反映出该聚类集中的全体用户具有相似的访问兴趣。  相似文献   

2.
传统的用于Web日志聚类的算法大都需要用户指定聚类个数。提出了一种新的自适应聚类算法并对Web日志用户会话进行聚类。该算法基于凝聚聚类思想和划分聚类思想,用初始数据集中每2个会话之间的相异度作为距离的度量,合并距离小于一定阈值的两个会话以产生初始聚类,再根据一定的规则动态地合并距离最小的会话类或会话,算法的结果是产生自然的聚类。最后,通过比较会话聚类的内部距离和类间距离来验证算法的有效性。这种聚类算法的最大优点在于,他能够产生自动的聚类,而不需要用户事先指定需要产生的聚类个数,并且能有效识别孤立点。实验表明,这种聚类能够产生较高质量的聚类效果。  相似文献   

3.
个性化服务中的并行K-Means聚类算法   总被引:1,自引:0,他引:1  
K-Means聚类算法在基于Web日志的个性化服务领域得到广泛的应用,但是在处理海量数据过程中,传统的(单机)K-Means聚类算法存在着可扩展性差、效率低下、运行时间长等缺点,在充分研究传统K-Means聚类算法的基础上,发现K-Means聚类算法中蕴含的并行性,提出了一种基于用户的并行处理K-Means聚类算法,并将该并行算法应用到个性化服务中对网站用户进行聚类,有效地缩短了用户聚类的时间。  相似文献   

4.
基于兴趣度的Web用户聚类方法   总被引:1,自引:1,他引:0  
现有的Web用户聚类方法都是通过对用户喜好页面的访问模式分析来建立用户聚类,没有充分考虑时间意识、用户兴趣、用户访问模式之间的关系与影响.针对这一问题,在时间意识的Web用户聚类基础之上,提出了基于兴趣度的Web用户聚类方法.通过对日志文件中的用户访问模式进行分析,计算用户兴趣度.结合渐进遗忘算法,对用户兴趣爱好进行调整与更新,并在此基础上对用户进行聚类.实验表明,本方法能够更好地分析用户访问模式,更准确地计算用户兴趣,具有更好的聚类效果.  相似文献   

5.
用户兴趣空间的Web页面聚类   总被引:5,自引:1,他引:4  
文章基于日志挖掘,提出一种在用户兴趣空间中进行Web页面聚类的算法。算法的基础是用户访问频率矩阵A。A的行对应页面向量,列对应用户向量,A中元素是用户对页面的访问频率。对A中的行做聚类可以对页面进行相关聚类,对A中的列做聚类可以对兴趣相似的用户进行聚类。文章认为A中的这两种聚类是一对对偶问题。文章基于A和A中这两种聚类在权重之间的对偶关系,提出了用户兴趣空间的概念。用户兴趣空间突出了用户的共同兴趣,是一个正交空间。实验结果表明,与在A中直接做页面聚类相比较,用户兴趣空间中的页面聚类取得了较好的效果。  相似文献   

6.
《现代电子技术》2016,(23):116-120
校园网中的服务器存有海量的用户访问日志文件,记录了校园网用户的访问信息。鉴于此,提出了一种基于聚类算法的校园网用户行为分析技术,设计和实现了数据预处理系统,对日志数据进行一系列的清理、合并,标准化等预处理,使其更好地适应后续的聚类操作。将预处理后的数据作为输入数据,分别实现了三种常用的聚类算法对日志数据进行聚类,然后从聚类准确率和聚类速度两个角度对现有算法进行优化。为了提高聚类准确率,提出了用K-均值算法结合AGNES算法的方法;为了提高聚类速度,在MPICH2平台上设计和实现了并行K-均值算法,实现多机并行分析,最后简单介绍了校园网行为分析系统的应用。  相似文献   

7.
针对传统K—Means聚类算法需要用户输入聚类数目的缺点,对K—Means聚类算法进行了改进,提出使用一个有效指数来克服这个问题,该算法不需要背景知识,自动聚类,提高了聚类的准确性。该算法还可以根据数据量的大小确定合适的步长,增强了适应性。通过将该算法应用于网站日志数据中对用户进行聚类,验证了算法的有效性。  相似文献   

8.
一种改进的特征加权K-means聚类算法   总被引:4,自引:0,他引:4  
提出了一种改进的特征加权K-means聚类算法.该算法首先基于数据样本分布选取初始聚类中心,然后设计特征加权的K-means聚类算法.实验结果证明,该算法能产生质量较高的聚类结果,并且能处理数值、符号两类数据.  相似文献   

9.
结合关联规则与模糊C均值聚类(Fuzzy C-Means,FCM)进行用户聚类,首先将用户访问事务集构造出页面关联矩阵,以此来计算用户浏览路径之间的相似程度,接着利用FCM算法对用户进行聚类.通过与传统聚类比较的实验证明,此方法是有效的且更符合实际.  相似文献   

10.
随着Internet的迅速发展,人们必须面对信息爆炸的现实。描述了一种关键词向量的方式表达用户兴趣。将BIRCH聚类算法应用于用户访问的网络文档上来建立用户兴趣模型。基于Myspace用户日志,又实现了一个用户兴趣建模系统,该系统验证了提出方法的有效性。  相似文献   

11.
一种基于Web日志用户浏览模式的数据挖掘   总被引:1,自引:0,他引:1  
Web日志中包含了大量的用户浏览信息,如何有效地从其中挖掘出用户浏览兴趣模式是一个重要的研究课题.本文研究了Web日志挖掘的机理,在分析挖掘频繁遍历路径的问题特征和对其进行形式化描述的基础上,进一步提出了一种在Web日志中挖掘频繁遍历路径算法,该算法能够正确、快速地从Web日志中抽取频繁遍历路径.  相似文献   

12.
沈明  邓玉芬  张博 《现代电子技术》2010,33(9):180-183,186
频繁模式挖掘应用广泛,是数据挖掘中的一个重点研究领域,频繁模式挖掘应用的其中一个领域就是基于网页日志的数据挖掘。在网页日志中发现频繁模式的目的是获得用户的网络浏览行为模式,这些信息可以为广告设计以及创建动态用户日志提供参考。从网页数据挖掘的角度研究了三种频繁模式挖掘方式,这三种方式分别是:网页设置、网页序列以及网页图片挖掘。  相似文献   

13.
针对用户普遍使用的多页面浏览器产生树型结构的浏览路径,Web日志中将会呈现非时序的日志记录。本文提出了一种新的自上而下的用户访问路径收集算法,进而得出的用户在一次会话中可能访问的复数目的页面,由此得出全局目的页面访问频度矩阵,此矩阵的数据作为实现基于网络结构的推荐系统的核心数据。  相似文献   

14.
Web service selection algorithm based on principal component analysis   总被引:1,自引:0,他引:1  
Existing Web service selection approaches usually assume that preferences of users have been provided in a quantitative form by users. However, due to the subjectivity and vagueness of preferences, it may be impractical for users to specify quantitative and exact preferences. Moreover, due to that Quality of Service (QoS) attributes are often interrelated, existing Web service selection approaches which employ weighted summation of QoS attribute values to compute the overall QoS of Web services may produce inaccurate results, since they do not take correlations among QoS attributes into account. To resolve these problems, a Web service selection framework considering user’s preference priority is proposed, which incorporates a searching mechanism with QoS range setting to identify services satisfying the user’s QoS constraints. With the identified service candidates, based on the idea of Principal Component Analysis (PCA), an algorithm of Web service selection named PCA-WSS (Web Service Selection based on PCA) is proposed, which can eliminate the correlations among QoS attributes and compute the overall QoS of Web services accurately. After computing the overall QoS for each service, the algorithm ranks the Web service candidates based on their overall QoS and recommends services with top QoS values to users. Finally, the effectiveness and feasibility of our approach are validated by experiments, i.e. the selected Web service by our approach is given high average evaluation than other ones by users and the time cost of PCA-WSS algorithm is not affected acutely by the number of service candidates.  相似文献   

15.
面向Weblog的协同聚类算法具有同时发现用户聚类及与之对应的页面聚类的能力,已成为Weblog数据挖掘的重要研究内容。由于现有的面向Weblog的协同聚类算法大多采用硬划分方法将用户和页面分配到聚类,因此,无法很好地处理聚类边界的问题,即一个用户可能属于多个聚类,从而影响了聚类质量。该文给出了一种面向Weblog的模糊协同聚类FCOW(Fuzzy CO-clustering for Weblog)算法来解决协同聚类算法的边界问题,以提高聚类结果的质量。该算法首先利用矩阵Hadamard积运算发现Weblog中隐含的独立用户模式1={,,K}PA pa pa;其次,依据pa k所对应的页面子集将剩余用户分配到该独立模式中,从而产生协同聚类结果 {k,k}CS CP,k=1,,K;最后计算每个用户和页面与协同聚类之间的模糊隶属度,并以该隶属度作为个性化推荐的依据。实验结果表明,FCOW算法具有获得高质量聚类结果的能力。  相似文献   

16.
Web日志分析预处理阶段的一个重要步骤是事务分割,把一系列的操作合并成完整的事务。文章提出了一种基于统计模型的事务分割算法。统计模型上采用了网站链接的边界访问概率和事务内的链接转移概率矩阵。算法将包含了若干个事务的日志片断作为一个整体,采用最大似然的准则来获得整体最优划分结果。在一个内网办公系统日志采集的数据集上,文章采用True Positive Rate和Precision两个统计量来比较不同事务划分算法的性能,结果证明了文章提出的算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号