首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于用户任务级的Web日志聚类   总被引:2,自引:0,他引:2  
利用改进的用户描述计算公式和启发式聚类方法 ,进行基于用户任务级的 Web日志聚类 ,产生簇用户访问模式 ,进行有效的推荐和个性化服务 .结果表明 ,算法具有较好的聚类质量和较高的性能 .它可以成功地应用到 Web日志挖掘中 .  相似文献   

2.
Users of a Web site usually perform their interest-oriented actions by clicking or visiting Web pages, which are traced in access log files. Clustering Web user access patterns may capture common user interests to a Web site, and in turn, build user profiles for advanced Web applications, such as Web caching and prefetching. The conventional Web usage mining techniques for clustering Web user sessions can discover usage patterns directly, but cannot identify the latent factors or hidden relationships among users?? navigational behaviour. In this paper, we propose an approach based on a vector space model, called Random Indexing, to discover such intrinsic characteristics of Web users?? activities. The underlying factors are then utilised for clustering individual user navigational patterns and creating common user profiles. The clustering results will be used to predict and prefetch Web requests for grouped users. We demonstrate the usability and superiority of the proposed Web user clustering approach through experiments on a real Web log file. The clustering and prefetching tasks are evaluated by comparison with previous studies demonstrating better clustering performance and higher prefetching accuracy.  相似文献   

3.
路径聚类:在Web站点中的知识发现   总被引:41,自引:0,他引:41  
用户对Web站点的访问代表了用对Web站点上页面的访问兴越,这种兴越程序可以通过用户对Web站点上页面的浏览顺序表现出来,在对Web站点的记问日志进行事务识别后,可以根据群体用户对Web站点的访问顺序进行聚类,即路径聚类,那么最终每一个聚类集就反映出该聚类集中的全体用户具有相似的访问兴越,为了得到这种根据用户访问兴越而对用户集的划分,提出了K-paths路径聚类方法,在这种方法中,根据用户的访问兴越定义了新的相似性测量手段和聚类中心,实验的结果是成功的。  相似文献   

4.
提出一个基于Web日志的web用户群体和站点URL聚类算法.使用用户浏览行为描述和用户浏览时间离散化方法建立了Web站点的用户事务矩阵,并在此基础上对Web用户群体和站点URL进行聚类.由于在聚类过程中同时考虑了用户对URL的浏览时间和访问次数,使算法的精度和效率都大大提高.同时,该算法能较好地处理类间重叠问题,使算法具有较好的实用性.最后对算法的有效性和可伸缩性进行了研究.  相似文献   

5.
通过对Web日志的聚类分析,可以发现用户的群体特征,甚至可以预测用户将来的访问模式,进而为不同的用户群提供个性化服务。针对现有方法的一般缺陷,包括特征选择单一无法充分体现用户兴趣偏好和传统Hierarchical算法在用户聚类时存在的收敛效率低、易受用户访问多样性影响的问题,提出了基于多重特征的双层用户聚类方法。该方法采用多重特征对用户相似性进行度量,并在此基础上进行双层聚类。首先采用基于密度的DBSCAN算法来排除用户会话中的离群对象和发现不规则簇,然后再采用自底向上的Hierarchical方法对第一层的聚类结果进行聚类。实验结果表明,本文方法具有良好的稳定性和聚类效果。  相似文献   

6.
为降低传统FCM算法的计算复杂性,提高Web用户聚类的效果,文中提出了一种改进的基于特征属性的Web用户模糊聚类算法。首先通过用户访问页面的次数和时间建立Web用户兴趣度矩阵,并根据商品的特征属性值将Web用户兴趣度矩阵映射为用户对特征属性的偏好矩阵,从而有效降低数据稀疏性;然后以此为数据集,对传统的FCM算法进行了改进,将聚类中心分为活动和稳定两种,忽略稳定聚类中的距离计算以降低计算复杂性。最后通过仿真实验证实了新算法的有效性和可行性。  相似文献   

7.
当今互联网所提供的功能和服务越来越多,Web内容也越来越丰富,移动应用越来越流行。然而,复杂的Web服务应用对用户提出了更高的要求,给用户浏览带来了很多问题,很多时候用户会感到无所适从。文中提出基于用户浏览序列模式的用户行为提取与分析方法。该方法可以分为浏览模式分析和用户聚类两部分。在浏览模式分析时,首先根据用户行为数据得到浏览序列,然后运用序列模式挖掘PrefixSpan算法获取用户习惯的浏览模式,最后把分析获取的用户浏览模式应用到Web浏览中,为不同的用户需求提供个性化的服务。在用户聚类时,运用层次聚类方法按照浏览模式的相似性对用户进行聚类,以分析用户的不同属性(如年龄、职业、学历等)对用户浏览模式的影响。实验结果表明,文中采用的PrefixSpan算法和层次聚类方法在用户浏览模式分析和研究方面具有很好的可行性和有效性。  相似文献   

8.
We present a new methodology for exploring and analyzing navigation patterns on a web site. The patterns that can be analyzed consist of sequences of URL categories traversed by users. In our approach, we first partition site users into clusters such that users with similar navigation paths through the site are placed into the same cluster. Then, for each cluster, we display these paths for users within that cluster. The clustering approach we employ is model-based (as opposed to distance-based) and partitions users according to the order in which they request web pages. In particular, we cluster users by learning a mixture of first-order Markov models using the Expectation-Maximization algorithm. The runtime of our algorithm scales linearly with the number of clusters and with the size of the data; and our implementation easily handles hundreds of thousands of user sessions in memory. In the paper, we describe the details of our method and a visualization tool based on it called WebCANVAS. We illustrate the use of our approach on user-traffic data from msnbc.com.  相似文献   

9.
在电子商务发展中,商家需要理解用户访问网站的行为,为用户提供个性化服务,从而吸引用户购买商品。挖掘用户访问网站的行为是商家一个急需解决的问题,通过对Web日志进行挖掘是解决该问题的重要研究方法。提出了网页兴趣信息素的新概念,它是由页面相对浏览时间和点击率构建而成,利用兴趣信息素设计了基于蚁群算法的群体用户访问路径挖掘算法,根据挖掘结果预测用户访问行为。实验结果表明,兴趣信息索可以有效地预测用户的兴趣变化,能准确地反映用户访问模式,提高了预测群体用户访问行为的准确率。  相似文献   

10.
本文研究了使用集群环境下的用户访问日志数据生成用户会话聚类的方法:编制Perl脚本从用户访问日志中生成用户会话,以新的相似度度量取代欧几里德距离改进Leader算 法对用户会话集合进行聚类,并计算聚类的内部距离和间隔距离来验证算法的有效性。实验结果表明,这种实现能有效地对用户访问日志进行聚类,并能满足服务器预取机制
制在线分析的时间、空间要求。  相似文献   

11.
基于CURE的用户聚类算法研究   总被引:1,自引:0,他引:1  
通过对Web网站的日志进行聚类分析,目的是获取用户兴趣访问模式,进而为不同用户群体提供定制的个性化服务。针对原始CURE算法在代表点选择的随机性、不能充分体现用户兴趣偏好方面存在的问题,提出了改进的用户聚类算法,根据用户兴趣的显著特征提取元素的主要属性进行预聚类,为小类合并提供合理的初始类集,实验结果证明了该方法有较好的聚类结果。  相似文献   

12.
The web resources in the World Wide Web are rising, to large extent due to the services and applications provided by it. Because web traffic is large, gaining access to these resources incurs user-perceived latency. Although the latency can never be avoided, it can be minimized to a larger extent. Web prefetching is identified as a technique that anticipates the user’s future requests and fetches them into the cache prior to an explicit request made. Because web objects are of various types, a new algorithm is proposed that concentrates on prefetching embedded objects, including audio and video files. Further, clustering is employed using adaptive resonance theory (ART)2 in order to prefetch embedded objects as clusters. For comparative study, the web objects are clustered using ART2, ART1, and other statistical techniques. The clustering results confirm the supremacy of ART2 and, thereby, prefetching web objects in clusters is observed to produce a high hit rate.  相似文献   

13.
《Information Systems》2006,31(4-5):247-265
As more information becomes available on the Web, there has been a crescent interest in effective personalization techniques. Personal agents providing assistance based on the content of Web documents and the user interests emerged as a viable alternative to this problem. Provided that these agents rely on having knowledge about users contained into user profiles, i.e., models of user preferences and interests gathered by observation of user behavior, the capacity of acquiring and modeling user interest categories has become a critical component in personal agent design. User profiles have to summarize categories corresponding to diverse user information interests at different levels of abstraction in order to allow agents to decide on the relevance of new pieces of information. In accomplishing this goal, document clustering offers the advantage that an a priori knowledge of categories is not needed, therefore the categorization is completely unsupervised. In this paper we present a document clustering algorithm, named WebDCC (Web Document Conceptual Clustering), that carries out incremental, unsupervised concept learning over Web documents in order to acquire user profiles. Unlike most user profiling approaches, this algorithm offers comprehensible clustering solutions that can be easily interpreted and explored by both users and other agents. By extracting semantics from Web pages, this algorithm also produces intermediate results that can be finally integrated in a machine-understandable format such as an ontology. Empirical results of using this algorithm in the context of an intelligent Web search agent proved it can reach high levels of accuracy in suggesting Web pages.  相似文献   

14.
提出基于关联的聚类分析方法,挖掘具有相似访问兴趣的用户访问模式,分离不相关的用户模式,并提出基于关联的聚类算法。实验证明,该算法大量减少不相关的用户访问模式,提高个性化推荐质量。为进一步研究个性化推荐技术奠定基础。  相似文献   

15.
从Web日志文件中挖掘出用户行为模式,是所有Web站点管理者的迫切需要,但由于web日志数据量大,存有大量的干扰和不完整的数据,导致无法准确的抽取出用户行为的模式。小环境无监督聚类算法适合挖掘具有噪音和不完整数据的大量数据集,但它是基于欧几里德空间的二维模型,数据表示不直观。我们对UNC进行改进,提出了具有层次结构的UNC(简称LUNC)。性能测试实验证明,该模型具有较好的整体性能。  相似文献   

16.
基于类Markov链的用户浏览行为预测方法   总被引:2,自引:0,他引:2       下载免费PDF全文
何丽 《计算机工程》2008,34(22):32-33
根据浏览历史对用户进行有效聚类,建立基于用户聚类的用户浏览行为预测模型是Web环境下实现个性化服务的关键。该文对系统用户进行聚类,产生相似用户群,根据每个相似用户群的浏览特征,建立基于相似用户群的类Markov链用户浏览行为预测模型,实验验证了该模型的有效性。  相似文献   

17.
在移动互联环境下,依据用户行为规律对业务兴趣相似用户进行分群,可为业务准确推荐和资源有效配置提供有力支撑。因此,提出一种基于改进模糊聚类理论的用户分群算法。首先,分别定义业务兴趣相似度和业务顺序相似度,进而建立用户综合相似度指标。其次,构建基于用户综合相似度的模糊聚类模型,进而采用网格划分方法确定初始群组中心并依据平均用户隶属度调整用户群组个数,从而实现快速准确的用户分群。仿真结果验证了该算法的有效性。  相似文献   

18.
从Web日志中挖掘用户浏览偏爱路径   总被引:55,自引:0,他引:55  
邢东山  沈钧毅  宋擒豹 《计算机学报》2003,26(11):1518-1523
Web日志中包含了大量的用户浏览信息,如何有效地从其中挖掘出用户浏览兴趣模式是一个重要的研究课题.作者在分析目前用户浏览模式挖掘算法存在的问题的基础上,利用提出的支持一偏爱度的概念,设计了网站访问矩阵,并基于这个矩阵提出了用户浏览偏爱路径挖掘算法:先利用Web日志建立以引用网页URL为行、浏览网页URL为列、路径访问频度为元素值的网站访问矩阵.该矩阵为稀疏矩阵,将该矩阵用三元组法来进行表示.然后,通过对该矩阵进行支持一偏爱度计算得到偏爱子路径.最后进行合并生成浏览偏爱路径.实验表明该算法能准确地反映用户浏览兴趣,而且系统可扩展性较好.这可以应用于电子商务网站的站点优化和个性化服务等.  相似文献   

19.
模糊聚类的最大树算法在Web页面分类中的应用   总被引:5,自引:0,他引:5  
通过Web日志中记录的客户对Web页面的访问情况建立Web页面的用户访问矩阵,在此基础上构造模糊相似矩阵,根据模糊相似矩阵由最大树算法进行聚类。分析和算例表明,通过模糊相似矩阵进行聚类避免了构造模糊等价矩阵的大计算量,具有简单、快捷,适合处理高维数据的特点。  相似文献   

20.
An algorithm that can generate and display helpful links while users navigate a site can increase a Web site's usability and help Web designers and the user achieve their goals.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号