首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 529 毫秒
1.
本文研究了使用集群环境下的用户访问日志数据生成用户会话聚类的方法:编制Perl脚本从用户访问日志中生成用户会话,以新的相似度度量取代欧几里德距离改进Leader算 法对用户会话集合进行聚类,并计算聚类的内部距离和间隔距离来验证算法的有效性。实验结果表明,这种实现能有效地对用户访问日志进行聚类,并能满足服务器预取机制
制在线分析的时间、空间要求。  相似文献   

2.
通过对WEB服务器日志文件进行分析,可以发现相似的客户群体、相关WEB页面以及频繁访问路径.这里提出了一种新颖的WEB日志挖掘算法,该算法是以服务器日志文件中的不同会话为聚类对象,通过对不同会话实施空间距离聚类和层次结构比较聚类,最终得到了满意的聚类结果.最后,给出了一个应用实例,实例表明,该方法是有效可行的.  相似文献   

3.
马涛  刘昱琨 《微机发展》2003,13(4):71-73
通过对WEB服务器日志文件进行分析,可以发现相似的客户群体,相关WEB页面以及频繁访问路径,这里提出了一种新颖的WEB日志挖掘算法,该算法是以服务器日志文件中的不同会话为聚类对象,通过对不同会话实施空间距离聚类和层次结构比较聚类,最终得到了满意的聚类结果,最后,给出了一个应用实例,实例表明,该方法是有效可行的。  相似文献   

4.
基于神经网络的Web用户行为聚类分析   总被引:9,自引:0,他引:9  
本文提出了一种用神经网络对Web用户的行为进行分析的方法,首先对WWW服务器的日志文件进行分析,再进行会话划分,并从会话向量中找出频繁数据集,以便选取合适的会话向量。进行规一化处理后生成模式向量,并采用Kohonen的SOFM模型进行聚类,最后生成用户聚类。实验结果及对比分析表明用神经网络方法能有效地对用户行为进行聚类分析。  相似文献   

5.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究,包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在Web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

6.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究。包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

7.
Web日志中含有大量的用户浏览信息,从中将相似用户及相关页面进行聚类是建立自适应网站的必要前提。通过基本的预处理,实现了日志的数据净化、用户识别会话识别及数据规约,形成了用户访问页面的序列数据库,同时通过离散化技术计算出用户访问页面频度。在这些数据准备工作的基础上,构造了用户一页面关联矩阵,作为改进的模糊C均值聚类算法的输入,实现了相似用户及相关页面的聚类。实验表明改进的FCM算法的有效性。  相似文献   

8.
模糊C均值聚类算法在Web使用挖掘上的应用研究   总被引:5,自引:3,他引:2  
Web日志中含有大量的用户浏览信息,从中将相似用户及相关页面进行聚类是建立自适应网站的必要前提.通过基本的预处理,实现了日志的数据净化、用户识别会话识别及数据规约,形成了用户访问页面的序列数据库,同时通过离散化技术计算出用户访问页面频度.在这些数据准备工作的基础上,构造了用户一页面关联矩阵,作为改进的模糊C均值聚类算法的输入,实现了相似用户及相关页面的聚类.实验表明改进的FCM算法的有效性.  相似文献   

9.
梁力图  陆璐 《计算机科学》2014,41(11):46-49,68
近年来,Web应用成为互联网时代基础设施中最重要的组成部分。随着互联网技术的不断进步以及使用用户数量的不断增长,Web应用也越发变得复杂。为了保证Web应用性能测试的有效性和真实性,提出一种利用服务器日志中的用户会话信息、结合经过序列匹配算法改进的层次凝聚算法来自动产生Web应用性能测试脚本的方法。提出的方法通过从服务器日志中提取出用户会话信息,分析用户真实的访问模式,通过聚类算法将同类型的用户访问模式进行聚集,自动产生相应的测试请求序列,生成测试集。相比于传统的基于录制/回访的测试方法,基于用户会话的性能测试方法通过对用户会话进行聚类分析,还原实际的用户访问模式,减少了设计测试用例时的人工参与,保证了测试结果的有效性和真实性。  相似文献   

10.
一种基于路径聚类的Web用户访问模式发现算法   总被引:7,自引:0,他引:7  
本文在将用户对Web站点访问行为表示成用户访问事务基础上,给出有关兴趣度、相似度、聚类中心定义,提出基于ISODATA算法的路径聚类方法,并对实际网站Web日志文件进行实验,结果表明该方法不但能够发现群体用户访问模式。而且还得到较为合理的模式聚类个数。  相似文献   

11.
Users of a Web site usually perform their interest-oriented actions by clicking or visiting Web pages, which are traced in access log files. Clustering Web user access patterns may capture common user interests to a Web site, and in turn, build user profiles for advanced Web applications, such as Web caching and prefetching. The conventional Web usage mining techniques for clustering Web user sessions can discover usage patterns directly, but cannot identify the latent factors or hidden relationships among users?? navigational behaviour. In this paper, we propose an approach based on a vector space model, called Random Indexing, to discover such intrinsic characteristics of Web users?? activities. The underlying factors are then utilised for clustering individual user navigational patterns and creating common user profiles. The clustering results will be used to predict and prefetch Web requests for grouped users. We demonstrate the usability and superiority of the proposed Web user clustering approach through experiments on a real Web log file. The clustering and prefetching tasks are evaluated by comparison with previous studies demonstrating better clustering performance and higher prefetching accuracy.  相似文献   

12.
姜大庆  周勇 《计算机科学》2012,39(11):142-144
针对现有个性化推荐服务系统中用户会话聚类算法存在相似性度量准确性低和需要事先确定聚类数目的问 题,对序化的用户访问页面和对应的访问时间信息进行整合,提出一种基于动态规划算法的全序列比对方法来度量用 户会话的相似性。在此基础上,运用改进的NJ W谱聚类算法对用户会话进行自动谱聚类。实验结果表明,算法充分 考虑了用户会话的整体特征和局部信息,较相关比对算法具有更高的聚类性能,可以提高网站个性化推荐服务的效 率。  相似文献   

13.
会话识别是用户访问行为分析的基础和关键工作,其质量对于识别和发现用户的信息需求具有决定性的影响。目前常用的是基于时间阈值的切分方法,但是该方法存在的主要问题是针对不同用户时间阈值难以准确地确定。提出了一种新的基于聚类技术的会话识别优化方法,首先建立了基于聚类的会话识别优化模型,然后采用改进的K-means算法进行会话识别。实验结果表明该方法与传统方法相比具有较好的效果。  相似文献   

14.
基于用户任务级的Web日志聚类   总被引:2,自引:0,他引:2  
利用改进的用户描述计算公式和启发式聚类方法 ,进行基于用户任务级的 Web日志聚类 ,产生簇用户访问模式 ,进行有效的推荐和个性化服务 .结果表明 ,算法具有较好的聚类质量和较高的性能 .它可以成功地应用到 Web日志挖掘中 .  相似文献   

15.
基于概念分析的用户会话约减技术研究   总被引:1,自引:1,他引:0  
基于用户会话的测试技术依赖于收集的用户会话数据集,数据集规模越大,测试效力就越强,但用于收集、储存和分析数据的成本也会迅速增加。该文提出一种在Web应用测试中对用户会话数据集进行约减的方法。运用概念分析技术聚类用户会话,从中选取数据,再利用增量式的概念分析算法更新数据集。设计一个试验原型框架用于评估新方法的实际效果。  相似文献   

16.
We develop a general sequence-based clustering method by proposing new sequence representation schemes in association with Markov models. The resulting sequence representations allow for calculation of vector-based distances (dissimilarities) between Web user sessions and thus can be used as inputs of various clustering algorithms. We develop an evaluation framework in which the performances of the algorithms are compared in terms of whether the clusters (groups of Web users who follow the same Markov process) are correctly identified using a replicated clustering approach. A series of experiments is conducted to investigate whether clustering performance is affected by different sequence representations and different distance measures as well as by other factors such as number of actual Web user clusters, number of Web pages, similarity between clusters, minimum session length, number of user sessions, and number of clusters to form. A new, fuzzy ART-enhanced K-means algorithm is also developed and its superior performance is demonstrated.  相似文献   

17.
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。  相似文献   

18.
Web日志会话的个性化识别方法的研究   总被引:2,自引:1,他引:1       下载免费PDF全文
会话识别是Web日志挖掘中的重要步骤。针对目前的各种会话识别方法,提出了一种改进的基于页面内容、下载时间等多个参数综合得到的针对每个用户的个性化识别方法。该方法通过使用访问时间间隔,判断是否在极大、极小两个阈值范围内来识别会话。根据页面内容、站点结构确定页面重要程度,通过页面的信息容量确定用户正常的阅读时间,通过Web日志中页面下载时间来确定起始阅读时间,对以上因素进行综合后对该阈值进行调整。实验结果表明,相对于目前的对所有用户页面使用单一先验阈值进行会话识别的方法及使用针对用户页面的阈值动态调整方法,提出的方法能更准确地个性化确定出页面访问时间阈值,更为合理有效。  相似文献   

19.
会话识别是Web日志的用户行为分析的关键步骤, 精准的会话识别是有效进行用户行为分析的基础。已有的会话识别方法不能有效地动态适应不同的用户(如多IP单用户、单IP多用户)行为, 在Web日志分析的基础上, 提出了一种基于引用启发式和URL语义相结合的会话识别方法。实验结果表明, 改进后的会话识别方法能更有效地识别出用户的真实会话。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号