首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 143 毫秒
1.
基于归纳化会话的网络用户的聚类   总被引:7,自引:0,他引:7  
为了发掘具有相似的访问兴趣的网络用户,探讨了网络用户聚类的问题。网络用户的访问信息从服务器日志文件中抽取出来,组织成会话向量的形式,会话描述为一段时间内用户向服务器发出一系列访问请求。为了减少会话向量的维度,根据网页的层次性,采用面向属性的推理方法,对这些会话进行了归纳,并且定义了一个新的距离测度来描述两个会话之间的相似度,最后采用某种非欧几里德的关系聚类算法聚类这些归纳化的会话。实验表明,这种方法对在大型的日志文件集中挖掘出有意义的网络用户的分类是高效可行的。  相似文献   

2.
通过对WEB服务器日志文件进行分析,可以发现相似的客户群体、相关WEB页面以及频繁访问路径.这里提出了一种新颖的WEB日志挖掘算法,该算法是以服务器日志文件中的不同会话为聚类对象,通过对不同会话实施空间距离聚类和层次结构比较聚类,最终得到了满意的聚类结果.最后,给出了一个应用实例,实例表明,该方法是有效可行的.  相似文献   

3.
马涛  刘昱琨 《微机发展》2003,13(4):71-73
通过对WEB服务器日志文件进行分析,可以发现相似的客户群体,相关WEB页面以及频繁访问路径,这里提出了一种新颖的WEB日志挖掘算法,该算法是以服务器日志文件中的不同会话为聚类对象,通过对不同会话实施空间距离聚类和层次结构比较聚类,最终得到了满意的聚类结果,最后,给出了一个应用实例,实例表明,该方法是有效可行的。  相似文献   

4.
一种用于Web搜索的高效聚类算法   总被引:1,自引:0,他引:1  
李新叶  苑津莎 《计算机工程》2006,32(20):38-39,7
根据搜索引擎的用户查询日志库信息对用户访问模式聚类算法进行了研究,说明了用雅可比系数及加权相似性度量公式实现用户访问模式聚类的不足,提出了一种改进的Hamming距离公式,运用距离测度法实现用户访问模式聚类,给出了聚类算法。对算法的分析表明,基于偶图和改进Hamming距离公式的算法是准确和高效的。  相似文献   

5.
基于神经网络的Web用户行为聚类分析   总被引:9,自引:0,他引:9  
本文提出了一种用神经网络对Web用户的行为进行分析的方法,首先对WWW服务器的日志文件进行分析,再进行会话划分,并从会话向量中找出频繁数据集,以便选取合适的会话向量。进行规一化处理后生成模式向量,并采用Kohonen的SOFM模型进行聚类,最后生成用户聚类。实验结果及对比分析表明用神经网络方法能有效地对用户行为进行聚类分析。  相似文献   

6.
梁力图  陆璐 《计算机科学》2014,41(11):46-49,68
近年来,Web应用成为互联网时代基础设施中最重要的组成部分。随着互联网技术的不断进步以及使用用户数量的不断增长,Web应用也越发变得复杂。为了保证Web应用性能测试的有效性和真实性,提出一种利用服务器日志中的用户会话信息、结合经过序列匹配算法改进的层次凝聚算法来自动产生Web应用性能测试脚本的方法。提出的方法通过从服务器日志中提取出用户会话信息,分析用户真实的访问模式,通过聚类算法将同类型的用户访问模式进行聚集,自动产生相应的测试请求序列,生成测试集。相比于传统的基于录制/回访的测试方法,基于用户会话的性能测试方法通过对用户会话进行聚类分析,还原实际的用户访问模式,减少了设计测试用例时的人工参与,保证了测试结果的有效性和真实性。  相似文献   

7.
本文先将原始Web日志进行预处理,即时Web日志进行数据清洗,用户识别,会话识别和格式转换等.再用蚁群聚类算法对预处理后的日志进行聚类分析,提取具有代表性的用户访问模式,最后用协同过滤推荐技术向网站访问者进行推荐,提供个性化服务,从而实现网站的个性化推荐.  相似文献   

8.
Web日志中含有大量的用户浏览信息,从中将相似用户及相关页面进行聚类是建立自适应网站的必要前提。通过基本的预处理,实现了日志的数据净化、用户识别会话识别及数据规约,形成了用户访问页面的序列数据库,同时通过离散化技术计算出用户访问页面频度。在这些数据准备工作的基础上,构造了用户一页面关联矩阵,作为改进的模糊C均值聚类算法的输入,实现了相似用户及相关页面的聚类。实验表明改进的FCM算法的有效性。  相似文献   

9.
模糊C均值聚类算法在Web使用挖掘上的应用研究   总被引:5,自引:3,他引:2  
Web日志中含有大量的用户浏览信息,从中将相似用户及相关页面进行聚类是建立自适应网站的必要前提.通过基本的预处理,实现了日志的数据净化、用户识别会话识别及数据规约,形成了用户访问页面的序列数据库,同时通过离散化技术计算出用户访问页面频度.在这些数据准备工作的基础上,构造了用户一页面关联矩阵,作为改进的模糊C均值聚类算法的输入,实现了相似用户及相关页面的聚类.实验表明改进的FCM算法的有效性.  相似文献   

10.
吕佳 《计算机科学》2007,34(4):204-206
Web日志隐含了用户访问网站的行为和特点,对其进行聚类分析可以获取用户的浏览模式,发现用户访问网站的偏好和兴趣,从而优化站点结构,实现个性化的服务。针对Web日志数据特点,本文提出免疫网络聚类算法。该算法将Web服务器看成生物机体,用户访问Web的请求序列看成需要检测的入侵抗原,模拟抗体学习抗原的生物机理,自动生成代表用户访问模式的记忆抗体,实现动态聚类。  相似文献   

11.
缩短Web访问中的用户感知时间,是Web应用中的一个重要问题,服务器需要预测用户未来的HTTP请求和处理当前的网页以提高Web服务器的响应速度,为此提出了一种基于用户访问模式的Web预取算法.该算法根据Web日志信息分析了用户的访问模式,并计算出Web页面间的转移概率,以此作为对用户未来请求预取的依据.实验结果表明,该预取算法能有效提高预测精度和命中率,有效地缩短了用户的感知时间.  相似文献   

12.
基于用户任务级的Web日志聚类   总被引:2,自引:0,他引:2  
利用改进的用户描述计算公式和启发式聚类方法 ,进行基于用户任务级的 Web日志聚类 ,产生簇用户访问模式 ,进行有效的推荐和个性化服务 .结果表明 ,算法具有较好的聚类质量和较高的性能 .它可以成功地应用到 Web日志挖掘中 .  相似文献   

13.
搜索引擎往往返回给用户一个包含大量文档片段的列表,用户从中筛选出自己所需要的文档。文中提出一种预取代理的方法:对搜索引擎返回的结果进行聚类分析,使得用户以主题的方式来查看结果,满足用户搜索请求的个性化服务;同时对聚类进行评价,推测出用户可能感兴趣的文档,并将它们预取过来,从而减少网络延迟。  相似文献   

14.
The degree of personalization that a Web site offers in presenting its services to users is an important attribute contributing to the site's popularity. Web server access logs contain substantial data about user access patterns. One way to solve this problem is to group users on the basis of their Web interests and then organize the site's structure according to the needs of different groups. Two main difficulties inhibit this approach: the essentially infinite diversity of user interests and the change in these interests with time. We have developed a clustering algorithm that groups users according to their Web access patterns. The algorithm is based on the ART1 version of adaptive resonance theory. In our ART1-based algorithm, a prototype vector represents each user cluster by generalizing the URLs most frequently accessed by all cluster members. We have compared our algorithm's performance with the traditional k-means clustering algorithm. Results showed that the ART1-based technique performed better in terms of intracluster distances. We also applied the technique in a prefetching scheme that predicts future user requests.  相似文献   

15.
Web使用挖掘是数据挖掘技术在Web信息仓库中的应用.Web使用挖掘通过挖掘Web服务器日志获取的知识来预测用户浏览行为,是Web挖掘技术中的一个重要研究方向.通常发现的知识或一些意外规则很可能是不精确的、不完备的,这就需要用软计算技术如粗糙集来解决.提出一种基于粗糙近似的聚类方法,该方法能够实现从Web访问日志中聚类Web事务.通过这种方法可以有效地挖掘Web日志记录,从而发现用户存取Web页面的模式.  相似文献   

16.
卢露  赵靖  魏登月 《计算机应用研究》2013,30(12):3557-3559
针对Web用户聚类时, 社会标注系统中用户访问资源数据稀疏从而导致传统聚类算法效率不高的问题, 提出了一种三向迭代聚类算法, 对用户、标签和资源分别聚类, 利用三者之间的关联关系不断相互交叉迭代调整, 直到各聚类簇达到稳定为止。实验表明, 该方法调整后类的内聚性更强, 区分度更大, 能有效解决数据稀疏性问题, 提高用户聚类效果。  相似文献   

17.
服务器缓存性能的核心是缓存替换策略,缓存替换策略直接影响缓存的命中率, Web缓存可以解决网络拥塞和用户访问延迟问题,提高服务器的性能.传统缓存替换算法的命中率往往不高,为此文中提出了一种基于谱聚类的多级缓存替换策略.该策略利用循环滑动窗口机制提取日志文件的多项时序特征和访问属性,通过谱聚类对过滤后的数据集进行聚类分析从而得到访问预测结果.多级缓存替换策略综合考虑了缓存对象的局部频率、全局频率以及资源大小能更好地对低价值资源进行剔除,同时对高价值资源进行保留.通过与传统替换算法LRU、LFU、RC、FIFO进行实验对比,实验结果表明本文将谱聚类和多级缓存替换策略进行结合有效地提高了缓存请求命中率和字节命中率.  相似文献   

18.
提出了一种基于服务器日志挖掘的电力业务系统功能推荐服务,首先从电力业务系统服务器日志中获取用户日志数据,然后对含有"脏"数据的用户日志数据进行预处理,以适应数据挖掘与处理;接着由待处理的数据计算用户访问兴趣度,并基于改进的K均值聚类算法将用户访问兴趣度数据集划分为多个具有相近兴趣度的用户集合,最终为用户提供功能个性化推荐服务.实验结果证明该方法在实现电力业务系统信息推荐方面具有较好的效果.  相似文献   

19.
Web日志作为服务器的记录文件,记录了网站最重要的信息,随着大数据时代数据量的骤然增加,提出一种应对大数据量的数据挖掘算法,更有效地分析日志文件迫在眉睫。用户聚类是在对日志文件进行数据预处理的基础上,建立用户会话序列矩阵,进而对其进行聚类分析,论文针对K-Means算法在选取初始中心点上存在的问题,以及在构建用户会话矩阵后存在的孤立点的问题,提出了一种密度参数和KCR算法的优化算法-ICKM算法,该算法利用密度参数最大的对象作为第一中心点,随后从数据集中将此对象删除,利用KCR算法寻找下一个中心点,算法借助MapReduce计算框架,提高大数据环境下的数据处理速度,通过实验表明,ICKM算法在寻找初始中心点以及用户聚类上具有较高的准确度,在处理大数据量的数据集时,有较好的的运算速度。  相似文献   

20.
为了实现在线推荐信息服务,要对网络号百用户的访问行为进行分析,荻取用户访问聚类模型,从而在聚类模型的基础上进行在线推荐.介绍获取用户访问路径信息的方法,对用户访问路径信息建立相似度矩阵,基于相似度矩阵改进K-means算法,据此进行用户模型聚类,给出分析案例,并说明算法实现过程.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号