首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
马涛  刘昱琨 《微机发展》2003,13(4):71-73
通过对WEB服务器日志文件进行分析,可以发现相似的客户群体,相关WEB页面以及频繁访问路径,这里提出了一种新颖的WEB日志挖掘算法,该算法是以服务器日志文件中的不同会话为聚类对象,通过对不同会话实施空间距离聚类和层次结构比较聚类,最终得到了满意的聚类结果,最后,给出了一个应用实例,实例表明,该方法是有效可行的。  相似文献   

2.
基于归纳化会话的网络用户的聚类   总被引:7,自引:0,他引:7  
为了发掘具有相似的访问兴趣的网络用户,探讨了网络用户聚类的问题。网络用户的访问信息从服务器日志文件中抽取出来,组织成会话向量的形式,会话描述为一段时间内用户向服务器发出一系列访问请求。为了减少会话向量的维度,根据网页的层次性,采用面向属性的推理方法,对这些会话进行了归纳,并且定义了一个新的距离测度来描述两个会话之间的相似度,最后采用某种非欧几里德的关系聚类算法聚类这些归纳化的会话。实验表明,这种方法对在大型的日志文件集中挖掘出有意义的网络用户的分类是高效可行的。  相似文献   

3.
Web日志作为服务器的记录文件,记录了网站最重要的信息,随着大数据时代数据量的骤然增加,提出一种应对大数据量的数据挖掘算法,更有效地分析日志文件迫在眉睫。用户聚类是在对日志文件进行数据预处理的基础上,建立用户会话序列矩阵,进而对其进行聚类分析,论文针对K-Means算法在选取初始中心点上存在的问题,以及在构建用户会话矩阵后存在的孤立点的问题,提出了一种密度参数和KCR算法的优化算法-ICKM算法,该算法利用密度参数最大的对象作为第一中心点,随后从数据集中将此对象删除,利用KCR算法寻找下一个中心点,算法借助MapReduce计算框架,提高大数据环境下的数据处理速度,通过实验表明,ICKM算法在寻找初始中心点以及用户聚类上具有较高的准确度,在处理大数据量的数据集时,有较好的的运算速度。  相似文献   

4.
本文研究了使用集群环境下的用户访问日志数据生成用户会话聚类的方法:编制Perl脚本从用户访问日志中生成用户会话,以新的相似度度量取代欧几里德距离改进Leader算 法对用户会话集合进行聚类,并计算聚类的内部距离和间隔距离来验证算法的有效性。实验结果表明,这种实现能有效地对用户访问日志进行聚类,并能满足服务器预取机制
制在线分析的时间、空间要求。  相似文献   

5.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究,包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在Web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

6.
基于神经网络的Web用户行为聚类分析   总被引:9,自引:0,他引:9  
本文提出了一种用神经网络对Web用户的行为进行分析的方法,首先对WWW服务器的日志文件进行分析,再进行会话划分,并从会话向量中找出频繁数据集,以便选取合适的会话向量。进行规一化处理后生成模式向量,并采用Kohonen的SOFM模型进行聚类,最后生成用户聚类。实验结果及对比分析表明用神经网络方法能有效地对用户行为进行聚类分析。  相似文献   

7.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究。包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

8.
Web日志挖掘中的序列模式识别   总被引:16,自引:0,他引:16  
Web日志挖掘的基本思想是将数据挖掘技术应用于 Web服务器的日志文件 .本文从 Web日志挖掘过程预处理阶段的结果用户会话文件开始 ,提出了一种基于扩展有向树模型进行用户浏览模式识别的 Web日志挖掘方法 ,并在实验室对该方法进行了简单实现和实际日志数据的测试 .  相似文献   

9.
基于Web日志的数据预处理研究   总被引:1,自引:0,他引:1  
详细介绍Web日志挖掘的数据预处理过程.通过对预处理的结果用户会话文件进行处理,构造出扩展有向树模型,并从每个用户会话文件中发现该用户所有的最大向前引用路径,为实施Web日志挖掘算法提供数据基础.  相似文献   

10.
Web访问日志数据是由单个用户点击形成的数据集,各点击是独立的,会话识别的任务就是将各个独立的点击划分成有意义的会话片段.一般的会话识别算法无法对包含交叉会话数据的Web访问日志数据成功地进行会话识别,利用自适应m-Markov模型能对Web访问日志数据进行交叉服务器会话识别和重构,并在m-Markov模型的基础上结合不同的会话结束判断准则进行会话识别准确率的比较.实验结果显示,将m-Markov模型与基于奖惩策略的会话结束算法结合能明显提高会话识别和重构的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号