首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 97 毫秒
1.
Web用户访问多是匿名访问,Web日志挖掘的主要目标是从Web访问记录中抽取用户行为模式,通过分析挖掘结果理解用户的行为,从而改进站点的结构.Web日志挖掘第一步是进行数据预处理.数据预处理是Web页面分析中最耗时的阶段,首先研究了数据预处理的过程,包括数据清洗、用户识别、会话识别、路径补充.提出了一种路径补充的算法,...  相似文献   

2.
介绍Web日志挖掘的预处理过程,其中包括数据清理、站点拓扑识别、用户识别、会话识别、页面过滤和路径补充。针对无引用域记录日志的路径补充问题,提出并实现一种基于网站拓扑图的路径补充算法。讨论一种综合多重评价因素的用户相似度计算方法,并将其应用于Web用户聚类操作。使用Davies-Bouldin指标衡量聚类的效果并给出实验结果。  相似文献   

3.
Web日志信息的预处理是Web日志挖掘任务中的重要阶段,是整个Web日志挖掘过程的基础和实施有效挖掘算法的前提,在Web日志挖掘中起着重要的作用,也是工作量较大的一部分。数据预处理的基本技术,包括数据清理、数据集成和转换、数据归约等。本文介绍了数据预处理中涉及到的数据清理、用户识别、会话识别、路径补充、事务识别等过程,并提出了一种路径补充算法。  相似文献   

4.
通过分析Web日志数据源的不准确性,提出了对Web日志数据源进行数据预处理的技术。结合实例详细介绍了数据净化、用户识别、会话识别、路径补充和事务识别等数据预处理技术。  相似文献   

5.
Web日志是目前Web数据挖掘的重要研究方向。数据预处理是Web日志挖掘中的关键技术。详细的介绍了Web日志挖掘的预处理过程。数据预处理包括数据清理、识别用户、识别会话和框架页面清理、路径补充。用户识别后,框架页面降低了数据挖掘的效率,可以通过过滤框架页面大幅度减少产生的无效页面数。  相似文献   

6.
Web访问日志数据是由单个用户点击形成的数据集,各点击是独立的,会话识别的任务就是将各个独立的点击划分成有意义的会话片段.一般的会话识别算法无法对包含交叉会话数据的Web访问日志数据成功地进行会话识别,利用自适应m-Markov模型能对Web访问日志数据进行交叉服务器会话识别和重构,并在m-Markov模型的基础上结合不同的会话结束判断准则进行会话识别准确率的比较.实验结果显示,将m-Markov模型与基于奖惩策略的会话结束算法结合能明显提高会话识别和重构的准确率.  相似文献   

7.
随着Internet的普及,Web日志挖掘成为一个新的研究课题。由于Web日志数据的半结构化,为了得到有效的挖掘模式,提高挖掘算法的效率,首先需要对数据预处理。该文详细介绍了Web日志数据预处理的四个步骤:数据清洗,用户识别,会话识别和路径补充,并实现了对某校院网日志记录的预处理,得到了理想的结果。  相似文献   

8.
陈荣旺  郭红 《福建电脑》2007,(6):19-19,16
数据预处理是Web日志挖掘中的关键和重要一步,文章分析了Web日志挖掘的数据预处理过程,并给出基于日志参引页的用户识别、路径补全算法和基于一种时间窗口模型的会话划分算法。  相似文献   

9.
Web会话构造中基于多窗口的路径补充   总被引:1,自引:0,他引:1  
在Web会话识别中,传统的路径补充算法仅考虑了点击"后退"按钮造成日志记录的不连续性.针对此问题,提出基于多窗口的路径补充思想,并结合确定的有限自动机(DFA)来实现该算法.对于用户从新窗口打开页面,异步并发访问网站时造成日志记录的不连续,该算法能避免按"后退"方式进行路径补充,而是采用多窗口方式.通过实例验证了该方法比传统路径补充算法更能准确地反映用户实际的访问路径.  相似文献   

10.
基于Web日志的数据预处理研究   总被引:1,自引:0,他引:1  
详细介绍Web日志挖掘的数据预处理过程.通过对预处理的结果用户会话文件进行处理,构造出扩展有向树模型,并从每个用户会话文件中发现该用户所有的最大向前引用路径,为实施Web日志挖掘算法提供数据基础.  相似文献   

11.
利用图片类日志信息改进会话识别质量   总被引:2,自引:0,他引:2  
范纯龙  姜宏飞  李华 《计算机应用》2010,30(4):1056-1058
数据预处理是Web日志挖掘的基础,而会话识别则是数据预处理的关键步骤,其质量严重影响Web日志挖掘的结果。在分析现有会话识别方法的基础上,提出了利用数据预处理中废弃的图片等日志数据,并结合扩展Web图结构,从页面分组规则和路径补全算法两个方面改进会话识别质量,并通过实验证实该方法对改善会话识别质量是有效的。  相似文献   

12.
Web日志挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。而数据预处理在Web日志挖掘中起着很重要的作用,直接影响日志挖掘的质量和结果。介绍了Web日志挖掘数据预处理过程,综述了国际上的研究现状,及流行的处理方法。针对预处理步骤中的用户会话识别和路径填充进行了相应的改进。根据评估会话构造方法的标准,通过实验对给出的新方法与其他方法进行了分析比较。  相似文献   

13.
Web日志挖掘中数据预处理方法的研究   总被引:2,自引:0,他引:2  
Web日志挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。而数据预处理在Web日志挖掘中起着很重要的作用,直接影响日志挖掘的质量和结果。介绍了Web日志挖掘数据预处理过程,综述了国际上的研究现状,及流行的处理方法。针对预处理步骤中的用户会话识别和路径填充进行了相应的改进。根据评估会话构造方法的标准,通过实验对给出的新方法与其他方法进行了分析比较。  相似文献   

14.
随着互联网的快速发展,Web日志的用户行为分析已经成为互联网技术领域的研究热点之一.会话识别是Web日志用户行为分析的关键步骤,精准的会话识别是有效进行用户行为分析的基础.本文在IIS Web日志分析的基础上,提出了一种基于URL相似度的会话识别方法.实验结果表明,此方法可以有效的识别出用户的真实会话.  相似文献   

15.
针对传统Web访问模式挖掘系统中用户识别和会话识别的复杂性和不准确性,该文提出了基于过滤器的Web访问模式挖掘系统。它能够准确地识别用户和会话,为挖掘算法提供优质的数据。给出了日志过滤器的实现和部署,提出了Web访问模式的挖掘算法。目前该方法已经广泛地应用于科学数据库系统中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号