首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题.在经典Apriori算法基础上给出了基于SQL的Apriori算法.对Web日志挖掘进行数据预处理的基础上,利用算法挖掘最大频繁访问页面集.实验结果表明算法的效率较好,并有助于促进网站的建设.  相似文献   

2.
Web日志挖掘数据预处理研究   总被引:6,自引:0,他引:6  
随着WWW的广泛应用及相应的Web技术的出现,数据挖掘的研究也进入了一个新的阶段。Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面,而数据预处理在Web日志挖掘过程中起着至关重要的作用。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。本文针对基于日志的数据挖掘,提出了前期的几种数据预处理方法,目的是分割服务器日志为多个独一无二的用户的一次访问序列,并给予了算法实现。  相似文献   

3.
Web日志挖掘中的数据预处理技术研究   总被引:30,自引:0,他引:30  
赵伟  何丕廉  陈霞  谢振亮 《计算机应用》2003,23(5):62-64,67
在Web数据挖掘研究领域中,Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用。文中深入探讨了数据预处理环节的主要任务,并介绍这个过程中一些特殊情况的处理方法。  相似文献   

4.
日志文件作为系统和网络用户行为的记录管理工具,对保护系统安全,方便调查系统故障,监控系统运行状况起着极其重要的作用。该文提出了一个基于关联规则的日志分析系统,将数据挖掘技术运用在日志分析中,并针对挖掘的数据特点对Apriori算法进行了改进。日志分析系统可以利用关联规则对日志进行分析获取其中所蕴合的重要信息。  相似文献   

5.
Web日志中保存着用户访问网站的大量信息,通过挖掘预处理后的日志数据,可以得到用户聚类,URL聚类以及用户频繁访问路径等诸多有用信息。本文先分析处理网站的日志数据,再阐述了Web日志挖掘的算法,最后讨论了Web日志挖掘的应用。  相似文献   

6.
Web日志挖掘中的数据预处理的研究   总被引:40,自引:1,他引:40  
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的数据预处理模型,并通过一个实例具体介绍了各过程的主要任务。  相似文献   

7.
Web日志挖掘中数据预处理的研究   总被引:14,自引:0,他引:14  
针对框架式页面存在的问题,对数据预处理过程进行了改进,在数据清洗和用户识别部分添加了页面过滤部分,同时对预处理过程中的页面过滤算法和用户识别策略也进行了改进。  相似文献   

8.
企业员工访问网站的记录在企业服务器中形成了大规模日志数据,从这些海量数据中发掘出有意义的信息是管理企业员工重要的环节,并成为大数据时代关注的重点。完成数据挖掘的核心工作之一就是对原始数据的预处理,它影响到数据分析结果的准确度。但由于web日志是Apache、Nginx和IIS等web服务器运行时产生的系统日志,web日志格式根据使用web服务器的不同而不同。所以,传统的日志数据清洗方式难以应对目前如此复杂的日志格式。由于专家系统其技术特点能应对复杂的日志格式,所以通过结合专家系统,推理出对应的web日志格式,从而自动进行日志数据清洗,可以使得当下复杂海量web日志数据预处理更加高效,智能。首先,介绍了专家系统;其次,介绍了web日志数据一般的数据预处理流程;最后,结合专家系统对海量复杂的web日志数据进行数据预处理,并通过实验验证了该方法的可行性。  相似文献   

9.
Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。该文首先介绍了Web日志挖掘产生的背景,然后介绍了Web日志挖掘的基本概念,着重阐述了Web日志挖掘的预处理和日志挖掘算法两个关键技术,最后介绍了Web日志挖掘的应用,提出了其发展方向。  相似文献   

10.
Web日志挖掘中数据预处理技术的研究   总被引:2,自引:0,他引:2  
在Web日志挖掘中数据预处理是整个挖掘过程的基础,由于客户端缓存的存在,在已往的预处理过程中都是通过路径补充技术得到用户完整的访问路径之后,才能进行事务识别.提出了一种只需根据网站的拓扑结构,不需要使用路径补充技术,由用户访问序列直接生成事务的算法.  相似文献   

11.
Web日志挖掘中数据预处理方法的研究   总被引:2,自引:0,他引:2  
Web日志挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。而数据预处理在Web日志挖掘中起着很重要的作用,直接影响日志挖掘的质量和结果。介绍了Web日志挖掘数据预处理过程,综述了国际上的研究现状,及流行的处理方法。针对预处理步骤中的用户会话识别和路径填充进行了相应的改进。根据评估会话构造方法的标准,通过实验对给出的新方法与其他方法进行了分析比较。  相似文献   

12.
Web日志挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。而数据预处理在Web日志挖掘中起着很重要的作用,直接影响日志挖掘的质量和结果。介绍了Web日志挖掘数据预处理过程,综述了国际上的研究现状,及流行的处理方法。针对预处理步骤中的用户会话识别和路径填充进行了相应的改进。根据评估会话构造方法的标准,通过实验对给出的新方法与其他方法进行了分析比较。  相似文献   

13.
Web日志挖掘的数据预处理研究   总被引:7,自引:0,他引:7  
分析了Web日志挖掘的数据预处理过程,提出了基于日志引用页的用户识别算法,并对其性能进行分析,最后给出了应用实例。  相似文献   

14.
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。  相似文献   

15.
数据预处理在Web日志挖掘过程中起着至关重要的作用。本文详细分析了数据预处理的过程,并对用户识别提出了改进策略,最后实现了一个Web日志挖掘预处理模型(WLMPM)。  相似文献   

16.
Web日志挖掘是将数据挖掘技术应用到Web服务器的日志中,发现Web用户的行为模式,以便进一步改善网站结构或为用户提供个性化的服务。文中探讨了Web日志挖掘中的用户识别算法,提出了一种多重约束条件的用户识别算法。  相似文献   

17.
Web访问挖掘的预处理技术的研究   总被引:1,自引:1,他引:1  
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。  相似文献   

18.
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。  相似文献   

19.
提出一种基于日志分析的Web负载测试方法。通过序列模式挖掘得到用户访问的频繁序列模式,日志分析得到负载的相关参数,并据此构造出逼近于真实的测试负载。利用性能测试工具LoadRunner对Web应用系统进行负载测试。将测试日志与真实日志进行对比,验证了测试负载与真实负载的相似性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号