共查询到19条相似文献,搜索用时 125 毫秒
1.
Web日志中保存着用户访问网站的大量信息,通过挖掘预处理后的日志数据,可以得到用户聚类,URL聚类以及用户频繁访问路径等诸多有用信息。本文先分析处理网站的日志数据,再阐述了Web日志挖掘的算法,最后讨论了Web日志挖掘的应用。 相似文献
2.
Web日志挖掘的研究对象是Web日志数据,挖掘的对象是提供服务的网站的信息,挖掘结果可以帮助改善网站的设计,本文基于Web日志挖掘提出一种网站优化方案,本方案采用AprioriAll算法对用户频繁访问路径进行挖掘,根据挖掘结果进行模式分析,最终实现网站结构的调整、优化,提高用户满意度和站点的访问率。 相似文献
3.
Web挖掘常常被分成Web内容挖掘、Web结构挖掘和Web使用挖掘三类。Web使用挖掘又称为Web日志挖掘,是指从万维网用户的导航行为中发现有价值的信息的一种数据挖掘技术。Web日志挖掘一般有4个步骤:数据预处理、挖掘过程、模式分析和知识发现。数据预处理是对网站日志文件中的数据进行整理,清洗不完全的、杂乱的、噪声数据;模式分析是指提取用户不感兴趣的信息,并找到用户感兴趣的模式的过程;知识发现是指从日志文件中收集并发现有用知识的统计。主要介绍Web日志挖掘与Web结构挖掘相结合来完成挖掘过程及其应用。 相似文献
4.
基于用户访问树的Web日志挖掘数据预处理 总被引:1,自引:0,他引:1
在Web日志挖掘中数据预处理是整个挖掘过程的基础,直接影响日志挖掘的质量和结果.提出了一种基于用户访问树的Web日志挖掘数据预处理方法,该方法在处理过程中根据Web日志建立用户访问树,并利用用户访问树进行用户和事务识别,从而可以在缺乏网站拓扑结构的情况下准确地对Web日志进行预处理. 相似文献
5.
李甲林 《数字社区&智能家居》2009,(14)
Web日志挖掘可以使我们发现Web用户潜在的使用规律和模式。为了将存在着缺失、错误、噪音的原始Web日志数据转化为可靠、完整、准确的用户访问事务数据库,数据预处理工作是十分关键和重要的一步。文章就Web日志挖掘的预处理模型进行了深入的研究,并将其应用到实际日志数据预处理中,得到了理想的结果。 相似文献
6.
7.
8.
如何准确、及时、全面地采集用户使用数据是Web使用挖掘的重要前提和基础。基于Web的基本结构,Web使用挖掘的数据源可以从web服务器端、应用服务器端、代理服务器端和客户端进行采集。文中分析了传统的基于Web日志进行Web使用挖掘所面临的问题,讨论了建立在用户浏览行为基础上的客户端数据采集技术,重点讨论了其中的JavaApplet技术。通过JavaApplet技术可以获取客户端IP,可以自动完成用户浏览信息的准确采集,可以广泛用于各类网站的个性化和智能化服务、站点结构改进、商业智能等。 相似文献
9.
如何准确、及时、全面地采集用户使用数据是Web使用挖掘的重要前提和基础。基于Web的基本结构,Web使用挖掘的数据源可以从web服务器端、应用服务器端、代理服务器端和客户端进行采集。文中分析了传统的基于Web日志进行Web使用挖掘所面临的问题,讨论了建立在用户浏览行为基础上的客户端数据采集技术,重点讨论了其中的JavaApplet技术。通过JavaApplet技术可以获取客户端IP,可以自动完成用户浏览信息的准确采集,可以广泛用于各类网站的个性化和智能化服务、站点结构改进、商业智能等。 相似文献
10.
在Web日志挖掘的过程中,数据预处理是整个Web日志挖掘过程的基础,其直接影响了日志挖掘的质量和结果.由于目前大多数网页都采用框架模式,而传统的预处理技术并没有针对frame页面进行过滤,即使过滤,也会导致页面结构的混乱,从而不能够为路径补充提供正确的信息.基于此,本文提出一种基于重构网站结构的Web日志挖掘数据预处理方法以及基于它的路径补充方法. 相似文献
11.
Web日志挖掘数据预处理研究 总被引:6,自引:0,他引:6
随着WWW的广泛应用及相应的Web技术的出现,数据挖掘的研究也进入了一个新的阶段。Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面,而数据预处理在Web日志挖掘过程中起着至关重要的作用。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。本文针对基于日志的数据挖掘,提出了前期的几种数据预处理方法,目的是分割服务器日志为多个独一无二的用户的一次访问序列,并给予了算法实现。 相似文献
12.
基于多代理技术的分布式Web日志挖掘系统 总被引:1,自引:7,他引:1
在分析分布式Web日志挖掘的困难以及介绍多代理的概念和特性后,提出了一个基于多代理技术的分布式Web日志挖掘系统的体系结构。介绍了Web日志挖掘过程以及多代理在该系统中的应用。 相似文献
13.
用户访问兴趣度的分析是Web日志挖掘中一个重要的研究课题。在概述Web日志挖掘过程的基础上,对日志挖掘各个阶段进行了分析,研究得出了用户对访问页面的兴趣度。 相似文献
14.
本文致力于研究如何将多代理技术应用于分布式数据挖掘中的课题,通过分析典型分布式结构的Web服务器日志,设计Web日志挖掘系统的体系结构、各个代理的具体研究设计工作等。本文将多代理技术与Web日志挖掘技术结合起来,一方面可以更清晰的进行数据挖掘系统的设计,另一方面可以充分利用多代理技术来提高数据挖掘的效率,从而对基于Agent的分布式数据挖掘系统的理论意义和应用层面价值进行探索。 相似文献
15.
介绍一个基于关联规则数据挖掘Web日志分析的实现方法,提出通过对Apriori算法的改进,提高其挖掘效率,根据其结果,达到理解用户行为和改善Web结构的目的. 相似文献
16.
Web日志挖掘是Web数据挖掘的一个重要研究领域。Web日志挖掘通过发现Web日志中用户的访问规律和模式,可以提取出其中潜在的规律和信息,人们对这个领域的研究也日益重视。然而,传统的基于关联规则的Web日志挖掘算法都是基于所有关联规则的。这种方式往往挖掘产生大量的候选规则,而且存在大量冗余的规则。提出了一种新的无冗余的Web日志挖掘算法,该算法通过引入频繁闭项集合最小关联规则的概念,从而解决了以往基于所有关联规则挖掘算法中出现的上述问题。 相似文献
17.
Internet的迅猛发展及Web数据量的迅速膨胀为数据挖掘研究提供了丰富的资源.如何在这个巨大的、信息量无比丰富的信息空间提取所需的知识,是数据挖掘面临新的研究课题,Web挖掘是解决上述问题的一个途径.Web挖掘是数据挖掘技术在Web上的应用,介绍Web挖掘的特点,深入分析Web挖掘的分类,并详细阐述Web挖掘的发展应用. 相似文献
18.
在web日志挖掘技术基础之上,对网页推荐展开了研究和分析。文中提出了一种DPMFI算法,采用DPMFI算法生成最大频繁项目集,并基于最大频繁项目集来产生推荐网页。 相似文献
19.
Web日志数据中保存有大量用户访问信息,而Web日志挖掘就是对系统日志信息以及用户的注册数据等进行挖掘,以发现有用的模式和知识。首先介绍了Web日志挖掘的基本流程,然后介绍了电子商务中的日志挖掘,并着重分析了在模式识别中如何利用改进的关联规则算法来挖掘出用户频繁访问的路径和页面兴趣度,为个性化推荐系统模型提供了依据,从而证实了对Web日志数据进行挖掘具有很重要的现实意义。 相似文献