首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
秦东霞  姚遥 《电脑学习》2012,2(1):31-34
Web日志挖掘是Web数据挖掘的一个重要研究领域。Web日志挖掘通过发现Web日志中用户的访问规律和模式,可以提取出其中潜在的规律和信息,人们对这个领域的研究也日益重视。然而,传统的基于关联规则的Web日志挖掘算法都是基于所有关联规则的。这种方式往往挖掘产生大量的候选规则,而且存在大量冗余的规则。提出了一种新的无冗余的Web日志挖掘算法,该算法通过引入频繁闭项集合最小关联规则的概念,从而解决了以往基于所有关联规则挖掘算法中出现的上述问题。  相似文献   

2.
Web日志中保存着用户访问网站的大量信息,通过挖掘预处理后的日志数据,可以得到用户聚类,URL聚类以及用户频繁访问路径等诸多有用信息。本文先分析处理网站的日志数据,再阐述了Web日志挖掘的算法,最后讨论了Web日志挖掘的应用。  相似文献   

3.
WEB日志挖掘及其实现   总被引:10,自引:0,他引:10  
Web日志中积累了大量的有用信息,从Web日志中发现有用的信息是非常必要的。该文研究了Web日志挖掘的机理,提出了通过访问路径挖掘来分析用户浏览模式的方法,并实现了一种有效的访问路径模式挖掘算法。  相似文献   

4.
一种分布式Web日志挖掘系统的设计与实现   总被引:5,自引:1,他引:5  
陶剑文 《计算机仿真》2006,23(10):109-112
Web挖掘已从早期的理论研究逐步转向实用阶段,可以利用对Web日志的挖掘发现用户的浏览模式、分析站点的使用情况。有效的Web日志挖掘工具是Web日志挖掘应用成功的关键。针对Web日志挖掘工具存在的问题与不足,提出了一种新颖的基于移动Agent技术的分布式Web日志挖掘系统(MAWLMS)的体系结构。重点阐述了移动代理层的设计,详细说明了移动Agent挖掘算法的设计与实现,包括最大向前路径识别算法和频繁遍历路径发现算法。最后对MAWLMS系统进行了验证,实验结果显示基于MAWLMS系统的分布式Web日志挖掘是可行且有效的。  相似文献   

5.
Web挖掘是数据挖掘的重要研究分支之一。Web日志文件为Web挖掘提供了数据源,日志信息的孤立点检测是数据预处理的重要环节。介绍Web日志文件的构成,提出一种基于Web日志文件的孤立点检测算法,通过实验对算法进行进一步分析,并对其应用领域做简单概括。  相似文献   

6.
Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。该文首先介绍了Web日志挖掘产生的背景,然后介绍了Web日志挖掘的基本概念,着重阐述了Web日志挖掘的预处理和日志挖掘算法两个关键技术,最后介绍了Web日志挖掘的应用,提出了其发展方向。  相似文献   

7.
Web日志数据中保存有大量用户访问信息,而Web日志挖掘就是对系统日志信息以及用户的注册数据等进行挖掘,以发现有用的模式和知识。首先介绍了Web日志挖掘的基本流程,然后介绍了电子商务中的日志挖掘,并着重分析了在模式识别中如何利用改进的关联规则算法来挖掘出用户频繁访问的路径和页面兴趣度,为个性化推荐系统模型提供了依据,从而证实了对Web日志数据进行挖掘具有很重要的现实意义。  相似文献   

8.
Web日志信息的预处理是Web日志挖掘任务中的重要阶段,是整个Web日志挖掘过程的基础和实施有效挖掘算法的前提,在Web日志挖掘中起着重要的作用,也是工作量较大的一部分。数据预处理的基本技术,包括数据清理、数据集成和转换、数据归约等。本文介绍了数据预处理中涉及到的数据清理、用户识别、会话识别、路径补充、事务识别等过程,并提出了一种路径补充算法。  相似文献   

9.
王欣如 《计算机科学》2006,33(B12):127-129,168
随着Internet的迅速发展与广泛应用,Web成为一个巨大的、蕴涵着具有潜在价值知识的分布式信息空间,为数据挖掘研究提供了丰富的数据源,同时也提出了新的挑战。该文首先概述了数据挖掘的概念、挖掘算法及其主要应用领域,然后详细阐述了Web内容挖掘、Web结构挖掘和Web日志挖掘的概念和主要的挖掘算法及最新研究进展,最后介绍了Web挖掘的研究方向和发展趋势。  相似文献   

10.
Web使用挖掘的数据预处理   总被引:10,自引:0,他引:10  
Web使用挖掘的基本思想是将数据挖掘技术应用于Web使用数据源。在数据挖掘研究领域中,数据预处理起着至关重要的作用。Web使用挖掘的数据源最主要的是Web日志,介绍了Web日志的具体内容,针对Web日志的特点,介绍预处理过程中一些特殊情况的处理方法,并在事务的识别阶段给出了一种新的最大向前引用序列挖掘算法——剪枝算法。  相似文献   

11.
为了有效地从电子政务网站的Web日志中挖掘民众关注的热点信息, 提出基于区域—频道访问度的民意热点信息挖掘算法——PHIMA算法。该算法在分析目前Web日志挖掘算法存在的问题的基础上, 利用提出的区域—频道访问度概念设计Web访问矩阵, 并基于该矩阵结合区域—频道访问度和灰关联分析法提出。实验表明算法能有效地挖掘民意热点信息, 可用于电子政务网站站点优化、个性化服务和为决策者提供决策支持等。  相似文献   

12.
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的访问模式.数据预处理和日志挖掘算法是Web日志挖掘中的关键技术.文章就此进行了深入的研究,在已知用户访问路径的基础上,提出一种基于MFP算法的日志挖掘算法,并结合实例具体介绍了该算法的执行过程.  相似文献   

13.
Web使用挖掘研究及实现   总被引:4,自引:2,他引:4  
Web使用挖掘并不是简单地把数据挖掘算法应用在Web日志上,由于WWW体系结构的特殊性(包括Web站点上物理路径和逻辑路径的不一致),必须采用一种新的框架来处理挖掘过程。整个挖掘过程可以分为两大部分:ECLF日志预处理和在预处理后的数据集上进行挖掘。文中从应用的角度出发,在分析了这两个过程的具体流程后,给出了一个完整的Web使用模式挖掘解决方案和从Web日志中挖掘关联规则的系统原型。  相似文献   

14.
分析Web日志数据的特点,把时态约束应用到Web日志数据挖掘中可以获得更好的效率。文章从概化的角度给出了一个基于Web日志的时态关联规则挖掘算法,并用一段用户会话事务数据为例,介绍了具体挖掘过程。  相似文献   

15.
Web日志分析系统不仅能改进Web网站结构,提高Web服务器性能,而且能识别用户的喜好、满意度,发现潜在用户,增强网站服务竞争力。介绍了Web日志挖掘的各个阶段,设计并实现了一个Web日志分析系统。分析了传统的频繁项集挖掘算法与序列模式挖掘算法的不足之处,根据日志数据的特性,将用户属性引入频繁项目集的生成过程,有效地减少了候选项集的数目,并根据候选集的特点,逐轮压缩数据库。将连续序列引入到ApiroriAll算法的候选集合并过程中,实现了改进算法。通过实验比较了改进算法与传统算法的效率,证明了改进算法的有效性。  相似文献   

16.
提出一个基于SQL Server2005的Web日志挖掘解决方案.主要应用SSIS将日志数据从文本文件导入数据库.在SQL Server Management Studio中应用SQL语句和存储过程完成日志的预处理,然后应用SSAS完成数据挖掘任务。通过关联规则挖掘算法在web日志的应用实例证明解决方案的有效性.  相似文献   

17.
针对传统的Web service安全性测试方法存在的低效性和盲目性,提出了一种基于Web service日志挖掘的安全关联规则挖掘算法,并阐述了算法的应用环境。通过该算法挖掘出正常行为的关联规则,采用错误注入的方式对Web service注入预先设计的构造算子,并把执行后的日志与关联规则进行比较,进而发现Web service存在的安全性问题。实验结果表明,该算法较大地提高了日志挖掘的效率及覆盖率,同时应用该算法能较好地检测出Web service的安全性问题,进一步表明提出的算法是可行有效的。  相似文献   

18.
.基于规则提取量的Web日志关联规则挖掘方法*   总被引:2,自引:0,他引:2  
引入规则提取量的度量标准,提出一种基于免疫多克隆遗传策略的Web日志关联规则挖掘方法。该算法在遗传算法的基础上引入免疫多克隆算子,有效地克服了遗传算法容易陷入局部最优的缺点,具有更强的全局与局部搜索能力。实验结果表明,该算法能高效地解决Web日志关联规则挖掘问题。  相似文献   

19.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究,包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在Web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号