首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
Web日志挖掘数据预处理过程技术研究   总被引:11,自引:2,他引:11  
在Web数据挖掘研究领域中,Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。本文介绍了面向Web日志的数据挖掘预处理的一般过程并给出了用户识别的算法实现。  相似文献   

2.
Web日志信息的预处理是Web日志挖掘任务中的重要阶段,是整个Web日志挖掘过程的基础和实施有效挖掘算法的前提,在Web日志挖掘中起着重要的作用,也是工作量较大的一部分。数据预处理的基本技术,包括数据清理、数据集成和转换、数据归约等。本文介绍了数据预处理中涉及到的数据清理、用户识别、会话识别、路径补充、事务识别等过程,并提出了一种路径补充算法。  相似文献   

3.
Web用户访问多是匿名访问,Web日志挖掘的主要目标是从Web访问记录中抽取用户行为模式,通过分析挖掘结果理解用户的行为,从而改进站点的结构.Web日志挖掘第一步是进行数据预处理.数据预处理是Web页面分析中最耗时的阶段,首先研究了数据预处理的过程,包括数据清洗、用户识别、会话识别、路径补充.提出了一种路径补充的算法,...  相似文献   

4.
随着Internet的普及,Web日志挖掘成为一个新的研究课题。由于Web日志数据的半结构化,为了得到有效的挖掘模式,提高挖掘算法的效率,首先需要对数据预处理。该文详细介绍了Web日志数据预处理的四个步骤:数据清洗,用户识别,会话识别和路径补充,并实现了对某校院网日志记录的预处理,得到了理想的结果。  相似文献   

5.
陈荣旺  郭红 《福建电脑》2007,(6):19-19,16
数据预处理是Web日志挖掘中的关键和重要一步,文章分析了Web日志挖掘的数据预处理过程,并给出基于日志参引页的用户识别、路径补全算法和基于一种时间窗口模型的会话划分算法。  相似文献   

6.
一种分布式Web日志挖掘系统的设计与实现   总被引:5,自引:1,他引:5  
陶剑文 《计算机仿真》2006,23(10):109-112
Web挖掘已从早期的理论研究逐步转向实用阶段,可以利用对Web日志的挖掘发现用户的浏览模式、分析站点的使用情况。有效的Web日志挖掘工具是Web日志挖掘应用成功的关键。针对Web日志挖掘工具存在的问题与不足,提出了一种新颖的基于移动Agent技术的分布式Web日志挖掘系统(MAWLMS)的体系结构。重点阐述了移动代理层的设计,详细说明了移动Agent挖掘算法的设计与实现,包括最大向前路径识别算法和频繁遍历路径发现算法。最后对MAWLMS系统进行了验证,实验结果显示基于MAWLMS系统的分布式Web日志挖掘是可行且有效的。  相似文献   

7.
针对传统Web访问模式挖掘系统中用户识别和会话识别的复杂性和不准确性,该文提出了基于过滤器的Web访问模式挖掘系统。它能够准确地识别用户和会话,为挖掘算法提供优质的数据。给出了日志过滤器的实现和部署,提出了Web访问模式的挖掘算法。目前该方法已经广泛地应用于科学数据库系统中。  相似文献   

8.
Web日志分析系统不仅能改进Web网站结构,提高Web服务器性能,而且能识别用户的喜好、满意度,发现潜在用户,增强网站服务竞争力。介绍了Web日志挖掘的各个阶段,设计并实现了一个Web日志分析系统。分析了传统的频繁项集挖掘算法与序列模式挖掘算法的不足之处,根据日志数据的特性,将用户属性引入频繁项目集的生成过程,有效地减少了候选项集的数目,并根据候选集的特点,逐轮压缩数据库。将连续序列引入到ApiroriAll算法的候选集合并过程中,实现了改进算法。通过实验比较了改进算法与传统算法的效率,证明了改进算法的有效性。  相似文献   

9.
基于用户访问树的Web日志挖掘数据预处理   总被引:1,自引:0,他引:1  
刘加伶  范军 《计算机科学》2009,36(9):154-156
在Web日志挖掘中数据预处理是整个挖掘过程的基础,直接影响日志挖掘的质量和结果.提出了一种基于用户访问树的Web日志挖掘数据预处理方法,该方法在处理过程中根据Web日志建立用户访问树,并利用用户访问树进行用户和事务识别,从而可以在缺乏网站拓扑结构的情况下准确地对Web日志进行预处理.  相似文献   

10.
Web日志挖掘的数据预处理研究   总被引:7,自引:0,他引:7  
分析了Web日志挖掘的数据预处理过程,提出了基于日志引用页的用户识别算法,并对其性能进行分析,最后给出了应用实例。  相似文献   

11.
Web日志挖掘的预处理过程及算法   总被引:5,自引:1,他引:5  
随着WWW的广泛应用和Web技术的发展,数据挖掘进入一个崭新阶段。本文详细介绍了Web日志挖掘的预处理过程,通过实例分析了预处理方法,并给出了预处理过程中用户识别的算法实现。  相似文献   

12.
基于Web日志的用户访问模式挖掘   总被引:1,自引:0,他引:1  
Web日志挖掘是数据挖掘技术在Web日志数据存储中的应用。论文介绍了Web日志挖掘,在分析发现用户访问模式方法——类Apriori算法的基础上,给出一种基于粗糙集的用户访问模式聚类方法。  相似文献   

13.
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。  相似文献   

14.
基于兴趣度的Web用户访问模式分析   总被引:1,自引:0,他引:1  
吕佳 《计算机工程与设计》2007,28(10):2403-2404,2407
Web日志隐含了用户访问Web行为的动因和规律,如何有效地从中挖掘出用户访问模式是Web日志挖掘的重要研究内容.构造了User_ID-URL矩阵,矩阵元素为用户访问页面的兴趣度.应用经典的模糊C-均值聚类算法进行用户访问模式分析,通过在真实数据集上的实验,结果表明引入了用户兴趣度的日志挖掘算法是行之有效的.  相似文献   

15.
为了有效地从电子政务网站的Web日志中挖掘民众关注的热点信息, 提出基于区域—频道访问度的民意热点信息挖掘算法——PHIMA算法。该算法在分析目前Web日志挖掘算法存在的问题的基础上, 利用提出的区域—频道访问度概念设计Web访问矩阵, 并基于该矩阵结合区域—频道访问度和灰关联分析法提出。实验表明算法能有效地挖掘民意热点信息, 可用于电子政务网站站点优化、个性化服务和为决策者提供决策支持等。  相似文献   

16.
This paper presents a comprehensive survey of web log/usage mining based on over 100 research papers. This is the first survey dedicated exclusively to web log/usage mining. The paper identifies several web log mining sub-topics including specific ones such as data cleaning, user and session identification. Each sub-topic is explained, weaknesses and strong points are discussed and possible solutions are presented. The paper describes examples of web log mining and lists some major web log mining software packages.  相似文献   

17.
Web日志是目前Web数据挖掘的重要研究方向。数据预处理是Web日志挖掘中的关键技术。详细的介绍了Web日志挖掘的预处理过程。数据预处理包括数据清理、识别用户、识别会话和框架页面清理、路径补充。用户识别后,框架页面降低了数据挖掘的效率,可以通过过滤框架页面大幅度减少产生的无效页面数。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号