首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 120 毫秒
1.
基于用户访问树的Web日志挖掘数据预处理   总被引:1,自引:0,他引:1  
刘加伶  范军 《计算机科学》2009,36(9):154-156
在Web日志挖掘中数据预处理是整个挖掘过程的基础,直接影响日志挖掘的质量和结果.提出了一种基于用户访问树的Web日志挖掘数据预处理方法,该方法在处理过程中根据Web日志建立用户访问树,并利用用户访问树进行用户和事务识别,从而可以在缺乏网站拓扑结构的情况下准确地对Web日志进行预处理.  相似文献   

2.
文章在分析Web日志的基础上,结合西华师范大学计算机学院WWW站点的访问日志,主要论述了在Web日志挖掘前所做的准备工作--数据预处理.数据预处理是整个Web日志挖掘过程的基础和实施有效挖掘算法的前提,在Web日志挖掘中起着重要的作用.  相似文献   

3.
Web用户访问多是匿名访问,Web日志挖掘的主要目标是从Web访问记录中抽取用户行为模式,通过分析挖掘结果理解用户的行为,从而改进站点的结构.Web日志挖掘第一步是进行数据预处理.数据预处理是Web页面分析中最耗时的阶段,首先研究了数据预处理的过程,包括数据清洗、用户识别、会话识别、路径补充.提出了一种路径补充的算法,...  相似文献   

4.
Web日志中保存着用户访问网站的大量信息,通过挖掘预处理后的日志数据,可以得到用户聚类,URL聚类以及用户频繁访问路径等诸多有用信息。本文先分析处理网站的日志数据,再阐述了Web日志挖掘的算法,最后讨论了Web日志挖掘的应用。  相似文献   

5.
Web日志挖掘可以使我们发现Web用户潜在的使用规律和模式。为了将存在着缺失、错误、噪音的原始Web日志数据转化为可靠、完整、准确的用户访问事务数据库,数据预处理工作是十分关键和重要的一步。文章就Web日志挖掘的预处理模型进行了深入的研究,并将其应用到实际日志数据预处理中,得到了理想的结果。  相似文献   

6.
一种基于Web日志文件的信息挖掘方法   总被引:19,自引:1,他引:19  
数据预处理和日志挖掘算法是Web日志挖掘中的关键技术。文中根据Web访问模式的用户特征,提出了一种基于Web日志文件的信息挖掘系统的体系结构。在此基础上,分析了其数据挖掘过程和信息挖掘算法。  相似文献   

7.
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的访问模式.数据预处理和日志挖掘算法是Web日志挖掘中的关键技术.文章就此进行了深入的研究,在已知用户访问路径的基础上,提出一种基于MFP算法的日志挖掘算法,并结合实例具体介绍了该算法的执行过程.  相似文献   

8.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究,包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在Web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

9.
本文旨在研究基于Web环境下利用关联规则对Web日志挖掘的数据分析系统。把关联规则的概念引入到Web日志挖掘中,将用户的访问路径以关联规则的形式表现出来,其目的在于从用户访问超文本系统的行为中发现用户的访问模式。然后在Apriori挖掘算法思想的基础上,对其改造,给出了适合挖掘用户访问频繁路径的类Apriori算法。最后设计开发了一个Web日志数据分析系统。此系统主要包含三个功能模块:数据预处理模块、智能分析模块和基本分析模块  相似文献   

10.
Web日志挖掘是目前Web挖掘研究的一个重点.针对Web日志挖掘中存在的问题,给出了基于数据仓库技术的Web日志挖掘方案,就数据预处理、数据立方体设计及数据挖掘技术的应用进行了较为深入的探讨.并以一个Web站点日志为例,详细阐述了Web日志数据预处理、Web日志立方体设计以及数据挖掘算法的实现过程,并实现了一个Web日志多维数据集,能够有效解决Web日志分析中的难题.  相似文献   

11.
Web日志预处理因其输出结果的重要性而受到越来越多的重视,同时Hadoop对海量数据的分布式处理也得到广泛研究和应用,因此使用MapReduce进行Web日志预处理成为一种必然的发展趋势。为了提高会话识别结果的准确率,在分析会话识别算法研究现状的基础上,提出一种基于网络拓扑结构和动态阈值相结合的新会话识别方法并讨论其优势所在,接着用MapReduce模型实现新方法的分布式处理,最后通过对比实验分析验证MapReduce模型实现新算法的高效性和高精确度。  相似文献   

12.
运行在服务器集群的软件系统需要Web日志的大规模数据集以满足性能测试的需求,但现有仿真生成算法因模型单一而无法满足要求。针对此问题,提出一种基于alpha稳态过程的多分形Web日志的仿真生成算法。首先,在长相关尺度(LRD)下采用alpha稳态过程来描述Web日志的自相似性;其次,在短相关尺度(RSD)下采用二项式b模型描述Web日志的多重分形性;最后,将长相关模型和短相关模型融合于改进的ON/OFF框架中。与单一的模型相比,新算法的参数物理意义明确,具有良好的自相似性和多分形性。实验结果表明,该算法能够较准确地模拟真实Web日志,可以有效地应用于Web日志大规模数据集的仿真生成。  相似文献   

13.
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。  相似文献   

14.
秦东霞  姚遥 《电脑学习》2012,2(1):31-34
Web日志挖掘是Web数据挖掘的一个重要研究领域。Web日志挖掘通过发现Web日志中用户的访问规律和模式,可以提取出其中潜在的规律和信息,人们对这个领域的研究也日益重视。然而,传统的基于关联规则的Web日志挖掘算法都是基于所有关联规则的。这种方式往往挖掘产生大量的候选规则,而且存在大量冗余的规则。提出了一种新的无冗余的Web日志挖掘算法,该算法通过引入频繁闭项集合最小关联规则的概念,从而解决了以往基于所有关联规则挖掘算法中出现的上述问题。  相似文献   

15.
彭行雄  肖如良 《计算机应用》2016,36(12):3476-3480
针对仿真生成算法采用静态分布模型生成Web日志,会造成与真实数据之间存在较大差异的问题,提出一种基于用户兴趣迁移的Web日志仿真生成(WLSG)算法。该算法首先对Web日志与时间的关系进行了建模;其次,模拟了用户在不同时间访问文件时用户的兴趣迁移;最后,也模拟了用户自适应访问当前时刻最感兴趣的文件。相对于现有的采用静态分布模型的仿真算法,所提算法能够提高自相似性指标约2.86%。实验结果表明,该算法通过用户的兴趣迁移来改变用户的访问序列,能够较好地模拟真实Web日志,有效地应用于Web日志的仿真生成。  相似文献   

16.
基于兴趣特征的WUM数据预处理方法   总被引:2,自引:0,他引:2  
杨明花  古志民 《计算机应用》2006,26(10):2393-2394
为了降低数据规模,并从行为日志中发现更有推荐价值的访问模式,提出了基于用户兴趣特征的数据预处理方法。该方法过滤不具有推荐价值的、用户因偶然发生的短期兴趣而访问网络的行为记录。实验结果表明该方法能够较好地降低数据规模,过滤掉噪音数据,从而减小代理端日志挖掘的复杂度,提高基于Web使用挖掘(WUM)进行个性化推荐的准确度。  相似文献   

17.
针对传统的Web service安全性测试方法存在的低效性和盲目性,提出了一种基于Web service日志挖掘的安全关联规则挖掘算法,并阐述了算法的应用环境。通过该算法挖掘出正常行为的关联规则,采用错误注入的方式对Web service注入预先设计的构造算子,并把执行后的日志与关联规则进行比较,进而发现Web service存在的安全性问题。实验结果表明,该算法较大地提高了日志挖掘的效率及覆盖率,同时应用该算法能较好地检测出Web service的安全性问题,进一步表明提出的算法是可行有效的。  相似文献   

18.
为降低传统FCM算法的计算复杂性,提高Web用户聚类的效果,文中提出了一种改进的基于特征属性的Web用户模糊聚类算法。首先通过用户访问页面的次数和时间建立Web用户兴趣度矩阵,并根据商品的特征属性值将Web用户兴趣度矩阵映射为用户对特征属性的偏好矩阵,从而有效降低数据稀疏性;然后以此为数据集,对传统的FCM算法进行了改进,将聚类中心分为活动和稳定两种,忽略稳定聚类中的距离计算以降低计算复杂性。最后通过仿真实验证实了新算法的有效性和可行性。  相似文献   

19.
基于距离的异常数据挖掘算法及其应用   总被引:6,自引:0,他引:6  
给出了基于距离的异常数据的数量化定义,提出了基于距离的多指标的异常数据挖掘算法,这种算法适合于一般的海量数据库中的数据分析,以学生考试成绩作为实例进行了分析,可以从中动态地挖掘异常数据。作为特例,把单指标的异常数据挖掘算法应用于校园网Web服务器日志文件,给出了上网用户的频率分析图。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号