首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
对Web日志中用户访问数据的挖掘可以很好的获得系统优化的信息,方便Web站点走向个性化、智能化道路。本文深入了解了Web日志格式的内容,研究了进行Web日志挖掘的一般流程。采取预处理的方式来获得用户有用信息,经过数据清理、用户识别、用户会话识别、界面过滤、路径补充来完成信息的有效汲取,最终通过模式发现和模式分析来完成对使用者感兴趣信息的传送工作,将Web日志挖掘技术真正应用在站点优化进程中。  相似文献   

2.
数据预处理在Web日志挖掘过程中起着至关重要的作用.论文分析了Web日志挖掘数据预处理的主要步骤,设计了用户识别、访问操作识别和路径完善三个步骤的关键算法.实验结果表明,设计的关键算法是有效的.  相似文献   

3.
Web日志挖掘的预处理及路径补全算法的研究   总被引:9,自引:0,他引:9  
Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用。文章详细介绍了Web日志挖掘的预处理过程。通过实例分析了预处理方法,着重分析其中的路径补全方法。并给出了路径补全的算法实现。  相似文献   

4.
数据的质量直的好坏接关系到数据挖掘的结果,因此数据预处理是Web日志数据挖掘首要的步骤,基于前期提出的几种数据预处理方法,提出了通用的Web日志挖掘的数据预处理模型,将Web日志数据的预处理分为5个步骤:数据清理、用户标识、会话标识、路径补充和格式化,并结合旅游网站进行了实例验证。证明该数据预处理模型是完全可行,并且具有良好的通用性和可扩展性。  相似文献   

5.
Web日志挖掘是Web数据挖掘的一个重要研究领域。Web日志挖掘通过发现Web日志中用户的访问规律和模式,可以提取出其中潜在的规律和信息,人们对这个领域的研究也日益重视。然而,传统的基于关联规则的Web日志挖掘算法都是基于所有关联规则的。这种方式往往挖掘产生大量的候选规则,而且存在大量冗余的规则。提出了一种新的无冗余的Web日志挖掘算法,该算法通过引入频繁闭项集合最小关联规则的概念,从而解决了以往基于所有关联规则挖掘算法中出现的上述问题。  相似文献   

6.
Web日志预处理是Web日志挖掘的重要步骤,是通过Web日志获得准确信息的前提,直接影响后续的挖掘算法精确性.本文针对海量Web日志,提出并基于分布式计算平台Hadoop实现了一种改进的Web日志预处理方法.通过Hadoop平台与单机的性能对比,证明了Hadoop进行Web日志预处理的高效性.  相似文献   

7.
根据Web日志挖掘的特点,介绍了Web数据挖掘的分类和过程.将关联规则应用到日志挖掘算法中,并利用云理论对关联规则算法进行优化,使之更能符合人的思维方式.  相似文献   

8.
针对高校的信息资源检索的命中率低问题提出了运用Web使用记录挖掘的高校图书馆搜索引擎。通过采用Web使用记录挖掘技术和Clementine对高校图书馆网站的Web访问日志记录进行挖掘。在Web使用记录挖掘流程中,提出一个基于用户IP、登陆时间、网站的拓扑图、引用网页和Agent来识别出单个用户的新算法,获得有效提高识别用户的实验结果。最后用路径分析来挖掘模式,优化网站结构,从而提高高校图书馆搜索引擎的命中率。  相似文献   

9.
传统的用于Web日志聚类的算法大都需要用户指定聚类个数。提出了一种新的自适应聚类算法并对Web日志用户会话进行聚类。该算法基于凝聚聚类思想和划分聚类思想,用初始数据集中每2个会话之间的相异度作为距离的度量,合并距离小于一定阈值的两个会话以产生初始聚类,再根据一定的规则动态地合并距离最小的会话类或会话,算法的结果是产生自然的聚类。最后,通过比较会话聚类的内部距离和类间距离来验证算法的有效性。这种聚类算法的最大优点在于,他能够产生自动的聚类,而不需要用户事先指定需要产生的聚类个数,并且能有效识别孤立点。实验表明,这种聚类能够产生较高质量的聚类效果。  相似文献   

10.
Web日志挖掘中预处理过程的具体研究   总被引:1,自引:1,他引:0  
Web日志的数据预处理是Web日志挖掘过程中基础而关键的一步,对之后的模式识别和模式分析有着很大的影响。为了达到有效处理数据的目的,针对此预处理过程中的5个步骤逐一进行分析,并在事务识别这一步骤中,比较了常用的两种算法。最后,基于这些算法思想,在Windows平台下,采用Java语言实现了Web日志预处理。实验结果表明是有效的。  相似文献   

11.
随着数据挖掘技术的广泛研究和应用,Web挖掘中的Web的日志挖掘也显得越来越重要了。利用粗集理论和支持向量机的方法,形成一个有效的处理Web日志信息的模型。首先利用粗集理论对日志信息进行约简的预处理,然后通过支持向量机的方法训学习练数据,训练出来的数据可以对用户的访问信息进行分析预测。  相似文献   

12.
一种基于Web日志用户浏览模式的数据挖掘   总被引:1,自引:0,他引:1  
Web日志中包含了大量的用户浏览信息,如何有效地从其中挖掘出用户浏览兴趣模式是一个重要的研究课题.本文研究了Web日志挖掘的机理,在分析挖掘频繁遍历路径的问题特征和对其进行形式化描述的基础上,进一步提出了一种在Web日志中挖掘频繁遍历路径算法,该算法能够正确、快速地从Web日志中抽取频繁遍历路径.  相似文献   

13.
伍东  李建  吴波 《现代电子技术》2006,29(21):89-91
通过聚类方法分析用户的行为模式(喜好和习惯),对Web日志数据进行数据净化、用户识别、会话识别、帧页面识别和路径补充,然后自动生成动态的链接,让用户能迅速地从数量庞大的网站网页中找到自己喜欢的、想要的数据,从而节约了用户的网络资源和时间,也提升了网站的竞争能力。  相似文献   

14.
在网络技术高速发展的今天,Web技术得到普及,通过对Web的数据挖掘,用户能够获取到所需要的数据信息、知识,同时能够对用户的访问行为、内容进行深入分析.Web日志挖掘是数据挖掘中的重点内容,借助日志挖掘的数据预处理技术,获取到用户特征,将自身的Web的服务设计进行优化,开展针对性的网络活动.基于此,在本文中对Web日志挖掘中的数据预处理技术进行研究,提出预处理算法.  相似文献   

15.
随着互联网的飞速发展,互联网和人们日常的生活、工作、学习等各方面的结合越来越紧密,为使互联网更好的服务于用户(通过Web个性化服务等方式),首先需要了解用户使用互联网的规律性特点,基于Web日志的Web用户行为模式挖掘能解决此问题.目前,Web用户行为模式挖掘仍然是一个新兴的研究领域,其中包含若干需要解决的问题.针对这些问题,在该领域已开展了大量的研究工作.从模式挖掘合理性、模式挖掘结构体系、模式挖掘过程三个方面对Web用户行为模式挖掘中关键问题的研究现状进行了介绍:Web日志中包含了用户访问互联网的一些规律性特征,这些特征可通过Web用户行为模式挖掘的方法得到;为改进模式挖掘、应用的效果,可以采用改进的挖掘结构比如结合内容、结构挖掘的整合结构;Web用户行为模式挖掘过程分为数据预处理、模式挖掘、模式应用三个阶段,这是一个正在发展的研究领域.  相似文献   

16.
关联规则挖掘是数据挖掘研究领域中的一个重要的方法,旨在挖掘事务数据库中有趣的模式。阐述了Web日志挖掘和关联规则的基本内容,分析了经典Apriori算法的不足之处,提出了改进的算法。另外,利用论坛Web日志数据进行了对比实验,实验结果表明改进后的算法性能有较大提高。将改进后的算法应用于网络论坛的日志挖掘,找出用户的个性化访问模式,从而提高论坛的服务质量。  相似文献   

17.
为提高Web用户会话识别的准确性,给出了一种基于概率潜在语义分析模型(PLSA)和竞争奖罚(CRP)算法的Web用户会话识别方法.其核心内容是利用PLSA模型计算出请求页面和每一个活动用户会话的概率,比较概率判定请求页面应该归属的用户会话,并采用竞争奖罚算法判别用户会话的结束.实验结果表明:基于PLSA模型和竞争奖罚算法的用户会话识别方法的识别成功率高于其他常用的会话识别方法.  相似文献   

18.
针对女之海交友广场网站日志挖掘的具体需求,设计和开发了一个用于会员宣传的Web日志挖掘系统。结合自动获取的网站拓扑结构,对站点日志数据进行关联规则挖掘,以便更好地确定宣传的时间、地区、所针对的用户群年龄特征以及相应的会员信息内容等,系统实现了预期的挖掘任务和目的。  相似文献   

19.
基于数据挖掘的Web服务器攻击检测   总被引:1,自引:0,他引:1  
随着Web技术的飞速发展,越来越多的单位使用Web方式为用户提供服务,黑客的矛头也逐渐转向了Web服务器。文中研究了如何使用数据挖掘的方法对Web服务器日志进行安全性分析,从而快速发现攻击,并针对Web服务器日志特有的格式,对现有的基于相似系数的异常点检测算法进行了改进,使其符合研究的要求,同时构建了两个安全性分析的数据挖掘模型。通过对现有Web日志记录的挖掘,验证了所述方法的可行性。  相似文献   

20.
Web服务器日志中记录了用户的浏览模式,为了从中提取出具有相似访问模式的用户群,对其提供个性化服务,提出一种针对Web日志的分析方法。通过构建UserID-URL关联矩阵,引入加权关联矩阵,提出一种基于加权矩阵的聚类算法——多标记传播算法。实验表明,该算法在Web日志挖掘中进行用户聚类和页面聚类是高效可靠的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号