首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 46 毫秒
1.
数据预处理在Web日志挖掘过程中起着至关重要的作用.论文分析了Web日志挖掘数据预处理的主要步骤,设计了用户识别、访问操作识别和路径完善三个步骤的关键算法.实验结果表明,设计的关键算法是有效的.  相似文献   

2.
Web日志挖掘的预处理及路径补全算法的研究   总被引:9,自引:0,他引:9  
Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用。文章详细介绍了Web日志挖掘的预处理过程。通过实例分析了预处理方法,着重分析其中的路径补全方法。并给出了路径补全的算法实现。  相似文献   

3.
在网络技术高速发展的今天,Web技术得到普及,通过对Web的数据挖掘,用户能够获取到所需要的数据信息、知识,同时能够对用户的访问行为、内容进行深入分析.Web日志挖掘是数据挖掘中的重点内容,借助日志挖掘的数据预处理技术,获取到用户特征,将自身的Web的服务设计进行优化,开展针对性的网络活动.基于此,在本文中对Web日志挖掘中的数据预处理技术进行研究,提出预处理算法.  相似文献   

4.
郭伟刚 《通信学报》2005,26(B01):275-278
对电子商务网站的用户访问模式挖掘中数据预处理阶段所采用的技术做了全面的研究。给出了新的框架网页过滤技术、识别搜索引擎Robot产生的访问记录的技术、会话子序列生成以及用户会话语义序列的生成方法。  相似文献   

5.
对Web日志中用户访问数据的挖掘可以很好的获得系统优化的信息,方便Web站点走向个性化、智能化道路。本文深入了解了Web日志格式的内容,研究了进行Web日志挖掘的一般流程。采取预处理的方式来获得用户有用信息,经过数据清理、用户识别、用户会话识别、界面过滤、路径补充来完成信息的有效汲取,最终通过模式发现和模式分析来完成对使用者感兴趣信息的传送工作,将Web日志挖掘技术真正应用在站点优化进程中。  相似文献   

6.
数据的质量直的好坏接关系到数据挖掘的结果,因此数据预处理是Web日志数据挖掘首要的步骤,基于前期提出的几种数据预处理方法,提出了通用的Web日志挖掘的数据预处理模型,将Web日志数据的预处理分为5个步骤:数据清理、用户标识、会话标识、路径补充和格式化,并结合旅游网站进行了实例验证。证明该数据预处理模型是完全可行,并且具有良好的通用性和可扩展性。  相似文献   

7.
随着互联网的飞速发展,互联网和人们日常的生活、工作、学习等各方面的结合越来越紧密,为使互联网更好的服务于用户(通过Web个性化服务等方式),首先需要了解用户使用互联网的规律性特点,基于Web日志的Web用户行为模式挖掘能解决此问题.目前,Web用户行为模式挖掘仍然是一个新兴的研究领域,其中包含若干需要解决的问题.针对这些问题,在该领域已开展了大量的研究工作.从模式挖掘合理性、模式挖掘结构体系、模式挖掘过程三个方面对Web用户行为模式挖掘中关键问题的研究现状进行了介绍:Web日志中包含了用户访问互联网的一些规律性特征,这些特征可通过Web用户行为模式挖掘的方法得到;为改进模式挖掘、应用的效果,可以采用改进的挖掘结构比如结合内容、结构挖掘的整合结构;Web用户行为模式挖掘过程分为数据预处理、模式挖掘、模式应用三个阶段,这是一个正在发展的研究领域.  相似文献   

8.
Web数据挖掘研究   总被引:3,自引:0,他引:3  
Web数据挖掘是数据挖掘技术与Web的结合。介绍了Web数据挖掘的概念、Web数据挖掘的流程、Web数据挖掘的分类以及3类Web数据挖掘的应用问题。  相似文献   

9.
随着互联网的爆炸式发展,Web日志挖掘作为Web使用挖掘正成为学术界研究的热点。会话识别是Web日志挖掘的关键步骤。传统会话识别方法不能有效地动态适应不同的站点,该文应用自然语言处理常用的N-gram语言模型来实现会话识别,并给出评价方法和应用方案。  相似文献   

10.
新型的Web使用挖掘数据预处理方法   总被引:1,自引:0,他引:1  
许芳  李媛 《信息技术》2016,(4):193-195,200
大数据背景下,Web使用挖掘的目的是通过识别Web数据使用模式更好地为Web应用需求提供服务,高效地处理大数据并从中找到有用的信息,数据预处理是保证Web使用挖掘数据质量的必要阶段。首先,论述了Web使用挖掘数据预处理领域的相关工作;其次提出了在数据挖掘开始之前的接入流数据预处理技术,这项技术能通过识别单独用户和会话来提高数据预处理的性能;最后进行了实验验证。结果表明,文中方法有助于发现来自于用户数据流的有意义的模式和关系,因此具有可行性和有效性。  相似文献   

11.
沈明  邓玉芬  张博 《现代电子技术》2010,33(9):180-183,186
频繁模式挖掘应用广泛,是数据挖掘中的一个重点研究领域,频繁模式挖掘应用的其中一个领域就是基于网页日志的数据挖掘。在网页日志中发现频繁模式的目的是获得用户的网络浏览行为模式,这些信息可以为广告设计以及创建动态用户日志提供参考。从网页数据挖掘的角度研究了三种频繁模式挖掘方式,这三种方式分别是:网页设置、网页序列以及网页图片挖掘。  相似文献   

12.
Web服务器日志中记录了用户的浏览模式,为了从中提取出具有相似访问模式的用户群,对其提供个性化服务,提出一种针对Web日志的分析方法。通过构建UserID-URL关联矩阵,引入加权关联矩阵,提出一种基于加权矩阵的聚类算法——多标记传播算法。实验表明,该算法在Web日志挖掘中进行用户聚类和页面聚类是高效可靠的。  相似文献   

13.
关联规则挖掘是数据挖掘研究领域中的一个重要的方法,旨在挖掘事务数据库中有趣的模式。阐述了Web日志挖掘和关联规则的基本内容,分析了经典Apriori算法的不足之处,提出了改进的算法。另外,利用论坛Web日志数据进行了对比实验,实验结果表明改进后的算法性能有较大提高。将改进后的算法应用于网络论坛的日志挖掘,找出用户的个性化访问模式,从而提高论坛的服务质量。  相似文献   

14.
XML在Web数据挖掘技术中的应用   总被引:3,自引:0,他引:3  
Web数据挖掘已经成为当前被广泛研究的课题.目前很多网站都是用HTML构建的,给Web数据挖掘带来了诸多困难,XML的出现为面向Web的数据挖掘带来了便利.本文介绍了一种充分利用XML的优点对HTML描述的网站进行挖掘的一种方法.  相似文献   

15.
基于多Agent的数据挖掘技术,不仅能够针对不同的Web数据综合采用不同的挖掘算法,而且可以在各站点进行并行挖掘,避免Web通信量过载。在简述Agent技术和Web数据挖掘技术的基础上,结合多Agent和Web数据挖掘,设计出一种新型数据挖掘模型,且进一步阐述了该模型,并做了一些分析测试。结果证明,该方法能有效提高Web数据挖掘的速度、准确率和覆盖率,提高了数据利用率。  相似文献   

16.
Web数据挖掘研究与探讨   总被引:18,自引:0,他引:18  
随着WWW迅猛发展,WWW上的信息量不断增加,如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。由Web数据具有的半结构化特性,使得Web数据挖掘更加复杂,不同于传统的基于数据库的数据挖掘。为了解决这个问题,把数据挖掘的理论和技术应用于WWW,出现了一个新的研究领域——Web数据挖掘。基于Web的数据挖掘主要分为:Web内容挖掘、Web结构挖掘和Web使用记录的挖掘。综述了基于Web的数据挖掘技术概念与原理,并且介绍用以Web数据挖掘实现的一种全新的技术——XML。如何进一步开发Web数据挖掘,充分利用Web资源,还有待于进一步的研究。Web数据挖掘的研究具有极大的挑战性,同时又具有极大的开发潜力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号