首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对高校的信息资源检索的命中率低问题提出了运用Web使用记录挖掘的高校图书馆搜索引擎。通过采用Web使用记录挖掘技术和Clementine对高校图书馆网站的Web访问日志记录进行挖掘。在Web使用记录挖掘流程中,提出一个基于用户IP、登陆时间、网站的拓扑图、引用网页和Agent来识别出单个用户的新算法,获得有效提高识别用户的实验结果。最后用路径分析来挖掘模式,优化网站结构,从而提高高校图书馆搜索引擎的命中率。  相似文献   

2.
数据预处理在Web日志挖掘过程中起着至关重要的作用.论文分析了Web日志挖掘数据预处理的主要步骤,设计了用户识别、访问操作识别和路径完善三个步骤的关键算法.实验结果表明,设计的关键算法是有效的.  相似文献   

3.
随着互联网的爆炸式发展,Web日志挖掘作为Web使用挖掘正成为学术界研究的热点。会话识别是Web日志挖掘的关键步骤。传统会话识别方法不能有效地动态适应不同的站点,该文应用自然语言处理常用的N-gram语言模型来实现会话识别,并给出评价方法和应用方案。  相似文献   

4.
在网络技术高速发展的今天,Web技术得到普及,通过对Web的数据挖掘,用户能够获取到所需要的数据信息、知识,同时能够对用户的访问行为、内容进行深入分析.Web日志挖掘是数据挖掘中的重点内容,借助日志挖掘的数据预处理技术,获取到用户特征,将自身的Web的服务设计进行优化,开展针对性的网络活动.基于此,在本文中对Web日志挖掘中的数据预处理技术进行研究,提出预处理算法.  相似文献   

5.
Web日志挖掘是Web数据挖掘的一个重要研究领域。Web日志挖掘通过发现Web日志中用户的访问规律和模式,可以提取出其中潜在的规律和信息,人们对这个领域的研究也日益重视。然而,传统的基于关联规则的Web日志挖掘算法都是基于所有关联规则的。这种方式往往挖掘产生大量的候选规则,而且存在大量冗余的规则。提出了一种新的无冗余的Web日志挖掘算法,该算法通过引入频繁闭项集合最小关联规则的概念,从而解决了以往基于所有关联规则挖掘算法中出现的上述问题。  相似文献   

6.
一种基于Web日志用户浏览模式的数据挖掘   总被引:1,自引:0,他引:1  
Web日志中包含了大量的用户浏览信息,如何有效地从其中挖掘出用户浏览兴趣模式是一个重要的研究课题.本文研究了Web日志挖掘的机理,在分析挖掘频繁遍历路径的问题特征和对其进行形式化描述的基础上,进一步提出了一种在Web日志中挖掘频繁遍历路径算法,该算法能够正确、快速地从Web日志中抽取频繁遍历路径.  相似文献   

7.
随着数据挖掘技术的广泛研究和应用,Web挖掘中的Web的日志挖掘也显得越来越重要了。利用粗集理论和支持向量机的方法,形成一个有效的处理Web日志信息的模型。首先利用粗集理论对日志信息进行约简的预处理,然后通过支持向量机的方法训学习练数据,训练出来的数据可以对用户的访问信息进行分析预测。  相似文献   

8.
基于用户浏览行为度量浏览兴趣的研究   总被引:1,自引:0,他引:1  
准确地度量用户浏览兴趣是Web使用模式挖掘的基础,本文针对Web使用模式挖掘,首先分析了已有的度量用户浏览兴趣方式的不足之处,提出了一种基于用户浏览行为度量用户浏览兴趣的方法。分析了现有Web使用模式挖掘的数据采集方式,提出了一种综合利用服务器日志文件和客户端数据获取用户浏览信息的方法,从用户浏览网站的数据中抽取感兴趣的模式,理解用户的浏览兴趣行为,以便进一步改善网站结构或为用户提供个性化的服务。  相似文献   

9.
文章提出了一种基于ISODATA的用户访问路径聚类算法,根据用户的访问兴趣定义了相似性测量手段和聚类中心。在对Web站点的访问日志进行事务识别后,根据群体用户对Web站点的访问顺序进行聚类,则每一个聚类集反映出该聚类集中的全体用户具有相似的访问兴趣。  相似文献   

10.
针对女之海交友广场网站日志挖掘的具体需求,设计和开发了一个用于会员宣传的Web日志挖掘系统。结合自动获取的网站拓扑结构,对站点日志数据进行关联规则挖掘,以便更好地确定宣传的时间、地区、所针对的用户群年龄特征以及相应的会员信息内容等,系统实现了预期的挖掘任务和目的。  相似文献   

11.
罗超 《信息技术》2004,28(11):4-7
利用Web日志文件,采用LossyCounting算法对用户频繁浏览路径进行挖掘。在设计中,根据频繁路径挖掘的实际情况对算法进行了优化和改进。实验表明该方法能快速准确地发现用户频繁浏览路径,且具有较好的可扩展性,适用于电子商务网站的站点优化和个性化服务等。  相似文献   

12.
Web日志预处理是Web日志挖掘的重要步骤,是通过Web日志获得准确信息的前提,直接影响后续的挖掘算法精确性.本文针对海量Web日志,提出并基于分布式计算平台Hadoop实现了一种改进的Web日志预处理方法.通过Hadoop平台与单机的性能对比,证明了Hadoop进行Web日志预处理的高效性.  相似文献   

13.
许芳  李媛 《信息技术》2016,(4):193-195,200
大数据背景下,Web使用挖掘的目的是通过识别Web数据使用模式更好地为Web应用需求提供服务,高效地处理大数据并从中找到有用的信息,数据预处理是保证Web使用挖掘数据质量的必要阶段。首先,论述了Web使用挖掘数据预处理领域的相关工作;其次提出了在数据挖掘开始之前的接入流数据预处理技术,这项技术能通过识别单独用户和会话来提高数据预处理的性能;最后进行了实验验证。结果表明,文中方法有助于发现来自于用户数据流的有意义的模式和关系,因此具有可行性和有效性。  相似文献   

14.
随着互联网的飞速发展,互联网和人们日常的生活、工作、学习等各方面的结合越来越紧密,为使互联网更好的服务于用户(通过Web个性化服务等方式),首先需要了解用户使用互联网的规律性特点,基于Web日志的Web用户行为模式挖掘能解决此问题.目前,Web用户行为模式挖掘仍然是一个新兴的研究领域,其中包含若干需要解决的问题.针对这些问题,在该领域已开展了大量的研究工作.从模式挖掘合理性、模式挖掘结构体系、模式挖掘过程三个方面对Web用户行为模式挖掘中关键问题的研究现状进行了介绍:Web日志中包含了用户访问互联网的一些规律性特征,这些特征可通过Web用户行为模式挖掘的方法得到;为改进模式挖掘、应用的效果,可以采用改进的挖掘结构比如结合内容、结构挖掘的整合结构;Web用户行为模式挖掘过程分为数据预处理、模式挖掘、模式应用三个阶段,这是一个正在发展的研究领域.  相似文献   

15.
沈明  邓玉芬  张博 《现代电子技术》2010,33(9):180-183,186
频繁模式挖掘应用广泛,是数据挖掘中的一个重点研究领域,频繁模式挖掘应用的其中一个领域就是基于网页日志的数据挖掘。在网页日志中发现频繁模式的目的是获得用户的网络浏览行为模式,这些信息可以为广告设计以及创建动态用户日志提供参考。从网页数据挖掘的角度研究了三种频繁模式挖掘方式,这三种方式分别是:网页设置、网页序列以及网页图片挖掘。  相似文献   

16.
一个网站有多个网页组成,网站上的信息分布在这些网页上,不同的用户对不同的网页上的信息感兴趣,如何满足用户对敏感网页的高效访问,我们提出一个基于使用挖掘的Web站点个性化信息服务系统来解决问题.利用Web使用挖掘技术来分析用户的浏览模式,根据用户的当前访问需要,自动实时地为用户提供推荐页面,实现个性化服务.  相似文献   

17.
Web日志挖掘中预处理过程的具体研究   总被引:1,自引:1,他引:0  
Web日志的数据预处理是Web日志挖掘过程中基础而关键的一步,对之后的模式识别和模式分析有着很大的影响。为了达到有效处理数据的目的,针对此预处理过程中的5个步骤逐一进行分析,并在事务识别这一步骤中,比较了常用的两种算法。最后,基于这些算法思想,在Windows平台下,采用Java语言实现了Web日志预处理。实验结果表明是有效的。  相似文献   

18.
基于Web使用数据挖掘的个性化推荐系统设计   总被引:1,自引:0,他引:1  
Web使用挖掘是实现个性化推荐系统的有效途径。通过对网站日志数据进行挖掘发现频繁访问模式,再结合活动用户的访问页面序列来实现个性化的在线推荐。本文从体系架构及功能模块两个方面进行分析,提出了基于Web使用数据挖掘的个性化推荐系统架构。它包括三个方面:数据预处理、频繁访问路径挖掘及在线推荐。  相似文献   

19.
Web日志挖掘的预处理及路径补全算法的研究   总被引:9,自引:0,他引:9  
Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用。文章详细介绍了Web日志挖掘的预处理过程。通过实例分析了预处理方法,着重分析其中的路径补全方法。并给出了路径补全的算法实现。  相似文献   

20.
文章提出了一种Web日志分析中数据预处理阶段用户识别的新算法。这种算法基于用户浏览行为的建模,能够很好地处理同一用户在不同地点上网情况下的用户识别问题。本算法通过归一化的支持度指标来选择最能代表用户浏览行为的行为模式,并用布尔编码的方式提取特征。用户间的相似度采用余弦相似方法计算,并利用KNN(K=I)的分类方法来识别用户。在特定构造的数据集上的实验表明文章提出的算法能够不依赖于IP信息识别用户并具有较好的识别率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号