首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
有序概念格与WWW用户访问模式的增量挖掘   总被引:7,自引:1,他引:7  
访问模式是用户沿URL超链寻找和浏览网页规律的总结 ,发现用户访问模式对于帮助用户快速到达目标页面 ,进而实现搜索引擎的个性化导航具有重要意义 目前虽有一些挖掘用户访问模式的工作 ,但尚未发现能够处理增量数据的系统化挖掘算法 用户访问模式挖掘可由如下 3个步骤完成 :①由日志库提取最大向前关联路径 ,②由最大向前关联路径发现频繁关联路径序列 ,③由频繁关联路径序列得到最大频繁关联路径序列 ,其中②是问题的核心 为得到系统化算法 ,对概念格模型加以顺序约束 ,提出了有序概念格 ,并将其用于Web访问模式的增量发掘 给出了增量式高效挖掘算法 ,并与相关工作进行了比较 ,对合成数据和实际数据的实验结果验证了算法的有效性  相似文献   

2.
用户访问模式挖掘中数据预处理问题的研究   总被引:5,自引:0,他引:5  
首先给出了用户访问模式挖掘的概念,然后主要对用户访问模式挖掘中的数据预处理工作中碰到的一些问题及对这些问题的解决方法进行了较为详细的描述。  相似文献   

3.
电子商务网站用户访问模式挖掘中的预处理技术   总被引:6,自引:0,他引:6  
郭伟刚 《计算机应用》2005,25(3):691-694
对电子商务网站的用户访问模式挖掘中数据预处理阶段所采用的技术做了全面的研究,主要包括源数据的采集方法以及数据清理、用户识别、会话识别、事务识别、会话子序列生成等所采用的技术。并给出了框架网页过滤、识别搜索引擎Robot产生的访问记录,以及生成用户会话语义序列的方法。  相似文献   

4.
挖掘用户偏爱的浏览模式就是从Web日志中发现多数用户偏爱的浏览路径.网页上的浏览时间被转换成一个模糊语言变量来体现网页上浏览时间的特征,最后从建立的包含所有用户浏览信息的FLaAT(Frequent Link and Access Tree)中挖掘增量式带有模糊语言变量的用户偏爱浏览模式.  相似文献   

5.
Web用户访问模式挖掘研究   总被引:5,自引:0,他引:5  
1 引言目前World Wide Web(WWW)已经发展成为拥有近亿个工作站、数十亿页面的分布式信息空间,在这个分布式信息空间中蕴涵着具有巨大潜在价值的知识,也带来了巨大的经济效益和社会效益。对于不同层次、不同使用目的和爱好的浏览者需要个性化的信息服务,希望网站能够根据自己的浏览习惯,动态定制  相似文献   

6.
基于概念格的Web日志路径挖掘算法   总被引:1,自引:0,他引:1  
杨飞 《计算机科学》2004,31(3):115-117
路径挖掘适用于探索用户沿超连接寻找和浏览网页的规律,而Web日志的完美结构使挖掘更加容易和有效。由二元关系导出的概念格作为一种非常有用的形式化工具,体现了概念内涵和外延的统一,反映了对象和特征间的联系以及概念的泛化与例化关系,因此非常适于发现数据中潜在的信息。本文通过概念格模型,提出了一种Web日志的路径挖掘算法,并进行了相关的分析与展望。  相似文献   

7.
随着Internet的迅速发展,Web站点的访问用户越来越多样化,不同种类用户的访问模式有所不同.提出一种基于会话分类的Web用户访问模式挖掘方法.这套方法把用户会话划分为人类用户会话、网络爬虫会话和资源下载类用户会话三大类,在此基础上分别对3类用户的访问模式进行挖掘.通过会话分类可以提高挖掘的效率与准确性.其中重点研究了人类用户的访问模式挖掘,提出一种基于用户访问路径树的事务识别方法,并对PrefixSpan算法进行了改进.这套方法在实验中取得了很好的挖掘效果.  相似文献   

8.
一种新的Web频繁访问模式挖掘算法   总被引:1,自引:0,他引:1  
提出了一种基于有向图的从Web日志中挖掘用户频繁访问模式的新算法,与传统使用基于关联规则挖掘的序列模式挖掘技术相比,本算法采用有向图来记录Web访问序列和它的计数,在挖掘过程中只需要扫描数据库一次,不产生数量庞大的候选模式,即可直接挖掘出所有的Web频繁访问路径,大大提高了Web访问模式的发现效率。  相似文献   

9.
一种基于Close模式发现用户频繁访问路径的方法   总被引:1,自引:0,他引:1       下载免费PDF全文
Web日志挖掘的一个主要任务是获得用户的浏览模式,这对Web站点的改进和为用户提供个性化服务提供了非常有价值的潜在信息。该文在分析用户访问模式的特点后,提出了Close模式的概念,基于此概念提出了一种挖掘用户频繁访问模式的Close算法。该算法利用频繁访问模式的封闭特性,挖掘出既是频繁的又是封闭的访问模式,在一定程度上减少了下一阶段“寻找最大频繁访问模式”的工作量。用实际数据对算法的性能进行了验证和分析。  相似文献   

10.
Web日志挖掘的一个主要任务是获得用户的浏览模式,这对Web站点的改进和为用户提供个性化服务提供了有价值的潜在信息.本文提出了一种改进算法--RD_Close.该算法对数据挖掘中的Close方法进行了改进,并引入了RD_Apriori方法中缩减数据库的思想.这种改进算法能有效发现用户频繁访问模式.最后,用实际数据对算法性能进行了充分验证和深入分析.  相似文献   

11.
从Web日志挖掘存在的困难和不足出发,结合电子商务个性化服务的特点,引入用户访问记录进行Web挖掘,提出了一种Web挖掘中数据采集与预处理的新思路,指出了该思路的实现方法和特点。提出了引入用户访问记录后的Web挖掘体系结构。  相似文献   

12.
基于自顶向下的投影挖掘策略,提出一种无需多遍扫描数据库的Web访问模式算法TAM-WAP.其特点是用当前所挖掘数据的特征去驱动一个预测算法,根据预测结果,有选择性地生成中间数据.对多种实际数据和模拟数据的实验表明,本文算法优于传统算法.  相似文献   

13.
建立用户兴趣模型是实现个性化服务的关键技术之一.利用Web挖掘的方法,针对用户的兴趣变化,结合用户浏览Web页面的日期和相应Web页面特征项的词频,来建立用户长期和短期兴趣,并且通过模拟实验,验证该方法的有效性.  相似文献   

14.
Web访问挖掘预处理的用户识别算法   总被引:1,自引:0,他引:1  
Web访问挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。该文主要对Web挖掘技术中的预处理过程进行了研究,着重分析了其中的用户识别方法,并给出了一个用户识别的通用算法。  相似文献   

15.
用户Web日志序列模式挖掘研究   总被引:2,自引:0,他引:2  
李林  崔志明 《微机发展》2005,15(5):119-121,157
单个用户访问网站能够留下大量的访问信息,合理地挖掘这些信息便能够得到用户个人的访问模式。文中将序列模式挖掘运用到单一用户Web日志上.最终可以得到单一用户的访问序列模式。在序列模式挖掘过程中,将传统的序列模式挖掘概念进行了扩充,对应到单一用户的序列模式上;运用Session来划分时间段,增强了时间的概念;运用概念格的理论,很好地实现了增量序列模式挖掘。并使用一个新的算法,解决MFP(最大前向路径)在Web日志中获取存在的一些问题。  相似文献   

16.
通过对电子商务中服务器上的日志文件等Web数据进行客户访问信息的分析,重点研究了客户分析系统的数据采集、数据处理以及跟踪客户在Web上的浏览行为并进行模式分析,并构建了用户访问模式的挖掘模型及算法的分析与实现。  相似文献   

17.
为提高搜索引擎的个性化信息检索能力,通过构建个人兴趣搜索智能agent子系统SSPISIA来搜集、组织、挖掘和应用用户的个人兴趣信息。着重介绍了SSPISIA的实现,包括逻辑组成、学习方式、工作过程以及基于页面浏览时间和内容选择的个人兴趣度量规则,并在此基础上给出了基于SSPISIA数据收集的个人兴趣增量挖掘算法。实验表明该结构和算法不仅能够反映用户的长期兴趣,而且能够跟踪用户的短期兴趣变化,具有良好的适应性,进而为实现搜索引擎的个性化信息检索奠定了基础。  相似文献   

18.
通过分析目前主流的Web用户访问模式挖掘的技术方法,针对各种挖掘算法存在复杂度高、灵活性低的缺陷,本文提出一种能对不规则用户访问路径进行用户访问模式挖掘的聚类算法,该算法可以简单高效地挖掘不定长度的用户兴趣模式。  相似文献   

19.
Web日志挖掘探析   总被引:1,自引:0,他引:1  
Web日志挖掘是数据挖掘领域中一个重要研究方向。文章对Web日志挖掘相关问题进行了探讨,分析了Web日志挖掘模式发现及其相关算法的不足,阐述了Web日志挖掘模式发现阶段增量更新的重要性。  相似文献   

20.
概念格作为一种用于数据组织和数据分析的形式化工具,有着广阔的应用领域,如信息检索、数字图书馆、软件工程、数据挖掘等方面。先对概念格进行了简单的介绍,然后讨论了Web日志挖掘过程的两个重要阶段:数据预处理和模式发现,并将概念格应用于模式发现以进行频繁页面之间的关联规则挖掘和频繁访问路径挖掘,减少了候选项集的产生,可有效提高挖掘效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号