首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 140 毫秒
1.
挖掘频繁访问模式是Web日志挖掘的一个重要任务。针对类Apriori算法和GITC算法的不足,提出了基于双亲链的单次扫描求交的Web频繁访问模式挖掘算法—BIPL,该算法首先对用户的访问模式两两进行交集运算,生成候选访问模式,并在求交集过程中保存各个候选访问模式的双亲模式,然后通过简单的求和运算,计算出各个候选访问模式的支持数。最后通过理论分析和实验验证,该算法是稳定的和高效的。  相似文献   

2.
一种新的Web频繁访问模式挖掘算法   总被引:1,自引:0,他引:1  
提出了一种基于有向图的从Web日志中挖掘用户频繁访问模式的新算法,与传统使用基于关联规则挖掘的序列模式挖掘技术相比,本算法采用有向图来记录Web访问序列和它的计数,在挖掘过程中只需要扫描数据库一次,不产生数量庞大的候选模式,即可直接挖掘出所有的Web频繁访问路径,大大提高了Web访问模式的发现效率。  相似文献   

3.
分析实际应用中有效访问序列的特点,提出了一种采用自底向上策略快速挖掘最大频繁项集的OUS算法。该算法首先对用户项集进行重叠操作统计浏览次数,然后合并,依据用户给出的最小支持度删除原项集中的非频繁页面元素,并对两两用户项集筛选生成候选频繁项集,最后扫描数据库,统计各个候选频繁项集的支持度计数。实验结果表明,该算法能有效地发现用户最大频繁项集。  相似文献   

4.
基于Web挖掘的过程模型及算法   总被引:2,自引:0,他引:2  
针对Web信息的结构特点设计了一个发现用户访问模式的PDAS系统,并以关联规则为理论基础提出了发现单一用户K 序列频繁访问模式的过程模型及算法。经实验证明,通过该算法获得的频繁访问模式对商业网站的营销决策有一定辅助意义。  相似文献   

5.
针对Web用户访问模式问题,采用最大频繁访问路径(MFP)方法可以挖掘出更有普遍意义的模式。给出一种新的用户访问模式树WUAP tree结构,并采用E OEM模型,综合考虑了页面拓扑结构及用户浏览路径等多个数据源,进一步提出了一种Web访问模式挖掘算法WUAP mine。该算法不用产生候选集和递归,只对事务数据库进行一次扫描,对WUAP tree结构进行深度优先遍历一次,就可从WUAP tree结构上直接查询出Web用户频繁访问模式。最后,从理论和实践上推导和验证了它的有效性和高效性。  相似文献   

6.
Web使用挖掘中Apriori算法的改进研究   总被引:1,自引:0,他引:1  
分析了挖掘频繁访问模式的过程和当前Apriori算法的缺陷,提出了一种Apriori算法的改进算法:BI_Apriori算法.改进的算法采用不规则数组来保存项集信息,有效省去了扫描数据库所耗费的大量时间.将项集有序性引入到该数组上,减少了候选项集的个数.并采用二进制来表示1阶频繁访问模式,提高了模式匹配和连接的效率.试验结果表明,该改进算法能更有效地发现各种长度不同的访问模式.  相似文献   

7.
基于Bayes概率的用户访问路径及基发现算法   总被引:2,自引:1,他引:1       下载免费PDF全文
用户访问模式的数据挖掘,研究如何从用户与Web服务器的交互数据中发现隐含的规律性。西文根据交互数据的特点,提出一种基于Bayes概率的用户访问模式表示法,并给出基于这种模型的频繁访问路径发现算法。  相似文献   

8.
用户访问模式的数据挖掘,研究如何从用户与Web服务器的交互数据中发现隐含的规律性。西文根据交互数据的特点,提出一种基于Bayes概率的用户访问模式表示法,并给出基于这种模型的频繁访问路径发现算法。  相似文献   

9.
有序概念格与WWW用户访问模式的增量挖掘   总被引:7,自引:1,他引:7  
访问模式是用户沿URL超链寻找和浏览网页规律的总结 ,发现用户访问模式对于帮助用户快速到达目标页面 ,进而实现搜索引擎的个性化导航具有重要意义 目前虽有一些挖掘用户访问模式的工作 ,但尚未发现能够处理增量数据的系统化挖掘算法 用户访问模式挖掘可由如下 3个步骤完成 :①由日志库提取最大向前关联路径 ,②由最大向前关联路径发现频繁关联路径序列 ,③由频繁关联路径序列得到最大频繁关联路径序列 ,其中②是问题的核心 为得到系统化算法 ,对概念格模型加以顺序约束 ,提出了有序概念格 ,并将其用于Web访问模式的增量发掘 给出了增量式高效挖掘算法 ,并与相关工作进行了比较 ,对合成数据和实际数据的实验结果验证了算法的有效性  相似文献   

10.
基于频繁序列模式压缩技术的网站结构优化算法旨在发现用户在浏览过程中频繁访问的序列关联,为优化站点结构提供有力的依据。分析了现有频繁模式聚类算法的不足,提出了在模式聚类函数的基础上生成一个压缩的偏序(Partial Order)的算法,实验结果显示该算法可以对频繁序列模式进行高效、高质量的压缩,可以得到数量更少、信息量更大的模式,从而提高发现的频繁访问序列的兴趣性。  相似文献   

11.
郭维 《计算机工程》2008,34(4):60-62
GITC算法和Tree-DM算法都是基于交集关系的挖掘算法。文章分析这2个算法的性能特点,提出一种GITC算法的改进算法:GI算法。该算法利用适当的数据结构来保存支持数信息,省去了扫描原数据库来统计支持数耗费的大量时间,并解决了Tree-DM算法在二次求交、冗余求交等方面存在的问题。经过实验验证,较GITC算法而言,GI算法可以更高效地挖掘用户频繁访问模式。  相似文献   

12.
用户访问兴趣路径挖掘方法   总被引:2,自引:1,他引:1  
针对当前挖掘用户访问模式算法仅将频繁访问路径作为用户浏览兴趣路径的问题,依据使用Web日志挖掘用户兴趣页面时,通过引入页面信息量参数,综合考虑页面访问次数、浏览时间和页面信息量大小来定义用户兴趣度,提出了基于兴趣度的用户访问模式挖掘算法。实验证明该算法是有效的,在用户浏览兴趣度量方面比当前的频繁访问路径挖掘算法更准确。  相似文献   

13.
通过分析目前主流的Web用户访问模式挖掘的技术方法,针对各种挖掘算法存在复杂度高、灵活性低的缺陷,本文提出一种能对不规则用户访问路径进行用户访问模式挖掘的聚类算法,该算法可以简单高效地挖掘不定长度的用户兴趣模式。  相似文献   

14.
自适应网站能够提高网站对用户的服务质量。本文首先给出自适应网站的总体框架,对框架中主要模块做详细的分析,包括数据预处理、数据挖掘、页面推荐和站点调整。在数据挖掘模块给出一种有效的识别用户访问模式的算法,该算法利用数据库查询简化频繁最大前向访问路径集的查找,并在此基础上形成频繁访问路径图,为页面推荐和站点调整做好准备。最后给出自适应网站的设计原则。  相似文献   

15.
基于兴趣度的Web用户访问模式分析   总被引:1,自引:0,他引:1  
吕佳 《计算机工程与设计》2007,28(10):2403-2404,2407
Web日志隐含了用户访问Web行为的动因和规律,如何有效地从中挖掘出用户访问模式是Web日志挖掘的重要研究内容.构造了User_ID-URL矩阵,矩阵元素为用户访问页面的兴趣度.应用经典的模糊C-均值聚类算法进行用户访问模式分析,通过在真实数据集上的实验,结果表明引入了用户兴趣度的日志挖掘算法是行之有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号