首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于自顶向下的投影挖掘策略,提出一种无需多遍扫描数据库的Web访问模式算法TAM-WAP.其特点是用当前所挖掘数据的特征去驱动一个预测算法,根据预测结果,有选择性地生成中间数据.对多种实际数据和模拟数据的实验表明,本文算法优于传统算法.  相似文献   

2.
一种基于Close模式发现用户频繁访问路径的方法   总被引:1,自引:0,他引:1       下载免费PDF全文
Web日志挖掘的一个主要任务是获得用户的浏览模式,这对Web站点的改进和为用户提供个性化服务提供了非常有价值的潜在信息。该文在分析用户访问模式的特点后,提出了Close模式的概念,基于此概念提出了一种挖掘用户频繁访问模式的Close算法。该算法利用频繁访问模式的封闭特性,挖掘出既是频繁的又是封闭的访问模式,在一定程度上减少了下一阶段“寻找最大频繁访问模式”的工作量。用实际数据对算法的性能进行了验证和分析。  相似文献   

3.
Web日志挖掘的一个主要任务是获得用户的浏览模式,这对Web站点的改进和为用户提供个性化服务提供了有价值的潜在信息.本文提出了一种改进算法--RD_Close.该算法对数据挖掘中的Close方法进行了改进,并引入了RD_Apriori方法中缩减数据库的思想.这种改进算法能有效发现用户频繁访问模式.最后,用实际数据对算法性能进行了充分验证和深入分析.  相似文献   

4.
挖掘频繁访问模式是Web日志挖掘的一个重要任务。针对类Apriori算法和GITC算法的不足,提出了基于双亲链的单次扫描求交的Web频繁访问模式挖掘算法—BIPL,该算法首先对用户的访问模式两两进行交集运算,生成候选访问模式,并在求交集过程中保存各个候选访问模式的双亲模式,然后通过简单的求和运算,计算出各个候选访问模式的支持数。最后通过理论分析和实验验证,该算法是稳定的和高效的。  相似文献   

5.
随着Internet的迅速发展,Web站点的访问用户越来越多样化,不同种类用户的访问模式有所不同.提出一种基于会话分类的Web用户访问模式挖掘方法.这套方法把用户会话划分为人类用户会话、网络爬虫会话和资源下载类用户会话三大类,在此基础上分别对3类用户的访问模式进行挖掘.通过会话分类可以提高挖掘的效率与准确性.其中重点研究了人类用户的访问模式挖掘,提出一种基于用户访问路径树的事务识别方法,并对PrefixSpan算法进行了改进.这套方法在实验中取得了很好的挖掘效果.  相似文献   

6.
一种基于有向树挖掘Web日志中最大频繁访问模式的方法   总被引:6,自引:0,他引:6  
提出了一种基于Apriori思想的挖掘最大频繁访问模式的s Tree算法。该算法使用有向树表示用户会话,能挖掘出最大前向引用事务和用户的浏览偏爱路径;使用一种基于内容页面优先的支持度计算方法,能挖掘出传统算法不能发现的特定的用户访问模式;使用频繁模式树连接分层的频繁弧克服了图结构数据挖掘算法中直接连接两个频繁模式树要判断连接条件的缺点,同时采用预剪枝策略,降低了算法的开销。实验表明,s Tree算法具有可扩展性,运行效率比直接采用图结构数据挖掘算法要高。  相似文献   

7.
用户频繁访问模式的发现是Web日志挖掘的重要研究内容。本文提出了一种先求两两用户访问模式的交集结果再生成候选频繁访问模式,然后扫描数据库,统计各个候选频繁访问模式的支持度计数的GITC算法。经过理论分析和实验验证,该算法能有效地发现用户频繁访问模式。  相似文献   

8.
基于选择偏爱度的频繁模式挖掘算法   总被引:1,自引:0,他引:1  
Web技术迅速地发展,如何从庞杂的信息中获取知识已经成为人们迫切希望解决的问题之一。通过对Web日志文件的挖掘可以发现用户的频繁访问模式,找出用户的偏爱度和满意度,进行个性化服务或者帮助站点管理者进行站点的管理和结构。针对如何发现用户的频繁偏爱模式这个问题,本文综合了用户浏览时间和浏览页面的频度这两个决定因素,提出了基于选择偏爱度的使用模式挖掘算法(SPM算法),该算法在一定程度上提高了使用模式挖掘算法的覆盖率和准确率。  相似文献   

9.
用户访问模式挖掘中数据预处理问题的研究   总被引:5,自引:0,他引:5  
首先给出了用户访问模式挖掘的概念,然后主要对用户访问模式挖掘中的数据预处理工作中碰到的一些问题及对这些问题的解决方法进行了较为详细的描述。  相似文献   

10.
Web访问挖掘预处理的用户识别算法   总被引:1,自引:0,他引:1  
Web访问挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。该文主要对Web挖掘技术中的预处理过程进行了研究,着重分析了其中的用户识别方法,并给出了一个用户识别的通用算法。  相似文献   

11.
针对传统Web访问模式挖掘系统中用户识别和会话识别的复杂性和不准确性,该文提出了基于过滤器的Web访问模式挖掘系统。它能够准确地识别用户和会话,为挖掘算法提供优质的数据。给出了日志过滤器的实现和部署,提出了Web访问模式的挖掘算法。目前该方法已经广泛地应用于科学数据库系统中。  相似文献   

12.
Web Usage Mining is the application of data mining techniques to large web log databases in order to extract usage patterns. However, most of the previous studies on usage patterns discovery just focus on mining intra-transaction associations, i.e., the associations among items within the same user's transactions, m cross-transaction association rule describes the association relationships among different users' transactions. In this paper, the closure property of frequent itemsets, which can determine the complete set of all frequent items exactly and is usually much smaller than the latter, is used to mine cross-transaction association rules from web log databases. We give the basic notion of frequent cross-transaction closed itemsets and prove the related necessary theories. And an efficient algorithm, i.e. MFCCPS(Mining Frequent Cross-Transaction Closed Pageviews Sets), is designed and implemented. At last, an extensive experimental result on two synthetic datasets shows that our approach outperforms previous methods.  相似文献   

13.
基于访问路径树的Web频繁访问路径挖掘算法研究   总被引:2,自引:0,他引:2  
频繁访问路径发现是Web数据挖掘的重要研究内容。提出了一种挖掘连续频繁访问路径的高效算法:PS2算法,该算法利用访问路径树挖掘频繁扩展子路径,只需一次数据库扫描,试验表明该算法在效率上优于类Apriori的算法。  相似文献   

14.
不产生候选的快速投影频繁模式树挖掘算法   总被引:8,自引:0,他引:8  
1.概述近年来,对事务数据库、时序数据库和各种其它类型数据库中的频繁模式挖掘的研究越来越普及。许多先前的研究都是采用Apriori或类似的候选产生—检查迭代算法,使用候选项集来找频繁项集。这些算法都基于一种重要的反单调的Apriori性质:任何非频繁的(k—1)-项集都不可能是频繁k-项集的子集。因此,如果一个候选k-项集的(k—1)-子集不在频繁(k—1)-项集中,则该候选也不可能是频繁的,从而可  相似文献   

15.
杨沛  谭琦 《计算机科学》2008,35(2):150-153
极大频繁子树挖掘在Web挖掘、HTML/XML文档分析、生物医学信息处理等领域有着重要的应用,可用于解决这些领域的自同构问题.本文提出了一种极大频繁子树挖掘算法(MFTM).MFTM基于最右路径扩展技术,在搜索过程中,采用覆盖定理进行裁剪,压缩搜索空间,从而极大地加快了算法的收敛速度.性能实验表明,极大频繁挖掘等算法是有效和可伸缩的.  相似文献   

16.
基于Web日志的用户访问模式挖掘   总被引:1,自引:0,他引:1  
Web日志挖掘是数据挖掘技术在Web日志数据存储中的应用。论文介绍了Web日志挖掘,在分析发现用户访问模式方法——类Apriori算法的基础上,给出一种基于粗糙集的用户访问模式聚类方法。  相似文献   

17.
一种直接在Trans-树中挖掘频繁模式的新算法   总被引:5,自引:1,他引:5  
范明  王秉政 《计算机科学》2003,30(8):117-120
Frequent pattern mining plays an essential role in many important data mining tasks. FP-growth is a very efficient algorithm for frequent pattern mining. However, it still suffers from creating conditional FP-tree separately and recursively during the mining process. In this paper, we propose a new algorithm, called Least-Item-First Pat-tern Growth (LIFPG), for mining frequent patterns. LIFPG mines frequent patterns directly in Trans-tree withoutusing any additional data structures. The key idea is that least items are always considered first when the current pat-tern growth. By this way, conditional sub-tree can be created directly in Trans-tree by adjusting node-links and re-counting counts of some nodes. Experiments show that, in comparison with FP-Growth, our algorithm is about fourtimes faster and saves half of memory;it also has good time and space scalability with the number of transactions,and has an excellent performance in dense dataset mining as well.  相似文献   

18.
Efficient algorithms to mine frequent patterns are crucial to many tasks in data mining. Since the Apriori algorithm was proposed in 1994, there have been several methods proposed to improve its performance. However, most still adopt its candidate set generation-and-test approach. In addition, many methods do not generate all frequent patterns, making them inadequate to derive association rules. We propose a pattern decomposition (PD) algorithm that can significantly reduce the size of the dataset on each pass, making it more efficient to mine all frequent patterns in a large dataset. The proposed algorithm avoids the costly process of candidate set generation and saves time by reducing the size of the dataset. Our empirical evaluation shows that the algorithm outperforms Apriori by one order of magnitude and is faster than FP-tree algorithm. Received 14 May 2001 / Revised 5 September 2001 / Accepted in revised form 26 October 2001 Correspondence and offprint requests to: Qinghua Zou, Department of Computer Science, California University–Los Angeles, CA 90095, USA. Email: zou@cs.ucla.eduau  相似文献   

19.
Web用户访问模式挖掘研究   总被引:5,自引:0,他引:5  
1 引言目前World Wide Web(WWW)已经发展成为拥有近亿个工作站、数十亿页面的分布式信息空间,在这个分布式信息空间中蕴涵着具有巨大潜在价值的知识,也带来了巨大的经济效益和社会效益。对于不同层次、不同使用目的和爱好的浏览者需要个性化的信息服务,希望网站能够根据自己的浏览习惯,动态定制  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号